10 råd om god web scraping-etikette

Etiske retningslinjer for scraping fylder en del blandt folk, der scraper. Kaas & Mulvad har scrapet siden 2004. Vi følger disse ti råd.

1. Forsøg at indgå i dialog

Skriv til ejeren af data og prøv at få data uden at scrape eller spørg til, hvordan du kan trække dem ud på den bedst mulige måde. Fortæl evt. hvad du bruger data til.

2. Tjek robot.txt

Robot.txt benyttes af hjemmesider til at markere de biblioteker og sider, der ikke ønskes indekseret af søgemaskiner. Ofte er der en god grund til det. Er siderne, vi vil scrape, nævnt i sitets robots.txt, kan vi overveje at lade være. Omvendt skal det heller ikke være en nem mulighed for myndigheder og organisationer til at holde vigtige oplysninger væk fra offentligheden.

3. Skriv, hvem du er

Lad være med at scrape anonymt – med mindre der er en rigtig god grund til det. Det svarer blot til, at vi opfører os, som vi plejer at gøre som journalister. Undtagelser skal være velbegrundede.

4. Belast servere mindst muligt

Arbejd med dine scrapere, så de ikke lægger serverne ned. Det kan ske med indbygget forsinkelse eller optimering, så der skal kaldes færrest mulig hjemmesider – eller undlades at loade sider med billeder etc. Sæt gerne scrapere i gang på tidspunkter, hvor trafikken er mindst. Det går måske hurtigere for dig, og du generer mindst muligt.

5. Respekter GDPR

Hvis du henter persondata fra myndigheder, så sørg for at respektere GDPR. Hvis du henter data fra andre kilder, så vær også opmærksom på GDPR. Der er ingen grund til at få en unødvendig sag. Samtidig kan du også ved at anmelde massemediets interne redaktionelle databaser til Datatilsynet have tilladelse til at gemme visse persondata, så længe de kun anvendes internt af redaktionelle medarbejdere.

6. Respekter ophavsret

Opbygningen af databaser betragtes som ophavsretsligt beskyttet. Du er også meget sjældent interesseret i en præcis kopi af database-strukturen. Gem data på den måde, der passer til dit formål.

7. Danske myndigheders data er ikke ophavsretsligt beskyttet

Nogle gange vil myndigheder ikke give dig et dump af data, og de forsøger samtidigt at gøre det meget svært at trække deres data ud, for eksempel valgdata og data fra husdyrbrugsregistret. Men myndigheders data er ikke ophavsretsligt beskyttet. Du har ret til at hente dem.

8. Hurtige side-skrab er OK

Nogle gange er tiden bare en afgørende faktor for medier. Mange gange faktisk. Og der er ingen grund til en lang dialog, hvis data ligger fremme, og de let kan hentes. Så gør det bare. Ligesom der kan være sider, som andre journalister allerede har hentet, og hvor der ikke er behov for en lang dialog først.

9. Fortæl at du scraper

Fortæl i artiklen/nyhedsproduktionen, at du har fået data ud ved at scrape. Normalt bruger vi ikke meget plads på at fortælle, hvordan vi har fået fat i oplysninger, men netop med scraping er der en pointe i at gøre klart, at data er hentet på organisationens hjemmeside.

10. Del resultatet med ejeren af hjemmesiden

Med scraping får du ofte en struktureret version af data, som den pågældende institution ikke selv har. Du vil også ofte opdage fejl i data – fejl, som dataejeren muligvis ikke selv er opmærksom på. Vær åben og del dine data og bed dataejeren om at vurdere indholdet. Det kan være en metode til at få en langt bedre historie.

Se også disse ganske glimrende blogindlæg:
Ethics in data journalism: mass data gathering – scraping, FOI and deception
Ethics in Web Scraping

 

Der er lukket for kommentarer.