Web Scraping

Mange historier baserer sig i dag på robotter, der trækker store mængder data ud fra nettet.

Eksempler

Da norske VG i foråret 2008 skrev, at flere kvindelige skuespillere følte sig presset til sex som modydelse for at få en rolle, skete det på basis af et udtræk af data fra den norske skuespillerhåndbog, hvorefter der var sendt et elektronisk rundspørge ud til alle de skuespillere, der havde opgivet deres e-mail i skuespillerhåndbogen.

Skuespillerhåndbogen indeholder også en række andre basisoplysninger om den enkelte skuespiller, som er trukket med ud af robotten, og som gør det muligt kun at spørge om det, man ikke ved.

Skulle man have hentet data manuelt, hvad det taget oceaner af tid. For at få oplysningerne skal man klikke ind på hver enkelt skuespiller. Det gør en robot automatisk, og den gemmer oplysningerne i en database.

Danmark i gang siden 2004

I Danmark har vi i Kaas & Mulvad benyttet robotter til at hente data til masser af historier. Vi begyndte allerede i 2004 i Dicar (Center for Analytisk Journalistik, der lukkede med udgangen af 2006).

Vi har bl.a. hentet data fra Statstidende, Skat, retslisterne, husdyrbrugsregistret, flere folketings- og kommunalvalg, norske skolekarakterer, landbrugsstøttedata fra en række lande, oplysninger om læger og tandlæger, og vi har overvåget folketingspolitikernes afstemninger.

I Danmark bruger vi software fra Kapow Technologies, som er relativt enkelt at gå til. Alternativet til et dyrt betalingsprogram som Kapow er fx at bruge Import.ioHeliumscraper, Outwit eller et programmeringssprog som fx Python.

Løbende overvågning

I USA er metoden med at samle data sammen via såkaldt web scraping eller screen scraping kommet tidligere i gang, og her er den især baseret på regulær programmering frem for robot-løsninger.

Robotteknologien er i dag så veludviklet, at det er muligt at trække data ud af selv relativt håbløse pdf-dokumenter og tilsvarende. Det er muligt at sætte robotterne op til løbende at overvåge sider og opdatere egne databaser.

Ret til data

Et af de uløste spørgsmål er rettighederne til at bruge data fra offentlige og private web-sider. I begyndelsen var praksis at være pæne og anmelde brug af en robot på en side til webmasteren.

I dag henter man normalt blot oplysningerne uden først at anmelde, med mindre man med en kontrakt er bundet til ikke at gøre det. Eller der er tale om store datamængder eller løbende træk.

I forhold til offentlige myndigheder er juraen ikke fuldstændig klar. Mediejurister vurderer, at myndighederne ikke kan hævde en ophavsret til deres data, og at de heller ikke kan forbyde robotter med en argumentation om, at de gør hjemmesiderne for langsomme.

På den anden side vil myndighederne beskytte deres server mod at blive lagt ned af store udtræk. Det er derfor klogt at forsøge at løse spørgsmål om store belastninger med myndigheden ved dialog.

For medier betyder robotudtræk, at der her er et alternativ til at køre en langvarig sag om at få aktindsigt til data. Selvfølgelig skal man normalt først spørge, om man kan få data tilsendt eller downloadet. Men kan man ikke det, kan man ofte hente dem fra en database, som myndigheden driver på nettet og dermed komme først ud med historien.