Robotter på nettet
Mange historier baserer sig i dag på robotter, der trækker store mængder data ud fra nettet.
Da norske VG i foråret 2008 skrev, at flere kvindelige skuespillere følte sig presset til sex som modydelse for at få en rolle, skete det på basis af et udtræk af data fra den norske skuespillerhåndbog, hvorefter der var sendt et elektronisk rundspørge ud til alle de skuespillere, der havde opgivet deres e-mail i skuespillerhåndbogen.
Skuespillerhåndbogen indeholder også en række andre basisoplysninger om den enkelte skuespiller, som er trukket med ud af robotten, og som gør det muligt kun at spørge om det, man ikke ved.
Skulle man have hentet data manuelt, hvad det taget oceaner af tid. For at få oplysningerne skal man klikke ind på hver enkelt skuespiller. Det gør en robot automatisk, og den gemmer oplysningerne i en database.
Danmark i gang siden 2004
I Danmark har Dicar (Center for Analytisk Journalistik, lukkede med udgangen af 2006) siden 2004 og derefter Kaas & Mulvad benyttet robotter til at hente data til en stribe historier.
Vi har bl.a. hentet data fra Statstidende, Skat, retslisterne, husdyrbrugsregistret, flere folketings- og kommunalvalg, norske skolekarakterer, landbrugsstøttedata fra en række lande, oplysninger om praktiserende læger, og vi har overvåget folketingspolitikernes afstemninger.
I Danmark bruger vi software fra Kapow Technologies, som er relativt enkelt at gå til. I dag findes det i en gratis version, OpenKapow, som nu er begyndt at blive brugt af journalister i Norge og Danmark.
Løbende overvågning
I USA er metoden med at samle data sammen via såkaldt web scraping eller screen scraping kommet tidligere i gang, og her er den især baseret på regulær programmering frem for den danske robot-løsning.
Robotteknologien er udviklet så langt, at det er muligt at trække data ud af selv relativt håbløse pdf-dokumenter og tilsvarende. Det er muligt at sætte robotterne op til løbende at overvåge sider og opdatere egne databaser.
Ret til data
Et af de uløste spørgsmål er rettighederne til at bruge data fra offentlige og private web-sider. I begyndelsen var praksis at være pæne og anmelde brug af en robot på en side til webmasteren.
I dag henter man normalt blot oplysningerne uden først at anmelde, med mindre man med en kontrakt er bundet til ikke at gøre det. Eller der er tale om store datamængder eller løbende træk.
I forhold til offentlige myndigheder er juraen ikke fuldstændig klar. Mediejurister vurderer, at myndighederne ikke kan hævde en ophavsret til deres data, og at de heller ikke kan forbyde robotter med en argumentation om, at de gør hjemmesiderne for langsomme.
På den anden side vil myndighederne beskytte deres server mod at blive lagt ned af store udtræk. Det er derfor klogt at forsøge at løse spørgsmål om store belastninger med myndigheden ved dialog.
For medier betyder robotudtræk, at der her er et alternativ til at køre en langvarig sag om at få aktindsigt til data. Selvfølgelig skal man normalt først spørge, om man kan få data tilsendt eller downloadet. Men kan man ikke det, kan man ofte hente dem fra en database, som myndigheden driver på nettet og dermed komme først ud med historien.

