Skjulte lister på nettet – sådan bliver de til historier

 

Af Nils Mulvad, Kaas & Mulvad.

 

Problemer vi først må kunne løse:

 

For at skabe en liste kræves viden på forhånd

Myndigheder og organisationer lægger flere og flere data på nettet. Ofte placeres data i en database, der så er mulighed for at slå op i fra en hjemmeside. Men i en del tilfælde bygger myndigheden hjemmesiden op, så man kun kan slå en enkelt ting op ad gangen og måske på forhånd skal have bestemte oplysninger om det, man vil slå op. Måske skal man kende et navn eller et nummer. Det gælder fx, hvis man på Sundhedsstyrelsens hjemmeside ønsker at se klagesager over sundhedspersonale. Det samme gælder med hensyn til afgørelser fra Forsikringsankenævnet eller oplysninger om de mange svinetransporter rundt i landet.

 

For at skabe en liste kræves mange og komplicerede søgninger

I andre tilfælde vil man måske tjekke en stor gruppe af mennesker, for eksempel alle kandidater fra Dansk Folkeparti til byråds- og regionrådsvalg. Det er muligt med kendte søgeredskaber, fx Google. Med søgemaskinen kan man bl.a. tjekke, om nogle af dem optræder jævnligt på kendte højrefløjs-hjemmesider for derefter at se nærmere på den enkelte persons indlæg. Men skal man gøre det for en stor persongruppe, kan det tage lang tid, hvis det skal gøres manuelt.

 

Dårligt strukturerede data gør det svært at få overblik i listeform

Mange myndigheder og domstolene lægger data på deres hjemmeside, men i en form, som kræver en stor indsats, hvis man vil følge med og finde de gode historier. Det gælder fx med hensyn til retslisterne, hvor man med jævne mellemrum er nødt til at søge hos hver enkelt retskreds for at følge udviklingen. Folketingets data, danske valgresultater og fx norske firmaoplysninger er også struktureret dårligt. Med automatiseringer kan man gøre det nemmere for journalister og borgere generelt at se tendenser og følge netop de områder, som de er interesseret i.

 

 

Skaf data med aftaler, aktindsigt – eller robotter

 

Vil man ikke hente oplysningerne manuelt, kan man først og fremmest spørge dataleverandørerne, om det er muligt at få en aftale, så vi blot får en kopi af data til journalistisk brug. Det lykkes ikke hver gang, men af og til siger de faktisk ja. I andre tilfælde får vi data efter en aktindsigtssag.

 

I en række andre tilfælde sætter vi forskellige typer automatik til at klare det manuelle arbejde med at flytte data hjem til vores computer. Dicar bruger software fra Robosuite til at hente mange af disse data. I andre tilfælde kan vi klare os med at bruge en kombination af webforespørgsler og makroer i Excel. Under alle omstændigheder: Hvor det for nogle år siden var meget svært at få data, er det væsentligt nemmere i dag.

 

 

Nordjyske og ejendomsmæglerne

Nordjyske Stiftstidende havde torsdag den 6. april 2006 historier om, hvor længe husene lå hos de enkelte ejendomsmæglere, før de blev solgt, og hvor meget under den udbudte pris, de blev solgt. Historierne blev til ved at køre to typer data sammen: Dels en ugentlig robot-tapning af boligsiden.dk, dels indkøbte specialdata fra ois – den offentlige informationsserver. Disse data ligger i Dicars researchcenter.

En anden gammel kending er ejendomsmæglernes salg af giftgrunde. De historier bygger på den samme tapning af boligsiden.dk og samkørsel med Miljøstyrelsens database over giftgrunde. Senest bragte Nordjyske den type historie i påsken 2006.

 

TV2Fyn og EuroPark-retssagerne

TV2/Fyn fortalte i april 2006 om EuroPark A/S, der er den private virksomhed i landet, der det foregående år trak flest danskere i retten. Historiene kunne kun laves, fordi Dicar hver uge siden januar 2005 har gemt indholdet fra alle landets retslister.

 

Ritzau og patientforsøgene

Ritzau kunne i april 2006 afsløre, at hvert år deltager 20.000 danskere i snit i medicinske forsøg med nye lægemidler. Tallene fandt Dicar ved at lave automatiserede webforespørgsler i Datatilsynets web-database over anmeldte registre. Arbejdet skete kun med Excel.

 

Ekstra Bladet og forsikringsankenævnet.

Ekstra Bladet kørte lørdag den 22. april 2006 og søndag den 23. april 2006 historier om klagesager over forsikringsselskaber. De bygger på en tapning af web-databasen over klagesager i forsikringsankenævnet. Her er man nødt til for hver sag at åbne en pdf-fil med den enkelte afgørelse for at trække selskabets navn ud. Dicar har sat robotten op og kørt den for Ekstra-Bladet.

 

Berlingske Nyhedsmagasin og ejendomsmatadorerne

Nyhedsmagasinet har flere gange – lige som andre medier – benyttet Dicars researchcenter til at afdække ejendomsmatadorernes besiddelser.

 

Ekstra Bladet og de dårlige læger

Ekstra Bladet kørte i august 2006 listen over de sundhedspersoner, der stod på Sundhedsstyrelsens skjulte liste. Dicar havde skaffet den samlede liste. Siden har dagens Medicin også kørt historien, og listen opdateres hver dag med nye navne. Adgang til listen sker via www.recearchcenter.dk

 

Århus Stiftstidende og de kommunale ejendomme

I debatten om de store besparelser i Århus Kommune benyttede Århus Stiftstidende researchcentret i efteråret 2006 til at få en liste over samtlige ejendomme i kommunen og deres vurdering. Det rejste et politisk ønske om at få solgt nogle af ejendommene.

 

Personsøgning

Specielt inden for personsøgning giver brugen af robotter mange nye muligheder. I dag kan man bl.a. finde tidligere medarbejdere i centraladministrationens mange institutioner.

 

EU-Parlamentet

Vi har trukket data ud for Parlamentets hjemmeside om beslutninger og dokumenter for at kunne se, hvad Parlamentet bruger sin tid på og hvem der er aktive. Det har bl.a. ført til en tophistorie i Dagbladet Information.

Se artikel og kommentarer

Data - kun for massemedier:

Lov om massemediers informationsdatabaser giver redaktionelle medarbejdere mulighed for at have adgang til særlige research-databaser med flere oplysninger end andre har. Det gælder fx databaser med salgspriser på huse og andre ejendomsoplysninger. Hele området er i en gråzone, hvor der gælder forskellige tolkninger om ret til at bruge data afhængig af, om det er for almindelige borgere, markedsføring, journalistik eller andet. Dicar har valgt at lægge nogle data ud udelukkende for journalistisk research i den nuværende situation, så medierne hurtigt kan komme i gang og se, hvad der er muligt. Samtidig ser vi gerne en generel afklaring af brugsrettighederne med så åbne forhold som muligt.

 

Kammeradvokaten truer Tænk

I august 2006 besluttede Kammeradvokaten at true Forbrugerbladet Tænk med at stævne bladet, hvis det blev ved med at offentliggøre en liste over tandlæger og deres priser. Data skaffede Tænk fra www.sundhed.dk, som er det offentliges sundhedsportal. Her er priserne tilgængelige, men det er umuligt at sammenligne dem og svært at få et overblik. Kammeradvokatens argument var, at Tænk krænkede Sundhedsstyrelsens ophavsret til data ved at videregive dem.

Tænks redaktør Pernille Tranberg fik rejst sagen i medierne, og forbrugerminister Lars Barfoed stoppede sagen. Desværre fik vi ikke i denne omgang afklaret, om myndighederne kan påberåbe sig ophavsret til data som et middel til at stoppe mediernes brug af myndighedernes data.

 

 

Software

Kaas & Mulvad benutter Robosuite til at skrabe nettet. Princippet er, at man først analyserer data og strukturen i opbygningen af den eller de hjemmesider, der skal skrabes. Næste skridt er at lave en model over databasen (svarer til databasedesign). Tredje skridt er at bygge robotten skridt for skridt. Herefter testes den og til sidst gennemføres selve skrabningen – en gang eller i en fast rutine.

Robosuite er kommet I en gratis version: læs mere her: http://www.kapowtech.com

 

Den norske journalist Espen Andersen har tidligere skrevet selvstendige programmer i f.eks. php, c eller asp for å skrape netsteder. Amerikanske journalister har også benyttet Pearl.

 

Espen Andersen benytternu programmet screen-scraper ( http://screen-scraper.com/), som er gratis og kraftigt. En udvidet udgave koster knap 500 $.