Af Nils Mulvad, Kaas
& Mulvad.
Problemer vi først må kunne
løse:
For at skabe en liste
kræves viden på forhånd
Myndigheder og organisationer lægger flere og flere data på nettet. Ofte placeres data i en database, der så er mulighed for at slå op i fra en hjemmeside. Men i en del tilfælde bygger myndigheden hjemmesiden op, så man kun kan slå en enkelt ting op ad gangen og måske på forhånd skal have bestemte oplysninger om det, man vil slå op. Måske skal man kende et navn eller et nummer. Det gælder fx, hvis man på Sundhedsstyrelsens hjemmeside ønsker at se klagesager over sundhedspersonale. Det samme gælder med hensyn til afgørelser fra Forsikringsankenævnet eller oplysninger om de mange svinetransporter rundt i landet.
For at skabe en liste
kræves mange og komplicerede søgninger
I andre tilfælde vil man måske tjekke en stor gruppe af mennesker, for eksempel alle kandidater fra Dansk Folkeparti til byråds- og regionrådsvalg. Det er muligt med kendte søgeredskaber, fx Google. Med søgemaskinen kan man bl.a. tjekke, om nogle af dem optræder jævnligt på kendte højrefløjs-hjemmesider for derefter at se nærmere på den enkelte persons indlæg. Men skal man gøre det for en stor persongruppe, kan det tage lang tid, hvis det skal gøres manuelt.
Dårligt strukturerede
data gør det svært at få overblik i listeform
Mange myndigheder og domstolene lægger data på deres hjemmeside, men i en form, som kræver en stor indsats, hvis man vil følge med og finde de gode historier. Det gælder fx med hensyn til retslisterne, hvor man med jævne mellemrum er nødt til at søge hos hver enkelt retskreds for at følge udviklingen. Folketingets data, danske valgresultater og fx norske firmaoplysninger er også struktureret dårligt. Med automatiseringer kan man gøre det nemmere for journalister og borgere generelt at se tendenser og følge netop de områder, som de er interesseret i.
Skaf data med aftaler,
aktindsigt – eller robotter
Vil man ikke hente oplysningerne manuelt, kan man først og fremmest spørge dataleverandørerne, om det er muligt at få en aftale, så vi blot får en kopi af data til journalistisk brug. Det lykkes ikke hver gang, men af og til siger de faktisk ja. I andre tilfælde får vi data efter en aktindsigtssag.
I en række andre tilfælde sætter vi forskellige typer automatik til at klare det manuelle arbejde med at flytte data hjem til vores computer. Dicar bruger software fra Robosuite til at hente mange af disse data. I andre tilfælde kan vi klare os med at bruge en kombination af webforespørgsler og makroer i Excel. Under alle omstændigheder: Hvor det for nogle år siden var meget svært at få data, er det væsentligt nemmere i dag.
Nordjyske og ejendomsmæglerne
Nordjyske Stiftstidende havde torsdag den 6. april 2006 historier om, hvor længe husene lå hos de enkelte ejendomsmæglere, før de blev solgt, og hvor meget under den udbudte pris, de blev solgt. Historierne blev til ved at køre to typer data sammen: Dels en ugentlig robot-tapning af boligsiden.dk, dels indkøbte specialdata fra ois – den offentlige informationsserver. Disse data ligger i Dicars researchcenter.
En anden gammel kending er ejendomsmæglernes salg af giftgrunde. De historier bygger på den samme tapning af boligsiden.dk og samkørsel med Miljøstyrelsens database over giftgrunde. Senest bragte Nordjyske den type historie i påsken 2006.
TV2Fyn og EuroPark-retssagerne
TV2/Fyn fortalte i april 2006 om EuroPark A/S, der er den private virksomhed i landet, der det foregående år trak flest danskere i retten. Historiene kunne kun laves, fordi Dicar hver uge siden januar 2005 har gemt indholdet fra alle landets retslister.
Ritzau og
patientforsøgene
Ritzau kunne i april 2006 afsløre,
at hvert år deltager 20.000 danskere i snit i medicinske forsøg med nye
lægemidler. Tallene fandt Dicar ved at lave automatiserede webforespørgsler i
Datatilsynets web-database over anmeldte registre. Arbejdet skete kun med
Excel.
Ekstra Bladet og
forsikringsankenævnet.
Ekstra Bladet kørte lørdag den 22. april 2006 og søndag den 23. april 2006 historier om klagesager over forsikringsselskaber. De bygger på en tapning af web-databasen over klagesager i forsikringsankenævnet. Her er man nødt til for hver sag at åbne en pdf-fil med den enkelte afgørelse for at trække selskabets navn ud. Dicar har sat robotten op og kørt den for Ekstra-Bladet.
Berlingske
Nyhedsmagasin og ejendomsmatadorerne
Nyhedsmagasinet har flere gange – lige som andre medier – benyttet Dicars researchcenter til at afdække ejendomsmatadorernes besiddelser.
Ekstra Bladet og de
dårlige læger
Ekstra Bladet kørte i august 2006 listen over de sundhedspersoner, der stod på Sundhedsstyrelsens skjulte liste. Dicar havde skaffet den samlede liste. Siden har dagens Medicin også kørt historien, og listen opdateres hver dag med nye navne. Adgang til listen sker via www.recearchcenter.dk
Århus Stiftstidende
og de kommunale ejendomme
I debatten om de store besparelser i Århus Kommune benyttede
Århus Stiftstidende researchcentret i efteråret 2006 til at få en liste over
samtlige ejendomme i kommunen og deres vurdering. Det rejste et politisk ønske
om at få solgt nogle af ejendommene.
Personsøgning
Specielt inden for personsøgning giver brugen af robotter mange nye muligheder. I dag kan man bl.a. finde tidligere medarbejdere i centraladministrationens mange institutioner.
EU-Parlamentet
Vi har trukket data ud for Parlamentets hjemmeside om beslutninger og dokumenter for at kunne se, hvad Parlamentet bruger sin tid på og hvem der er aktive. Det har bl.a. ført til en tophistorie i Dagbladet Information.
Data - kun for massemedier:
Lov om massemediers informationsdatabaser giver redaktionelle medarbejdere mulighed for at have adgang til særlige research-databaser med flere oplysninger end andre har. Det gælder fx databaser med salgspriser på huse og andre ejendomsoplysninger. Hele området er i en gråzone, hvor der gælder forskellige tolkninger om ret til at bruge data afhængig af, om det er for almindelige borgere, markedsføring, journalistik eller andet. Dicar har valgt at lægge nogle data ud udelukkende for journalistisk research i den nuværende situation, så medierne hurtigt kan komme i gang og se, hvad der er muligt. Samtidig ser vi gerne en generel afklaring af brugsrettighederne med så åbne forhold som muligt.
Kammeradvokaten truer
Tænk
I august 2006 besluttede Kammeradvokaten at true Forbrugerbladet Tænk med at stævne bladet, hvis det blev ved med at offentliggøre en liste over tandlæger og deres priser. Data skaffede Tænk fra www.sundhed.dk, som er det offentliges sundhedsportal. Her er priserne tilgængelige, men det er umuligt at sammenligne dem og svært at få et overblik. Kammeradvokatens argument var, at Tænk krænkede Sundhedsstyrelsens ophavsret til data ved at videregive dem.
Tænks redaktør
Software
Kaas & Mulvad benutter Robosuite til at skrabe nettet. Princippet er, at man først analyserer data og strukturen i opbygningen af den eller de hjemmesider, der skal skrabes. Næste skridt er at lave en model over databasen (svarer til databasedesign). Tredje skridt er at bygge robotten skridt for skridt. Herefter testes den og til sidst gennemføres selve skrabningen – en gang eller i en fast rutine.
Robosuite er kommet I en gratis version: læs mere her: http://www.kapowtech.com
Den norske journalist Espen Andersen har tidligere skrevet
selvstendige programmer i f.eks. php, c eller asp for å skrape netsteder.
Amerikanske journalister har også benyttet Pearl.
Espen Andersen benytternu programmet screen-scraper ( http://screen-scraper.com/),
som er gratis og kraftigt. En udvidet udgave koster knap 500 $.