Masser af offentlige data i journalistik

Tommy Kaas d. 2. november 2010 i Aktindsigt, Analyser, Kort, Robotgenereret tekst, Web scraping

(Opdateret) I årevis har danske journalister brugt offentlige data i journalistik. Nogle gange indgår data blot som en del af researchen, uden at der fokuseres på data. Andre gange har data været en del af historien, og data er præsenteret sammen med artiklerne.

Data fra afstemninger i Folketinget samles løbende ind. I en periode viste Altinget en konstant opdateret fraværsstatistik for MF'erne på baggrund af disse data.

Vi indsamler løbende data fra afstemninger i Folketinget. I en periode viste Altinget en konstant opdateret fraværsstatistik for MF'erne på baggrund af disse data.

I print-medier præsenteres data som tabeller, grafer, kort etc. I internettets første år var dette også måden, data som regel blev præsenteret på, nemlig som statiske tabeller og kort. I dag ser vi øget brug af interaktive tabeller, grafikker og kort, og vi ser begyndende brug af autogenererede tekster.

På IT- og Telestyrelsens arbejdssession den 4. november 2010 om offentlige data i spil, “Data Camp”, bliver der stillet en række datasæt til rådighed for de deltagende. Det er hensigten, at indbudte udviklere og journalister og andre datagenanvendere skal skabe produkter af de data, de deltagende myndigheder medbringer.

Vi supplerer med to datasæt (også disse stammer fra myndigheder), som vi vil arbejde på i løbet af dagen – med henblik på analyser og visualiseringer. Nemlig risikovirksomheder og svinefarme.

Som eksempler på, hvordan et datasæt over alle danske svinebesætninger (hentet fra husdyrsbrugs-registeret) kan behandles, fx af journalister, er her tre eksempler:

Svinebesætninger efter størrelse:

Klik for stor udgave

Sammenligning af antal svin og mennesker i hver kommune:

Klik for stor udgave

Og et kort, hvor man kan se sammensætningen af hver enkelt svinebesætning, hvis man klikker på punkterne.

Se stor udgave

Det er positivt, at offentlige myndigheder lægger deres data ud i et format, som det er let at anvende for andre – både for journalister og alle andre.

Vigtige data skal gratis lægges ud
Meget af projektet om offentlige data i spil foregår på www.digitaliser.dk. Her er det tydeligt, at der mangler centrale data – eller at der er forbud mod at trække data ud fra højdemodellen.

Vi ønsker, at de centrale data, der illustrerer kernespørgsmål om udviklingen i Danmark, og som kan bruges til aktuelle analyser, stilles til rådighed for alle, så de let kan se de bagvedliggende data og selv lave analyser. Og at det sker gratis. I dag forekommer det helt tilfældigt, hvilke data der er adgang til for offentligheden.

CVR-data bør være tilgængelige for alle – og ikke fungere som en pengemaskine for staten – se indlæg. Vi bør igen få adgang til ejendomsoplysninger, som da de blev offentliggjort af Statstidende. Vi bør få adgang til husdyrbrugsregistret, databasen over dyrlægers medicinudskrivninger, risikovirksomheder, højdemodel og mange andre vigtige databaser, som der er klare historier i.

Eksempler på historier
Her er link til en stribe historier, som vi og andre har lavet ved at genbruge det offentliges data:

Data, der dannes i kraft af valg, kan give andre historier end blot størrelsen af rød og blå blok. Nogle få eksempler:

Naboer stemmer politikere ind 7 ud af 10 nye kommunalpolitikere får en plads i landets byråd primært på stemmer fra naboer og bekendte fra nærområdet, viste en geografisk analyse, vi foretog af adresser på valgte, valgsteder samt stemmeafgivelser.
Stemmeprocent: 37,1 18 steder i landet lå stemmeprocenten under 50 ved kommunalvalget i 2009. Vi udtrak tal fra kmdvalg.dk og analyserede dem for Ugebrevet A4.
Lars og Lone i byrådet Der var gammelkendte danske navne på langt de fleste navneskilte, da de nye kommunalbestyrelser tog fat. Vi analyserede fornavne på valgte kandidater og viste et interaktivt kort over kønsfordelingen.
Partiernes stærke og svage områder Vi tegnede interessante kort over opbakningen til hvert enkelt parti i forbindelse med kommunevalget. Fx viste kortet over Socialdemokratiets stemmer en meget stor forskel på, hvordan syd- og nordjyder stemmer.

Kortet med de to sureste smiley-typer inden for de seneste 30 dage opdateres af sig selv.

Vi kopierer løbende de nyeste Smiley-data fra Fødevarestyrelsen. Det giver et konstant opdateret smiley-kort på alle Ekstra Bladets sider med historier om fødevarer.

P-bøder har vi fået fra de større byer og videregivet til forskellige medier. Senest har Ekstra Bladet brugt dem til en stribe historier.

På sundhed.dk findes en vejviser med data for alle praktiserende læger. Når disse data udtrækkes og analyseres, ses det tydeligt, hvor i landet problemet med de aldrende læger er størst. En analyse, vi foretog for Ugebrevet A4.

En analyse af udkantsområdernes udviklingsmuligheder, som vi foretog for Fagbladet 3F, byggede helt overvejende på myndighedsdata, som vi analyserede og kombinerede.

Fra USA er her et kort med anholdte fra Tampa Bay. Det er et godt eksempel på, at amerikanske medier kan finde på at gå virkelig langt. Amerikanske journalister er dog ikke enige om, hvor langt man skal gå.

Vi har bygget to konkrete sites op med data om EU’s landbrugsstøtte og EU’s fiskeristøtte.

Flere internationale historier – eksemplerne blev fremlagt april 2010 på den globale konference for undersøgende journalistik.

Et eksempel om norsk landbrugsstøtte – data blev udtrukket med robot fra myndighedernes website og brugt i papiravisen og på nettet. Myndighederne hverken kunne eller ville aflevere data så hurtigt, som den norske avis VG havde brug for.

3F’ere dør for tidligt – en analyse af ufaglærtes overdødelighed. Analysen bygger på en kombination af fagforeningens og myndighedernes data. Oven på analysen har vi bygget en avanceret præsentation med autogenererede tekster. Vi ser dette som et godt bud på, hvordan data i fremtiden vil ramme nettet.

Særlige udfordringer giver det, hvis vi ikke vil analysere tal, men tekster. Et eksempel hentet fra Ugebrevet A4, er vores analyse af alle talte ord i en Folketings-samling.

Trackbacks/Pingbacks

Tweets that mention Masser af offentlige data i journalistik -- Topsy.com - 2. november 2010
[…] This post was mentioned on Twitter by Michael Friis, Tommy Kaas. Tommy Kaas said: Forud for IT- og Telestyrelsens Data Camp torsdag er her kort resume om (gen)brug af off. data på nettet: http://bit.ly/dnCY9w […]

Menu

Masser af offentlige data i journalistik

Trackbacks/Pingbacks

Skriv et svar Klik her for at annulere svar.

Kontakt

Kaas & Mulvad · post@kaasogmulvad.dk ·

Tommy Kaas
+45 27 26 88 18
tommy.kaas@kaasogmulvad.dk
@tbkaas

København
Porcelænshaven 6B 1.th.
DK-2000 Frederiksberg C

Nils Mulvad
+45 51 50 48 08
nils.mulvad@kaasogmulvad.dk
@nmulvad

Aarhus
Ellebjergvej 25
DK-8240 Risskov

Cookie- og privatlivspolitik

Menu

Trackbacks/Pingbacks

Skriv et svar Klik her for at annulere svar.

Kontakt

Kaas & Mulvad · post@kaasogmulvad.dk · Tommy Kaas +45 27 26 88 18 tommy.kaas@kaasogmulvad.dk @tbkaas København Porcelænshaven 6B 1.th. DK-2000 Frederiksberg C Nils Mulvad +45 51 50 48 08 nils.mulvad@kaasogmulvad.dk @nmulvad Aarhus Ellebjergvej 25 DK-8240 Risskov Cookie- og privatlivspolitik