Tekster er også data

Det er heldigvis ved at være almindeligt accepteret, at journalistik kan vinde i troværdighed, dybde og tyngde ved at være funderet på data. Men data er andet og mere end tal i tabeller og kolonner.
Også tekster er data i sig selv og skal behandles som sådan.
Det var en af pointerne fra CAR-dagen, som blev afviklet i lørdags i forbindelse med FUJ-graverkonferencen i København.
Chase Davis, journalist og web-udvikler, som var igennem fra Sacramento, Californien via Skype, gjorde også dette synspunkt gældende, da han deltog i en paneldebat.
En web-guru som Adrian Holovaty, der bl.a. har udviklet Chicagocrime.org og everyblock.com har i flere interviews understreget, at medier bruger tid og kræfter på at indsamle information for at kunne skrive artikler, noter og lister, men at samme medier forringer værdien af det indsamlede ved ikke at gemme informationen (teksterne) på en struktureret måde i en database. De bringer bare “big blobs of text”, der i praksis ikke kan anvendes på nogen særlig brugervenlig måde, når disse først er skovlet på websiderne.
At man trods alt godt kan få en vis mening i disse store tekstklumper, blev dokumenteret i et andet oplæg på CAR-dagen, hvor undertegnede sammen med journalist John Bones fra norske VG, gav en række eksempler på, hvordan man kan analysere fritekster.
I John Bones præsentation, gennemgås en række historier, han har hjulpet på tryk og på nettet for VG. Historierne har drejet sig om analyser af de politiske lederes landsmødetaler. Analyserne viste fx mønstrene i politikernes taler. Hvor mange lange og korte ord de brugte. Hvilke favoritord de havde, hvor mange gange de brugte visse centrale og værdiladede ord, hvor lang tid de talte mellem hvert bifald og meget andet. På VGs hjemmeside kan man stadig gå på jagt i de interaktive grafikker:

Erna er applaus-dronningen

Her er politikernes favoritord: Utrolige Kristin!

Jeg supplerede i min præsentation med at henvise til en analyse, Kaas & Mulvad har foretaget for Ugebrevet A4. A4’s historier handler om politikernes brug af Folketingets talerstol, og konklusionen er hårdt og kontant, at de, der bruger tid på at stille sig op og tale i salen i Folketinget, jævnt hen er politikere uden magt og indflydelse. Og at tale dér hjælper ikke stort på indflydelsen.
Historierne bygger på en analyse af alle indlæg i seneste folketingssamling – og i analysen afdækkes, hvilke politikere, der kun er oppe at tale nogle få gange på en enkelt dag i hele samlingen – mens andre har talt i 26 timer i alt.
En nem måde at komme i gang med at lave enkle analyser af tekster på, er ved at lave “ordskyer”. Man kan fx gå til den gratis webtjeneste wordle.net – her kan man kopiere en tekst ind og bede om at få en grafik over de mest anvendte ord. De mest almindelige ord (fx forholdsord) kan sorteres fra, så man ikke får en grafik, der er domineret af ord som “og”, “at”, “som” og “der”. Som eksempel er her en grafik, der viser, hvilke ord der blev anvendte hyppigst af henholdsvis Pia Kjærsgaard og Helle Thorning-Schmidt i seneste folketingssamling.
Det er også muligt at lave lignende ordskyer – og mange andre typer grafikker på tjenesten Manyeyes. Også denne er gratis, men her skal man dog registrere sig for at være bruger. Man uploader sine data, så de bliver synlige for alle og kan så analysere dem på mange andre måder.
I oplægget viste vi også en række eksempler på gode, sjove og inspirerende interaktive grafikker fra New York Times. Fx disse:

Word Train (valgversion)

Word Train (kriseversion)

Indsættelsestaler

Tweets under Super Bowl

Og en enkelt interaktiv grafik fra VG, der bygger på stemmeafgivning ved Melodi Grand Prix. Artiklens og grafikkens pointe var, at Norge og Sverige er gode til at stemme lokalt – også på danske kunstere. Men at Danmark glemmer de nordiske naboer, når det kommer til stemmerne.:

Det store Danskesviket

No comments yet.

Skriv et svar

This site uses Akismet to reduce spam. Learn how your comment data is processed.