Fem gode grunde til, at journalister skal lære web scraping

Er du i tvivl, om web scraping er noget for dig, og hvad journalister egentlig kan bruge det til, så læs her.

Hvis man gerne vil have fat i data, der ligger på nettet, kan man gå i gang med copy/paste fra en ende af. Kopiere fra websider og klistre indholdet ind i et regneark.

Web scraping er blot en automatiseret udgave af den simple copy/paste. Men da det netop er automatiseret, virker det bedst ved sider/tabeller, der har en ensartet struktur. Man kan godt sætte en web scraper til at åbne tusindvis af sider og på hver side kopiere indholdet af en tabel – eller blot kopiere enkelte oplysninger fra siden. Det kræver bare, at siderne er opbygget på nogenlunde samme måde.
Det har både vi og masser af andre journalister haft stor gavn af gennem de sidste mange år.

web scraping med python
Python er i dag programmeringssproget de fleste medier anvender, hvis de skriver deres egne web scraping-programmer. Illustration: Dan Ræder Knudsen.

Her er fem konkrete eksempler på, hvordan web scraping hjælper journalister. To af eksemplerne er fra vores egen butik. Men først input fra tre udenlandske kolleger, som kontaktede os, da vi spurgte om andres erfaringer via Nicar-L-maillisten:

Scraping har hjulpet mig til at finde historier, jeg ellers ikke havde fundet. Det er lidt som en superkraft, journalister kan trække frem, når myndigheder nægter at udlevere rå data.

Sådan siger Todd Wallack, der er undersøgende journalist og datareporter i Spotlight-teamet på Boston Globe. Han har modtaget priser for sit arbejde og været i opløbet til en Pulitzerpris tre gange. Han bruger ofte web scraping til at hente dokumenter fra myndighedssites – bl.a. afslørede han januar 2018 massiv svindel i nonprofit-organisationer i Massachusetts.

På Chicago Tribune fandt jeg og nogle redaktører på at skrabe oplysninger om bidrag til politiske kampagner og poste de interessante til Twitter. En rig fyr, Bruce Rauner, stillede op til guvenørposten, og det viste sig, at han gav sig selv kampagnebidrag for millioner af dollars. Da vi skrabede og tweetede automatisk, blev vi derfor de første til at rapportere om nogle af de største donationer i vores stats historie.

Sådan fortæller Abraham Epton, amerikansk datajournalist og web-udvikler.

Vi oplever, at myndigheder kan finde på at nægte at give aktindsigt, hvis oplysningerne allerede er tilgængelige, selv om de så er spredt ud over hundredevis af websider. Med scraping kan man selv samle oplysningerne – og det er også meget hurtigere end at få aktindsigt. Desuden kan man skrabe sig til oplysninger fx hos private virksomheder eller organisationer, der ikke er omfattet af reglerne om aktindsigt, og på den måde kan vores journalistik få mindre slagside i retning af det offentlige.

Paul Bradshaw er en britisk datajournalist og underviser på Birmingham City University. Han har bl.a. skrevet bogen “Scraping for journalists”.

Ingen modedille

I Kaas & Mulvad har vi brugt web scraping i mere end 15 år, og hver eneste time hvert eneste døgn står vores maskiner og henter data, uden at vi behøver røre ved dem. Her er blot to af mange årsager til at holde fast i denne teknik:

  • Med scraping kan vi gemme flygtige data og opbygge vores egen database, vi senere kan søge tilbage i. Kaas & Mulvad har for eksempel i mange år skrabet www.domstol.dk og hentet retslister, der fortæller, hvilke sager der skal køre ved landets domstole. Oplysningerne forsvinder ellers efter kort tid, men i vores database kan vi – og andre journalister – nu søge efter sagstyper, navne eller paragraffer. Herefter er det let at søge aktindsigt for at få detaljer om en ellers glemt sag.
  • Vil du gerne have omgående besked, når noget nyt indtræffer, er scraping en god hjælp. Via en skraber holder Kaas & Mulvad hvert 10. minut øje med alle ændringer i cvr-registeret som fx nye selskaber, ændringer i personkredsen eller regnskaber. For en mediekunde tjekker vi bl.a. alle nye regnskaber for bestemte søgeord. Er et af disse søgeord nævnt i et regnskab, får mediet omgående besked – højst 10 minutter efter, at regnskabet er offentliggjort.

Lær det selv – tag et kursus

Web scraping kan man foretage på mange måder, men det er meget almindeligt at skrive sine egne scraper-programmer, og det mest anvendte program i øjeblikket er Python. Softwaren er gratis, og det er relativt enkelt at lære. Desuden er det rigtigt sjovt at programmere og en kæmpe optur, når ens program stille og roligt kører og henter data hjem.

Det kan man forvisse sig om på vores kursus “Skrab nettet med Python”, som vi holder i København 20.-22. april 2020. Kurset er rettet mod begyndere. Vi forventer ikke, at du på forhånd kan programmere.

Til gengæld har du efter kurset fået en grundlæggende forståelse af programmering, og du kan bygge dine egne web scrapere. Læs mere om kurset her:
https://www.kaasogmulvad.dk/forside/kurser/python-f20/

No comments yet.

Skriv et svar

This site uses Akismet to reduce spam. Learn how your comment data is processed.