Skræl nettet – med Web Scraper

Kursus: Skræl nettet med import.io

Kurset foregår 22. – 24. november i København.

Myndighederne vil ikke give dig data, men henviser til, at du kan søge dem frem på deres hjemmeside – bid for bid. En situation, som vi alt for ofte løber ind i. Eller data er blot spredt ud over mange, mange sider på nettet. I begge situationer bliver vi nødt til at sætte computeren til at hente data hjem til dit eget regneark eller database. Det kalder vi at skrælle eller skrabe nettet.

På kurset lærer vi dig at bruge værktøjet Web Scraper til den slags opgaver. Det er gratis og meget effektivt, og du behøver ikke at kunne programmere for at være med. Web Scraper er en browser-udvidelse og findes p.t. til både Chrome og Firefox. Det installeres normalt på få sekunder og kræver ikke administratoradgang til computeren.

At skrabe et site for at skaffe sig data bør være sidste udvej, så på kurset taler vi også om alternativerne og giver dig de bedste tricks til at få data udleveret uden brug af skrabning.

Vi bruger selv web scraping i den daglige journalistik. Blandt andet er det vores web scraping af Tinglysningens sider, der ligger bag Ritzaus robotartikler om bolighandler.

Det er også web scraping, der ligger bag, når TV2 kan fortælle, at der er mange penge at spare på at leje sit sommerhus gennem Dansommers norske side i stedet for den danske. Sommerhusene er nøjagtig de samme.

Vi begynder kurset med et webkursus den 25. oktober klokken 16.00-18.00. Her gennemgår vi eksempler på journalistisk anvendelse af webscraping og hører mere ind til deltagernes behov og erfaringer. Ud fra det tilrettelægger vi en evt. personlig træning, før vi mødes på tre-dages kurset, der så bliver målrettet praktisk web scraping.

Du lærer på kurset:

  • at hente udvidelsen til Chrome og anvende Web Scraper
  • at undersøge URL-strukturen på data-sider
  • at bygge en scraper, så du kan hente data fra en lang række sites
  • at indbygge en funktion, der bladrer fra side til side
  • at indbygge en funktion, der åbner links til undersider, så du også kan skrabe dem
  • at skære tekstbidder ud med Regular Expression
  • at eksportere de indsamlede data til andre programmer

Kurset vil indeholde oplæg og mange praktiske øvelser. Og vi arbejder selvfølgelig med eksempler, der er relevante for journalister.

Forudsætninger: Et helt grundlæggende kendskab til regneark er nødvendigt. Du skal medbringe din egen pc/mac på kurset.

Prisen omfatter undervisning, undervisningsmaterialer og frokost, kaffe, te og vand i løbet af kurset.

Kursusleder: Nils Mulvad
Varighed: 3 dage
Sted: MBK, Pilestræde 61, København K
Tidspunkt: 22. – 24. november 2021
Pris: 9120 kr. (+ moms)

Tilmeld dig hos Mediernes Efteruddannelse 31. maj 2021

Er din arbejdsplads ikke medlem af PU, kan du tilmelde dig ved at sende os en mail.

TILMELDING ER BINDENDE

Din tilmelding er bindende, når du har modtaget besked om, at du er optaget, men selvfølgelig kan du komme i en situation, hvor du må melde fra. Hvis det sker mere end fire uger før kursets start, koster det en administrationsafgift på kr. 1000. Ved afbud mindre end fire uger før forløbets start opkræver vi – uanset grunden – den fulde pris.

Hvis du har tilmeldt dig privat – dvs. at du selv og ikke din arbejdsplads skal betale – har du dog 14 dages fortrydelsesret, jf. Forbrugeraftaleloven. Herefter er din tilmelding bindende.