≡ Menu

At få overblik over brugen af udenlandsk arbejdskraft i Danmark har længe mindet om at lægge et puslespil, hvor en stor del af brikkerne konstant skiftes ud. Det har været svært at danne sig et overordnet billede. Med assistance fra Kaas & Mulvad er BAT-kartellet i de seneste år kommet tættere på at kunne forstå, hvad der egentlig foregår rundt om på landets byggepladser.

Bygge-, Anlægs- og Trækartellet under LO har i flere år forsøgt at holde styr på udenlandsk arbejdskraft, overenskomster og konflikter. Opgaven er vokset voldsomt i kompleksitet over de seneste år, men efter i et par år at have brugt målrettet værktøj til at overvåge data og aktive besøg på arbejdspladserne, tegner sig en klar konklusion: BAT har nu fået overenskomst med 45 procent af de udenlandske arbejdere inden for sit område.

BAT-kartellet, der er en faglig samarbejdsorganisation for syv LO-forbund, har tilbage fra 2009 forsøgt at skabe et overblik. I de første år havde en medarbejder som opgave at følge med i opgørelserne fra Erhvervsstyrelsen. Alle udenlandske arbejdsgivere uden dansk CVR-nummer har pligt til at oprette sig i det såkaldte RUT-register. Store dele af oplysningerne i registeret er offentligt tilgængelige. Og man kan søge i registeret fra Erhvervsstyrelsens hjemmeside:

På søgesiden for udenlandske virksomheder kan man i dag få 100 virksomheder vist ad gangen.

På søgesiden for udenlandske virksomheder kan man i dag få 100 virksomheder vist ad gangen.

 
BAT ønskede historik på plads
BAT-medarbejderen samlede oplysningerne fra RUT-registeret i et regneark og sendte hver uge en opdateret version rundt til alle kartellets afdelinger.
I regnearket sammenholdt hun myndighedernes register med indberetninger fra afdelingernes besøg på arbejdspladserne samt deres oplysninger om overenskomster og konflikter.

Men opgavens omfang voksede. I løbet af 2012 boomede både antallet af RUT-registreringer og opgaven med at besøge arbejdsstederne. BAT-kartellet ønskede mere styr på data og bedre hjælp til afdelingerne, når de skulle tilrettelægge deres besøg.

Derfor bad kartellet Kaas & Mulvad om hjælp til disse to opgaver: Hvordan kunne data indsamles bedre, og hvordan kunne de automatisk deles med afdelingerne.

13.961 arbejdssteder på otte måneder er registreret i RUT
Registreringerne fra 2. februar i år og frem til 7. oktober er nu analyseret, og resultatet kan gøres op. Perioden er valgt, fordi virksomhederne fra 2. februar nu også skal oplyse periode og antallet af ansatte i den del af registret, der er offentlig tilgængelig.

I den nævnte periode har RUT-registret fået 13.961 registreringer af udenlandske virksomheder, der har haft arbejdsopgaver rundt om i Danmark. Af disse er de fleste – to ud af tre – inden for BAT’s område.

Måler man på antallet af ansatte er 55 procent inden for BAT’s område, hvad der viser, at BAT har flere kortere registreringer end andre områder. Følger man området, vil man se, at det ikke er ualmindeligt, at nogle arbejdsgivere registrerer opgaver af en enkelt dags varighed – og gentager den flere gange.

Langt hovedparten af udenlandske arbejde er inden for BATs område
Koncentrerer man sig om BAT-kartellet, og gør man antallet af arbejdsdage op, som i perioden blev registreret i RUT-registret, når man op på over fem millioner. Dog er der en del, der registrerer sig med mange medarbejdere i lang tid på en lokation, uden at de pågældende så rent faktisk er der hele tiden.

Alligevel kan tallene bruges som en indikation af, hvor mange af de udenlandske arbejdere der er dækket af en dansk overenskomst. Kobler man data med overenskomster hos 3F og Malerne ser man, at 45 procent af de registrerede arbejdsdage er med virksomheder med overenskomst, mens 55 procent ikke har overenskomst.

- Jeg forstår mig ikke meget på EDB. Derfor har det været afgørende, at vi kan stole på Kaas & Mulvad, siger Palle Bisgaard, næstformand i Byggegruppen i 3F. Foto: Nils Mulvad.

– Jeg forstår mig ikke meget på EDB. Derfor har det været afgørende, at vi kan stole på Kaas & Mulvad, siger Palle Bisgaard, næstformand i Byggegruppen i 3F. Foto: Nils Mulvad.

 

– De centrale personer i arbejdet bruger systemet rigtig meget. Men kredsen er stadig for lille. Vi arbejder på at sprede det til flere, siger næstformand i Byggegruppen i 3F, Palle Bisgaard.

Palle Bisgaard fortæller, at for BAT har det været vigtigt at etablere systemet, så der hele tiden var tjek på historikken, og så man kunne dele viden. Det har været vigtigt at kunne opfylde en række forskellige krav, dels i forhold til brugernes meget konkrete behov, dels i forhold til den ønskede analyse og dokumentation af antallet af udenlandske arbejdere, overenskomster og konflikter.

– Arbejdsgiverne har jo været ude og hævde, at der var overenskomst med omkring ni ud af ti af de udenlandske arbejdere i Danmark. Det virker mere tungtvejende at kunne fortælle præcis, hvor mange arbejdere der er, og hvor mange vi har fået overenskomst med på basis af et meget intensivt besøgsarbejde. Vi har simpelthen alle data og ikke bare en stikprøve, fastslår Palle Bisgaard.

Kaas & Mulvad har særlige kompetencer i at samkøre data fra flere kilder
Byggegruppens næstformand forklarer, at der var to årsager til, at BAT-kartellet placerede opgaven hos Kaas & Mulvad: Kartellets egen IT-afdeling har ikke haft kapacitet til at løse den, og IT-afdelingen har heller ikke de særlige kompetencer omkring dataudtræk og samkørsel, som Kaas & Mulvad har.

Opgaven var på den ene side at trække data fra flere kilder: Fra RUT-registret, fra lister over overenskomster i 3F og hos malerne, fra LO´s sympatikonfliktliste, og fra BAT-kartellets egen registrering af besøgte arbejdspladser – og på den anden side at forsøge at skabe de rigtige koblinger mellem alle disse data.

Når data løbende og dagligt var samlet ind og kombineret, skulle brugerne også uden besvær kunne genfinde dem, så de let kunne planlægge kørelister og dokumentere de udenlandske virksomheders tidligere arbejdsopgaver og besøg.

Adgangen til alle de kombinerede data sker via en hjemmeside, som kræver et særligt login. Her kan brugerne se alle de daglige registreringer i RUT. Og de kan få detaljerede oversigter over enkelte virksomheder. Præsentationen er bygget af Chase Davis fra Hot Type Consulting, som er Kaas & Mulvads faste samarbejdspartner.

Brugersiden med oplysning om besøg, overenskomst og konflikter gør det langt lettere at planlægge indsatsen over for den enkelte virksomhed.

Brugersiden med oplysning om besøg, overenskomst og konflikter gør det langt lettere at planlægge indsatsen over for den enkelte virksomhed.


 
Problemer med registreringerne
Oprindelig satte Kaas & Mulvad fire robotter op til at trække data ud fra RUT-registret, sympatikonfliktlisten og de to overenskomstlister. Herfra dannede vi de særlige tabeller, som bruges til at vise data for brugerne.

Det konkrete indhold, der trækkes ud, giver dog visse udfordringer. For det første registrerer den enkelte virksomhed sig flere gange, ændrer måske navnet lidt fra gang til gang eller skriver adressen på forskellige måder. Derfor er det nødvendigt at bygge en række tjek ind i datakørslen for at fange så meget af den slags så automatisk som muligt. Noget må som regel klares manuelt

Robotten til at trække oplysninger fra LO's sympatikonfliktliste forsøger at matche med RUT-registret. Men noget må stadig klares manuelt.

Robotten til at trække oplysninger fra LO’s sympatikonfliktliste forsøger at matche med RUT-registret. Men noget må stadig klares manuelt.


 
Tilsvarende har oversigterne over sympatikonflikter i mange tilfælde været udfyldt med forkerte navne og adresse-oplysninger, fejlagtige oplysninger om RUT-nummer eller CVR-nummer.

Søgeformular med begrænsninger betød natlige kørsler på fire timer
I den officielle fortegnelse over udenlandske arbejdsgivere var der også et problem med at søge på en måde, så man kunne hente alle virksomhedsoplysningerne ud hver nat.

Søgeformularen tillod oprindelig kun at hente ti registreringer ad gangen, og der kunne ikke bladres. For at få det hele med ud var vi derfor nødt til at sætte en robot op, der testede hvert eneste muligt RUT-nummer. Den proces tog op til fire timer hver nat.

Det er heldigvis ændret, og der kan bladres på siderne, ligesom man kan få udleveret et dataudtræk. I dag er vi tilmeldt en tjeneste, der giver adgang til dagligt at hente alle data som en såkaldt xml-fil, som vi derefter automatisk læser ind i vores system.

Sympatikonfliktlisten er også blevet forbedret. Der er i dag RUT-numre eller CVR-numre på de fleste af virksomhederne.

Nu opretter virksomhederne sig med dansk CVR for at undgå at oprette sig i RUT
I dag er udfordringerne anderledes. Mange af de udenlandske virksomheder registrerer sig med et dansk CVR-nummer, hvorefter de ifølge reglerne ikke behøver registrere sig i RUT-registret. Efterfølgende kan de afmelde sig fra CVR, hvorefter de igen skal have RUT-nummer, når de arbejder i Danmark. Men det er ikke sikkert, at de registrerer sig igen.

En del udenlandske virksomheder har derfor opgaver i Danmark uden at oplyse det i RUT-registret. Derfor skal RUT-oplysningerne nu i langt højere grad suppleres med observationer fra byggepladserne, hvor data skal køres sammen med CVR-registret og andre registre.

Systemet gør det meget nemmere at planlægge den ugentlige overvågning, siger Trine Asklund, BJMF. Foto: Nils Mulvad.

– Systemet gør det meget nemmere at planlægge den ugentlige overvågning, siger Trine Askelund, BJMF. Foto: Nils Mulvad.


 
Bygge-, Jord- og Miljøarbejdernes Fagforening i København er en af de fagforeninger, der bruger RUT-systemet aktivt til at holde styr på de udenlandske arbejdsgivere.

– Vi har en række særlige opgaver, som tidligere tog os lang tid at registrere og planlægge. Det er nu sat op helt særskilt til os i systemet. Det gør det meget nemmere at planlægge den ugentlige overvågning, fortæller sekretær Trine Askelund.

Hun og de andre brugere i BJMF regner med at gå endnu længere i anvendelsen af systemet i den kommende tid, især nu, hvor systemet åbnes for også at følge de udenlandske virksomheder, der ikke har et RUT-nummer.

{ 0 comments }

Bag kulisserne: Sådan lavede vi Navnehjulet

viralehit1

“Dagens virale hit”. Sådan skrev TV2-sitet beep onsdag morgen, efter at Ugebrevet A4 sidst på eftermiddagen dagen før havde skrevet en opdatering på Facebook om vores fælles “barn” – Navnehjulet, der viser en række statistiske data for godt 2300 forskellige fornavne: Hvor kriminel er en Brian i forhold til gennemsnitsdanskeren (meget mere), hvad er gennemsnitsalderen på en Adolf (71 år), hvilket job har en Shila typisk (frisør), hvor finder vi oftest en Jürgen (Aabenraa), og tjener en René godt (ja, i snit tjener ingen så meget som René).

Navnehjulet blev lynhurtigt spredt via Facebook. Bare inden for det første døgn havde navnehjulet haft 650.000 besøg. Da trafikken var heftigst, var der 57.000 sidevisninger i timen. Søndag var hjulet blevet delt over 8000 gange på Facebook, og 14.000 havde kommenteret.

Et års arbejde
Der er gået et år, siden vi første gang begyndte at tale om en form for en navne-app, der skulle sammenligne fornavne og privatøkonomi. Det skete i et mødelokale hos Ugebrevet A4, der holder til i LO’s domicil på Islands Brygge. Her diskuterede bl.a. redaktør Jan Birkemose, redaktionschef Carsten Terp, teknisk ansvarlig Mads-Emil Sejrbo Lidegaard og jeg ideer til projekter, vi kunne lave sammen.

En af dem, vi først blev enige om, skulle prøves af, var “en præsentation, der bygger på navne”, som jeg skrev i referatet. Og jeg understregede, at vi også var enige om, “at der skal være et ”mobbe” eller ”drille”-element. Noget, der gør det sjovt at dele indholdet med andre.”

Da hjulet blev opfundet
Vi mødtes igen og diskuterede navneprojektet, og Jan Birkemose foreslog hurtigt, at vi kunne bruge et hjul som centrum. Han havde lavet et billede og lagt det ind på mobilen, så vi kunne se, hvad han forestillede sig.

janshjul

At den allerførste skitse blev vist gennem en mobils display, var ingen tilfældighed. Mobile-first var princippet, og over halvdelen af alle sidevisninger af hjulet er da også sket på en mobiltelefon.

De første skitser
Under den første navnehjul-brainstorm brugte vi mødelokalets whiteboard til at diskutere de første ideer om, hvordan sådan et hjul kunne virke. Og det ses måske ikke tydeligt, men en stor del af det færdige hjul var allerede med på de første skitser.

foto

Over de kommende måneder blev der udvekslet mange mails mellem især Jan, Mads-Emil og jeg. Efterhånden blev også Chase Davis, vores amerikanske samarbejdspartner involveret. Chase Davis er medejer af firmaet HotType Consulting og er deputy editor på New York Times’ Interactive News Desk.

Browserløsning og design
Vi blev enige om, at vi ikke ville lave en app. Navnehjulet skulle kunne åbnes i en browser og skulle tilpasses, så den selvfølgelig ville virke på alle platforme. Hurtigt blev grafisk designer Pia Seidler involveret, og hun kom med en stribe oplæg, som Navnehjulets udseende blev indrettet efter.

hjul1

hjul2

Den grundlæggende funktionalitet var hurtigt på plads. Øverst en søgemulighed. I midten lå hjulet med en række valg. I midten af hjulet noget tekst om det aktuelle valg. Og nederst en form for en opsamlende “rapport”, der ville gro, efterhånden som der blev klikket på hjulet.
Men det grundlæggende er én ting. Noget andet er, hvordan det hele spiller sammen. Hvad sker der helt konkret, når man klikker på hjulet? Sker der noget med søgefeltet imens, og hvad med rapporten?

15 Facebook-deleknapper pr navn
Vi var enige om, at Navnehjulet selvfølgelig skulle spredes via delinger på sociale medier. Men var én deleknap nok?
Afgjort ikke, mente A4, og vi brugte lang tid i foråret på at skyde os ind på de bedste måder at gøre det på.
Vi ville også gerne kunne dele på mange forskellige måder. Derfor er der for de fleste navne hele 15 forskellige deleknapper og -tekster.
Så man helt overordnet kan dele alt om et navn:

brian-generel
Eller man kan dele for hvert enkelt aspekt – bolig, parforhold, job, geografi eller som her – straf:

Brian-straf

Som vi har beskrevet i sitets dokumentation, stammer alle oplysningerne fra Danmarks Statistik. Vi betalte for alle data og havde en løbende dialog med en chefkonsulent, som selv blev meget optaget af opgaven, og som gav gode, brugbare bud på, hvordan data kunne indrettes.
Jeg modtog en stribe regneark i slutningen af oktober og begyndte et større analyse- og beregningsarbejde.

196.000 forskellige tekster
Vi forudså, at der kunne komme megen trafik, og vi gik efter en løsning, der kunne køre så hurtigt som muligt, og som ikke krævede beregninger, hver gang en bruger trykkede på hjulet. Derfor lavede jeg alle beregninger (fx andel straffede, andel ledige etc.) på forhånd, og jeg skrev alle de tænkelige tekster, der kan vises i hjulet og rapporten på forhånd. Al information blev kombineret i ét stort regneark på over 90 kolonner og over 2300 rækker. I alt blev det til godt 196.000 forskellige tekstelementer; til at blive vist i midten af hjulet, til at blive vist i rapporten og til at blive vist som facebook-delingstekster.
Indholdet af regnearket blev konverteret til JSON-formatet, og opgaven for Chase Davis var først og fremmest at programmere selve hjulet og at programmere det, så det kunne trække de relevante tekststumper op fra denne flade fil, vi endte med at lægge hos Amazon S3.

tabel

Et samarbejde som dette, hvor vi sad tre-fire forskellige steder, giver rig mulighed for misforståelser. Når man diskuterer udseende og funktionalitet, slår ord ikke altid helt til, og flere gange lavede vi dummyer i photoshop etc., som vi mailede til hinanden for mere konkret at kunne demonstrere, hvad det var, vi hver især tænkte på.

Valg og fravalg
Vi havde også en del ideer undervejs, som vi fravalgte eller i første omgang nedprioriterede. Fx indbyggede vi ikke deling via Twitter og mail. Til gengæld satsede vi på at gøre facebook-deling effektiv og nem.
Vi havde også oprindeligt tænkt, at hjulet skulle kunne vise et kort, der viser, hvor det fx er mest almindeligt at løbe på en person med et bestemt navn. På kortet her viser de mørke farver fx, hvor det er mest almindeligt at møde en Peter (navnet, som flest mænd pt har):

peterkort

Det fravalgte vi også i første omgang – vi nøjes med at nævne de tre områder, hvor frekvensen er højest.

Modtagelsen
Den sidste lange periode op til lanceringen i denne uge har især handlet om at få kortet til at virke korrekt, når det blev afviklet fra Ugebrevet A4’s site. Data ligger fortsat hos Amazon. Vi har forberedt os grundigt, så alt, brugerne foretager sig med Navnehjulet, kan analyseres bagefter – hvilke navne er oftest søgt på, hvilken del af hjulet klikkes der oftest på etc. Og så har vi testet for fejl – og fundet fejl – som vi så har rettet.
Men anstrengelserne bar frugt. Sitet blev færdigt. Det blev lanceret. Trods overvældende trafik gik det ikke ned eller blev langsomt. Det blev delt, kommenteret og rost.

Tilbage er nu overvejelserne om, hvordan medier kan bruge den slags indhold til fx at få trafik til journalistikken, få sign-ups til nyhedsbreve og øge den kommercielle værdi af de mange klik.
besog

{ 2 comments }

Sådan søger du i FB-statusopdateringer – igen

Facebooks Graph Search giver nogle spændende søgemuligheder, men vi har længe savnet at kunne søge i statusopdateringer. Her får du et par uautoriserede hacks, så du alligevel kan, indtil Facebook selv gør det muligt.

Opdatering: Facebook giver ikke alle brugere samme rettigheder på samme tid, så de ikke-dokumenterede features, der nævnes nedenfor, kan muligvis ikke benyttes af alle brugere endnu.

 

Graph Search dukker kun op, hvis man sætter Facebooks sproglige indstillinger til “English (US)”. Så sørg først for det. Se evt. vores intro til Graph Search.

Heller ikke Facebooks “normale” søgefelt viser længere resultater fra statusopdateringer. Kun med visse mobil-apps er det p.t. muligt at søge i opdateringer. Læs mere om det nederst.

Hvis du vil søge i opdateringer efter bestemte personer eller emner, skal du derfor gøre sådan her:

Har man de sproglige indstillinger sat til English (US), bliver denne web-adresse “https://www.facebook.com/search/11060438851/stories-topic” i Facebooks søgefelt oversat til “Posts about Helle Thorning-Schmidt”.

helle

Det lange tal i URL’en er ID-koden for Helle Thorning-Schmidts Facebook-side: https://www.facebook.com/hellethorningschmidt

For at finde nummeret ud fra sidens adresse kan man fx bruge denne side: http://findmyfacebookid.com/

Man indtaster facebook-sidens adresse og får vist nummeret:
hellenr
Vil man i stedet for opdateringer om statsministeren fx finde opdateringer om den amerikanske præsident, slår man blot på tilsvarende vis hans sides nummer op og og udskifter det ene nummer med det andet i URL’en. Og man får dette resultat:

barack

Jo bedre man bliver til at forstå, hvordan Graph Search virker, og hvordan URL’en skal skrives, jo bedre bliver man til at få sine søgninger, som man vil have dem.

Vil man fx se de opdateringer, hvor både Helle Thorning-Schmidt og Barack Obama er nævnt, kan det også lade sig gøre. Der skal blot i URL’en sættes begge numre ind – og afsluttes med et “intersect”:

hellebarack

Ovenstående virker, hvis det er en person eller et emne, der har sin egen Facebook page (altså en side, man kan like). Hvis jeg vil søge i opdateringer efter en person, der er på Facebook, men som ikke har sin egen side, skal man gøre næsten det samme. Kun skal URL’en ændres fra “stories-topic” til “stories”. Der vil ikke stå noget i søgefeltet, men man får alligevel en liste over opdateringer, hvor personen er nævnt.

Et eksempel:

Vi vil finde opdateringer, hvor Venstres næstformand Kristian Jensen er nævnt. På Facebook hedder han sådan her: www.facebook.com/kristian.jensen.12 Det er altså en personlig side. Man kan ikke like den, men man kan ansøge om fb-venskab. På www.findmyfacebookid.com veksler man adressen til koden: 100003194618080. Og skriver sådan her i browserens adressefelt:

jensen

hvilket giver en lang række indlæg, hvor Kristian Jensen er omtalt eller tagget på anden vis.

Hvis www.findmyfacebookid.com er nede eller ikke virker, kan nummeret også findes på andre sider, fx http://inteltechniques.com/osint/iframe/fbgraph.html som har mange andre spændende muligheder.

Søg opdateringer på mobilen

Facebook ændrer aldrig søgemulighederne for samtlige brugere på én gang. Man tester altid på mindre grupper og ser, hvad der sker. I februar i år opdagede en medarbejder fra Mashable pludselig, at der var kommet Graph Search i Facebook-app’en på hans mobil. Men her fire måneder efter er det stadig den “gamle” søgning, der fungerer på langt de fleste mobiler verden over.
Det betyder til gengæld, at man stadig kan søge i teksten i statusopdateringer. Det er bare de færreste, der er klar over det.

Gør sådan her, hvis du på mobilen vil søge i statusopdateringer (virker på iphone – ikke testet på andre).

Søg normalt, men vælg “Alle resultater for…”

foto 1

 

Træk bjælken med valgmuligheder mod venstre, til du kommer til “Opslag”, og klik på dette felt.

foto 2

 

Her kommer så opdateringer, hvor “Helle Thorning-Schmidt” er nævnt i teksten.

foto 3

Har du andre tip til, hvordan man med Facebooks egne søgeværktøjer bedst muligt søger i statusopdateringer, så giv besked. Så skriver vi det ind i artiklen.

{ 1 comment }

Training at Data Harvest 2014

Revised 15th of May 2014

Kaas & Mulvad did a lot of presentations and training at Data Harvest in Brussels 8th to 11th of May 2014

Get stories out of fresh Farmsubsidy data

We have now extracted 2013 data from 25 countries, totalling 26,1 bio Euro. Last year we got data on 26,6 bio. Euro in total.
You can see the google spreadsheet here with link to data and documentation:
https://docs.google.com/spreadsheet/ccc?key=0Ajagl3TOC7X_dFlzQ0ljaUxUWVNmNE40TGdweWNlcEE&hl=en#gid=5
Status is then:
Finished data from 16 countries:
BG, CZ, DE, DK, FI, FR, HU, IT, LT, LU, LV, NL, PT, SE, SK, SI
Raw data from 9 countries:
AT, BE, EE, ES, GB, IE, MT, PL, RO
No data yet (2 countries):
CY, GR

Importing PDF
A tipsheet with overview of good tools for importing PDF

Scraping with Helium
http://bit.ly/1ts0Vba

Visualisation with Google Fusion
Training-material
Dataset with recipients
Dataset on municipalities
Danish municipalities

Saturday 10th of May 2014

Fighting the secrecy about Multi-Resistant Bacteria

Three deaths of hospital bacteria spread by pigs

Danish pigs spread hospital bacteria

Possible punishment for revealing the names of pig farms

Pig-related types of MRSA in Netherland: mostly in rural areas with lots of pigfarms.

Animal related types of MRSA in Netherlands

Open Refine -cleaning the really dirty data
Training material

Taking scrapers to the next level
11 tips for scrapers at the next level

Friedrich Lindenberg also have recommends for this, here collected by Crina Boros:

Scraper Wiki

https://scraperwiki.com/

Scrape Twitter; extract PDFs; scrape the web

 

Planning alerts – schedule scrapers or run manually; wrote your scrapers; emails alerts for broken scrapers

http://morph.io/planningalerts

 

Lobby

OKFN – lobby facts data api

http://api.lobbyfacts.eu/

 

JENKINS

It runs your scraper with your set frequency

http://norton.pudo.org/jenkins/ – it requires a user name and password

http://jenkins-ci.org/

 

What if data spoke to me?

IF THIS THEN THAN THAT (IFTTT) is a service that let you create powerful connections with one simple statement:

You can scrape your own emails as well

www.ifttt.com/myrecipes/personal

 

80LEGS

A spider / webcrawler. It collects large amounts of data

http://www.80legs.com/

 

import.io – Web Data Extraction Made Easy

https://import.io/

 

KIMONO

It turns websites into structured APIs for your browser in seconds

www.kimonolabs.com

 

Rapid Miner

Data miner; analytics. Get the open version. It includes scrapers for data mining.

http://it.toolbox.com/wiki/index.php/RapidMiner

 

Python for journalists – Write your own scrapers

https://p2pu.org/en/groups/python-for-journalists-20112012/

Joint the mailing list for journalists

 

Scrapy – plugin for Python

http://doc.scrapy.org/en/latest/

https://pypi.python.org/pypi/Scrapy

 

Ruby on Rails

An open-source web framework

http://rubyonrails.org/

 

{ 0 comments }

Spræng rammerne med CartoDB

Sådan manipulerer du udseendet på et kort, så punkter fx varierer både i farve og størrelse.

Når man laver interaktive kort med CartoDB, har man god hjælp. Der er såkaldte wizards, der er genveje til fx at lave choropleth kort, hvor farven af punkter eller polygoner afspejler værdier i data. Tilsvarende er der en wizard, der hjælper med at lave kort, hvor størrelsen af punkterne på kortet afspejler værdier. I sådan et kort vil et punkt med værdien 100 synes mindre end et punkt med værdien 1000.
Som i dette eksempel, hvor markørerne repræsenterer skoler i Stockholm:

pic1

Der er flere andre wizards, og alle kan helt bevidst “hackes” – det vil sige, at man ved at gå ind i koden kan manipulere endnu mere og selv med et begrænset kendskab til kode have ret frie hænder.
Under undervisning på Södertörns Högskola blev jeg spurgt, om det kunne lade sig gøre at kombinere – så man i et og samme kort både kan få punkterne til at variere i størrelse og farve. Og selvfølgelig kan det lade sig gøre.
I eksemplet her gør vi netop dette.

Vi har et datasæt, hvor vi ved at vælge wizard’en “BUBBLE” får ovenstående kort, hvor størrelsen af punkterne styres af en værdi i datasættet.

Klik nu på ikonet for Cartocss og se koden.

pic7

Koden fortæller, at størrelsen af ikonerne “marker-width” styres af værdien “antal_elever”

pic4

Kopier denne blok til computerens hukommelse.

Prøv nu noget andet – brug wizard’en “CHOREPLETH” og få vist et kort, hvor værdien i data bestemmer punkternes farve. Jo større værdi, jo mørkere farve.

pic2

Åbn igen Cartocss. Koden ser selvfølgelig anderledes ud nu.

pic5

Indsæt koden fra før i dette vindue. I billedet herunder er koden indsat.

pic6

Tryk på Apply nederst til højre – og punkterne på kortet varierer nu både i farve og størrelse.

pic3

I dette tilfælde er det den samme værdi, der styrer både størrelse og farve, men det kan selvfølgelig sagtens være to forskellige værdier.

Hvis man er god til css, behøver man selvfølgelig ikke gå omvejen – at danne kortet og kopiere css-koden – men er man ikke skrap, er det en fin og enkel måde at gøre det på.

{ 0 comments }