≡ Menu

Sådan trækker vi alle skattedata ud

skatterobot1

Skat har nu for tredje år lagt oplysninger ud om virksomheders skatteforhold. Men data er vanskelige at bruge, fordi de indeholder mange fejl og løbende ændres uden forklaring fra Skats side. Kaas & Mulvads systematiske udtræk dokumenterer en række problemer med indholdet af de åbne skattelister.

Benny

De åbne skattelister om virksomhedernes skattebetalinger har indtil nu ikke haft den store effekt eller gennemslag i den offentlige debat, og det er der gode grunde til.

I december vakte offentliggørelsen af de nyeste data ikke den store opsigt. Og slet ikke som første år, der blev frigivet data – for to år siden. Da skrev Ugebrevet A4 en række historier på basis af vores udtræk, bl.a.: Det jyske underskud samt Høj pris for arbejdspladser. Her har vi beskrevet vores arbejde med data i 2013.

Da Skat for anden gang – i december 2013 – offentliggjorde skattelisterne (for indkomståret 2012), blev 2011-tallene samtidig fjernet. På baggrund af 2012-tallene, lavede DR’s databaseredaktion et udtræk og en stribe historier, der også delvis byggede på andre data.

Læs DR’s databaseredaktions metodebeskrivelse, hvor de gennemgår en række problemer med at trække data ud ved hjælp af en robot.

Igen i december 2014 lagde Skat virksomhedernes skattedata ud. Denne gang har man ikke fjernet data fra det foregående år. Skatteminister Benny Engelbrecht (S) har lovet, at målet er at have offentlige skattedata for fem år. I dag er der dermed på Skats hjemmeside kun tilgængelige data for indkomstårene 2012 og 2013.

Kaas & Mulvad beder om aktindsigt i samlet liste
Både i 2012 og 2013 afviste Skat at udlevere den samlede liste. Kaas & Mulvad har med henvisning til den nye offentlighedslov, der trådte i kraft 1. januar 2014, bedt om at få data som et samlet udtræk. Det sker efter, at vi igen har oplevet begrænsningerne ved et robotudtræk. Et samlet dataudtræk kan med langt større sikkerhed bruges til analyser af de vigtige overordnede tendenser.

Kaas & Mulvad har nemlig samme erfaring som DR. I Skats data er der fejl. Nogle selskaber er ikke registreret med CVR-nummer, men SE-nummer. Data ændres i løbet af året uden forklaring eller dokumentation. Der eksisterer firmaer med CVR-numre, som ikke er på Skats liste, mens der er firmaer på listen, som ikke endnu er kommet på andre lister over CVR-numre. Vi observerer også, at det samme firma  i nogle tilfælde optræder to gange med forskellige navne og CVR-numre.

For 2013-skatten har vi bl.a. oplevet det med Dansk Shell, som optræder med både CVR 10373816 og CVR 87197719. Og begge steder med nøjagtig de samme data om indkomst og skat. Det har SKAT dog efterfølgende rettet.

DanskShell

Det betyder, at det er svært – for ikke at sige umuligt – at lave et fuldstændigt udtræk. Det eneste logiske vil derfor være at få en samlet liste fra Skat, og at Skat lægger denne liste  til download. Eventuelle opdateringer/rettelser kan ske en gang i kvartalet, og der bør desuden offentliggøres en kort beskrivelse af data (antal firmaer, samlet skat etc).

Kaas & Mulvad bruger tre metoder til at trække data ud
Skat viser op til 100 resultater på deres hjemmeside, hvis man søger efter et CVR-nummer eller navn. Efter en række tests har Kaas & Mulvad konstateret, at vi i CVR-søgefeltet med en robot kan afprøve alle seks-cifrede numre mellem 100000 og 999999 – et ad gangen – og herefter udtrække resultaterne.

skatterobot1
Skatterobotten i arbejde.

Vi får desuden komplette lister med CVR-numre fra anden side, og vi afprøver alle dem, der ikke er med i det første robot-udtræk fra Skat. Til sidst afprøver vi CVR-numre for alle de virksomheder, der var på listerne i 2011 og 2012, men ikke er med i udtrækket for 2013.

Kører samme tur igen med 2012-data for at se ændringer
Da vi havde udtrukket de nyeste data, kørte vi atter udtrækket fra det foregående år på samme måde, så vi kan sammenligne de to udtræk af data fra 2012, som vi har foretaget. Det fra december 2013 og det nye fra december 2014. Udtrækket fra december 2013 har i alt 245.820 virksomheder med en samlet indbetalt skat på 49.745 mio. kroner.

Ved udtrækket et år senere – i december 2014 – er der cirka 2.000 færre virksomheder på listen, dvs. en del er fjernet. I alt er der 243.882 virksomheder i udtrækket fra december 2014 over virksomheder på skattelisten for 2012. Til gengæld er skatten i dette udtræk vokset med over 12 mia. kr til 62.024 mio. kr.

Faktisk er det i alt 3.572 virksomheder, der er fjernet fra 2012 skattedata fra december 2013 til december 2014. Den største forsvundne skattebetaler er ‘Blackrock’ med CVR-nr. 33763808, der i december 2013 stod til at have betalt lige knap 7,9 mio. kr i skat. I dag finder man kun et datterselskab. Det oplyses ikke, hvilket selskab det er sambeskattet med. Samtidig er der kommet 1.632 nye virksomheder med, bl.a. Frøslev-Mollerup Sparekasse med en skatteindbetaling på 2,0 mio. kr.

Ser man på de 8.525 virksomheder, der har øget deres skattebetaling for indkomståret 2012 i perioden mellem udtrækket i december 2013 og udtrækket i december 2014, bliver listen ganske spændende. Nummer et på listen er Siemens Aktieselskab, der øgede sin skat fra 366.949 kr. til 799.442.051, dvs. med næsten 800 mio. kr. Nummer to på højdespringer-listen er Novo A/S, der øgede sin 2012-skat med 649 mio. kr.

I alt 13 selskaber øgede skatten med mere end 100 mio. kr.

Hent vores data om ændret skattebetaling for alle 8.525 virksomheder.

Kaas & Mulvad ligger nummer 25.741 på 2013-listen
Udtrækket i december 2014 af virksomhedernes 2013-skat giver 246.538 virksomheder på listen med en samlet skatteindbetaling på 62.860 mio. kr.

Ser vi på vores eget firma, Kaas & Mulvad Aps., betaler vi 32.225 kr. i skat i 2011, 83.750 kr. i 2012 og 82.375 kr. i 2013. Det giver os en placering som nummer 25.741 på listen over virksomhedsskattebetalere i 2013.

Ti selskaber betaler halvdelen af den samlede virksomhedsskat
De ti selskaber, der betalte mest i skat i 2013, betalte godt 30 mia. kr – eller lige knap halvdelen af den samlede danske virksomhedsskat.

Hent data om de tusind største skattebetalere i 2013.

{ 0 comments }

5 data-tendenser for 2015

Fagbladet Journalisten bad mig pege på medieproduktioner/historier i 2014, der metodisk eller indholdsmæssigt er en forsmag på, hvad vi kommer til at opleve i 2015. Her er mit umiddelbare bud.

Robotter på fremmarch

Vi vil se flere artikler og tekster – store og små – der ikke er skrevet af journalister, men af robotter eller computerprogrammer. Men heldigvis er der god brug for journalisterne til at skrive de algoritmer og robotter, som skal producere artiklerne.
Et enkelt eksempel vakte megen opsigt i år, da et script næsten af sig selv producerede en lille historie til LA Times om et mindre jordskælv. Medieopmærksomheden var lidt pudsig, da det bestemt ikke var første gang, at jordskævsrobotten var på vagt.

quakebot

Desuden var dette eksempel ikke anderledes end mange tilsvarende “robot”-tekster, vi i Kaas & Mulvad selv har skabt i de senere år for forskellige kunder.

Fordi live data i større og større omfang er til stede, vil vi meget snart se flere autogenererede tekster. Det vil være direkte ejendommeligt, hvis ikke medierne griber chancen og forsøger sig inden for dette område. Der er masser af steder, hvor de tekster, der i dag produceres, allerede er så ensartede og standardiserede, at de næsten kunne være skrevet af en computer. Finans/børs-journalistik og sportsjournalistik er nærliggende eksempler.

Mere datavisualisering

Vi vil se meget mere datavisualisering – og vi vil se både gode og dårlige eksempler.. Forhåbentlig får vi en masse gode visualiseringer, der brugt rigtigt kan formidle bedre, end tal og tekst alene kan. Men det er faktisk ikke så let at lave. Så vi vil helt sikkert også se en stribe af den anden slags, hvor visualiseringen ikke hjælper, men tværtimod gør det mere uoverskueligt og sværere at forstå. Enten fordi der bruges værktøjer, der skaber “færdige” visualiseringer, som skal passe til alle datasæt. Og derfor ikke rigtig passer til nogen. Eller fordi den, der skaber visualiseringerne, lader sig friste af de mange muligheder og ender med at overlæsse dem – og glemmer det vigtigste; at også visualiseringer skal vinkles skarpt.

Egne datasæt

Vi vil se flere historier baseret på datasæt, som medierne og journalisterne selv skaber. Det kan være ved hjælp af crowdsourcing (et nyere eksempel er TV2’s kort over mobilhuller, eller måske ved web scraping.

Et 2014-eksempel på data via web scraping er dette, hvor vi for Canadiske CBC skaffede myndighedernes data. I over 1200 huse i Winnipeg var vandrørene frosne, og myndighederne stillede blot en tjeneste til rådighed, hvor man kunne slå én adresse op og se status for præcis denne adresse. For CBC undersøgte vi samtlige adresser i byen og hjalp dem med data, så de kunne lave en god dækning.

cbc

Data som underholdning
Ud fra vores egne oplevelser med A4’s “Navnehjulet” spår jeg også, at vi vil se flere forsøge sig med at lave features, der er baseret på store datamængder, og som på samme tid er både saglige og underholdende. Vores erfaringer har jo vist, at den slags kan blive virkeligt store virale hits, og det vil der helt sikkert blive eksperimenteret videre med.

Myndighedernes “Big Data” kommer i spil
Hveranden konference handler om “Big Data” for tiden, og det er indlysende, at den voksende trang til at analysere store datamængder også bør præge medierne i 2015. Muligvis vil de – som det ser ud til at gælde JP/Politiken – være mest optaget af at analysere egne kundedata, så de bedst muligt kan holde på læserne/brugerne og måske tiltrække nye.

Medierne – ikke mindst Politiken – har skrevet meget om Big Data i 2014. Vi har endnu ikke set megen journalistik baseret på analyser af store datamængder. Men mon vi ikke også i 2015 vil se eksempler på det? Der er masser at gå i gang med.

Selv om de data, som myndighederne foreløbig af egen drift har stillet til rådighed for andre gennem “open data” initiativer er noget tamme, så er der bestemt muligheder her. Prøv bare at tage et kig på de data, som stilles til rådighed af henholdsvis Odense, Aarhus og Københavns kommuner.

 

{ 0 comments }
Nils Mulvad, Paul Myers, hotel-tekniker og Irene Jay Liu kæmper for at tilslutte Pauls PC til projektoren.
Foto: Matikas Santos.

I was responsible for the data track on the first investigative journalism conference in Asia, taking place in Manila, Philippines from 22th to 25th of November 2014. It was a huge succes, binding the participants together in methods of journalism.

Sheila Coronel

The special Asian touch to investigative journalism began with the opening speech by the former managing editor of the Philippine Center for Investigative Journalism, Sheila Coronel. She is now dean at the perhaps most important journalism education, Columbia University, in New York.
Sheila Coronel: Speaking Truth to Power is an Asian Value

Data Track with eight panels
The data track consisted of eight panels – and I was getting help from top trainers round the world. The eight panels:

  • How to Find and Use Data on Asia
  • Using Social Media for Investigative Reports
  • Analyzing Data with Excel
  • Cleaning Data with Open Refine
  • Collaborative Tools: Working Together in the Cloud
  • Presenting Data with Google Fusion
  • Tracking Assets with Investigative Dashboard
  • Internet Detective: Digging out Hiddden Info Online
  • Lightening Talks: Favorite Tools from Top Trainers

I also learned something from the other trainers, especially in the session on collaborative tools – using google drive and docs for cooperation. I have already done that a lot, but some of the hints I found very useful. Check the tipsheets and handouts from the conference.

Top trainers can’t connect a cable

Nils Mulvad, Paul Myers, hotel-tekniker og Irene Jay Liu kæmper for at tilslutte Pauls PC til projektoren. Foto: Matikas Santos.

Nils Mulvad, Paul Myers, hotel-responsible and Irene Jay Liu fights for connecting Pauls PC to the projector-cable. We didn’t succeed.
Foto: Matikas Santos.

The last panel, The Lightening Talks, demanded us to shift between PC’s. And that really was a task with Pauls PC. He ended using a very short HDI-cable:

Paul

Using social media
The panel on using social media together with Paul Myers was as always crowded – Paul being very good in getting the message out.
SocialMedia
Ballroom C at the Crowne Plaza Hotel in Manila – spot for the conference and heavy loaded with listeners to the session on social media.

Conference spirit
The spirit of the conference ended in a group photo at the closing reception on the 25th of November:

{ 0 comments }

EuropeData
European data to be used of journalist was presented by Crina Boros, Reuters-Thompson, and Nils Mulvad, Kaas & Mulvad, at the VVOJ-conference 8th of November 2014 in Kortrijk, Begium. Photo: Nils Mulvad.

Wishes for data:

  • Raw data (not aggregated), fast published and updated
  • Standard formats (xml, json, csv, etc.)
  • Comparable from country to country and
    not in different structures and content from country to country.
  • Areas of interest for the public, not just marketing
    of EU
  • Not EU trying to do the interactive graphics – leave that to news medias and  non-profits

Getting the data

  • Scrapers
  • Access country by country (environmental data)
  • Access from EU

Links to data

Contribution of links from Crina Boros, Reuters-Thompson:

{ 0 comments }

At få overblik over brugen af udenlandsk arbejdskraft i Danmark har længe mindet om at lægge et puslespil, hvor en stor del af brikkerne konstant skiftes ud. Det har været svært at danne sig et overordnet billede. Med assistance fra Kaas & Mulvad er BAT-kartellet i de seneste år kommet tættere på at kunne forstå, hvad der egentlig foregår rundt om på landets byggepladser.

Bygge-, Anlægs- og Trækartellet under LO har i flere år forsøgt at holde styr på udenlandsk arbejdskraft, overenskomster og konflikter. Opgaven er vokset voldsomt i kompleksitet over de seneste år, men efter i et par år at have brugt målrettet værktøj til at overvåge data og aktive besøg på arbejdspladserne, tegner sig en klar konklusion: BAT har nu fået overenskomst med 45 procent af de udenlandske arbejdere inden for sit område.

BAT-kartellet, der er en faglig samarbejdsorganisation for syv LO-forbund, har tilbage fra 2009 forsøgt at skabe et overblik. I de første år havde en medarbejder som opgave at følge med i opgørelserne fra Erhvervsstyrelsen. Alle udenlandske arbejdsgivere uden dansk CVR-nummer har pligt til at oprette sig i det såkaldte RUT-register. Store dele af oplysningerne i registeret er offentligt tilgængelige. Og man kan søge i registeret fra Erhvervsstyrelsens hjemmeside:

På søgesiden for udenlandske virksomheder kan man i dag få 100 virksomheder vist ad gangen.

På søgesiden for udenlandske virksomheder kan man i dag få 100 virksomheder vist ad gangen.

 
BAT ønskede historik på plads
BAT-medarbejderen samlede oplysningerne fra RUT-registeret i et regneark og sendte hver uge en opdateret version rundt til alle kartellets afdelinger.
I regnearket sammenholdt hun myndighedernes register med indberetninger fra afdelingernes besøg på arbejdspladserne samt deres oplysninger om overenskomster og konflikter.

Men opgavens omfang voksede. I løbet af 2012 boomede både antallet af RUT-registreringer og opgaven med at besøge arbejdsstederne. BAT-kartellet ønskede mere styr på data og bedre hjælp til afdelingerne, når de skulle tilrettelægge deres besøg.

Derfor bad kartellet Kaas & Mulvad om hjælp til disse to opgaver: Hvordan kunne data indsamles bedre, og hvordan kunne de automatisk deles med afdelingerne.

13.961 arbejdssteder på otte måneder er registreret i RUT
Registreringerne fra 2. februar i år og frem til 7. oktober er nu analyseret, og resultatet kan gøres op. Perioden er valgt, fordi virksomhederne fra 2. februar nu også skal oplyse periode og antallet af ansatte i den del af registret, der er offentlig tilgængelig.

I den nævnte periode har RUT-registret fået 13.961 registreringer af udenlandske virksomheder, der har haft arbejdsopgaver rundt om i Danmark. Af disse er de fleste – to ud af tre – inden for BAT’s område.

Måler man på antallet af ansatte er 55 procent inden for BAT’s område, hvad der viser, at BAT har flere kortere registreringer end andre områder. Følger man området, vil man se, at det ikke er ualmindeligt, at nogle arbejdsgivere registrerer opgaver af en enkelt dags varighed – og gentager den flere gange.

Langt hovedparten af udenlandske arbejde er inden for BATs område
Koncentrerer man sig om BAT-kartellet, og gør man antallet af arbejdsdage op, som i perioden blev registreret i RUT-registret, når man op på over fem millioner. Dog er der en del, der registrerer sig med mange medarbejdere i lang tid på en lokation, uden at de pågældende så rent faktisk er der hele tiden.

Alligevel kan tallene bruges som en indikation af, hvor mange af de udenlandske arbejdere der er dækket af en dansk overenskomst. Kobler man data med overenskomster hos 3F og Malerne ser man, at 45 procent af de registrerede arbejdsdage er med virksomheder med overenskomst, mens 55 procent ikke har overenskomst.

- Jeg forstår mig ikke meget på EDB. Derfor har det været afgørende, at vi kan stole på Kaas & Mulvad, siger Palle Bisgaard, næstformand i Byggegruppen i 3F. Foto: Nils Mulvad.

– Jeg forstår mig ikke meget på EDB. Derfor har det været afgørende, at vi kan stole på Kaas & Mulvad, siger Palle Bisgaard, næstformand i Byggegruppen i 3F. Foto: Nils Mulvad.

 

– De centrale personer i arbejdet bruger systemet rigtig meget. Men kredsen er stadig for lille. Vi arbejder på at sprede det til flere, siger næstformand i Byggegruppen i 3F, Palle Bisgaard.

Palle Bisgaard fortæller, at for BAT har det været vigtigt at etablere systemet, så der hele tiden var tjek på historikken, og så man kunne dele viden. Det har været vigtigt at kunne opfylde en række forskellige krav, dels i forhold til brugernes meget konkrete behov, dels i forhold til den ønskede analyse og dokumentation af antallet af udenlandske arbejdere, overenskomster og konflikter.

– Arbejdsgiverne har jo været ude og hævde, at der var overenskomst med omkring ni ud af ti af de udenlandske arbejdere i Danmark. Det virker mere tungtvejende at kunne fortælle præcis, hvor mange arbejdere der er, og hvor mange vi har fået overenskomst med på basis af et meget intensivt besøgsarbejde. Vi har simpelthen alle data og ikke bare en stikprøve, fastslår Palle Bisgaard.

Kaas & Mulvad har særlige kompetencer i at samkøre data fra flere kilder
Byggegruppens næstformand forklarer, at der var to årsager til, at BAT-kartellet placerede opgaven hos Kaas & Mulvad: Kartellets egen IT-afdeling har ikke haft kapacitet til at løse den, og IT-afdelingen har heller ikke de særlige kompetencer omkring dataudtræk og samkørsel, som Kaas & Mulvad har.

Opgaven var på den ene side at trække data fra flere kilder: Fra RUT-registret, fra lister over overenskomster i 3F og hos malerne, fra LO´s sympatikonfliktliste, og fra BAT-kartellets egen registrering af besøgte arbejdspladser – og på den anden side at forsøge at skabe de rigtige koblinger mellem alle disse data.

Når data løbende og dagligt var samlet ind og kombineret, skulle brugerne også uden besvær kunne genfinde dem, så de let kunne planlægge kørelister og dokumentere de udenlandske virksomheders tidligere arbejdsopgaver og besøg.

Adgangen til alle de kombinerede data sker via en hjemmeside, som kræver et særligt login. Her kan brugerne se alle de daglige registreringer i RUT. Og de kan få detaljerede oversigter over enkelte virksomheder. Præsentationen er bygget af Chase Davis fra Hot Type Consulting, som er Kaas & Mulvads faste samarbejdspartner.

Brugersiden med oplysning om besøg, overenskomst og konflikter gør det langt lettere at planlægge indsatsen over for den enkelte virksomhed.

Brugersiden med oplysning om besøg, overenskomst og konflikter gør det langt lettere at planlægge indsatsen over for den enkelte virksomhed.


 
Problemer med registreringerne
Oprindelig satte Kaas & Mulvad fire robotter op til at trække data ud fra RUT-registret, sympatikonfliktlisten og de to overenskomstlister. Herfra dannede vi de særlige tabeller, som bruges til at vise data for brugerne.

Det konkrete indhold, der trækkes ud, giver dog visse udfordringer. For det første registrerer den enkelte virksomhed sig flere gange, ændrer måske navnet lidt fra gang til gang eller skriver adressen på forskellige måder. Derfor er det nødvendigt at bygge en række tjek ind i datakørslen for at fange så meget af den slags så automatisk som muligt. Noget må som regel klares manuelt

Robotten til at trække oplysninger fra LO's sympatikonfliktliste forsøger at matche med RUT-registret. Men noget må stadig klares manuelt.

Robotten til at trække oplysninger fra LO’s sympatikonfliktliste forsøger at matche med RUT-registret. Men noget må stadig klares manuelt.


 
Tilsvarende har oversigterne over sympatikonflikter i mange tilfælde været udfyldt med forkerte navne og adresse-oplysninger, fejlagtige oplysninger om RUT-nummer eller CVR-nummer.

Søgeformular med begrænsninger betød natlige kørsler på fire timer
I den officielle fortegnelse over udenlandske arbejdsgivere var der også et problem med at søge på en måde, så man kunne hente alle virksomhedsoplysningerne ud hver nat.

Søgeformularen tillod oprindelig kun at hente ti registreringer ad gangen, og der kunne ikke bladres. For at få det hele med ud var vi derfor nødt til at sætte en robot op, der testede hvert eneste muligt RUT-nummer. Den proces tog op til fire timer hver nat.

Det er heldigvis ændret, og der kan bladres på siderne, ligesom man kan få udleveret et dataudtræk. I dag er vi tilmeldt en tjeneste, der giver adgang til dagligt at hente alle data som en såkaldt xml-fil, som vi derefter automatisk læser ind i vores system.

Sympatikonfliktlisten er også blevet forbedret. Der er i dag RUT-numre eller CVR-numre på de fleste af virksomhederne.

Nu opretter virksomhederne sig med dansk CVR for at undgå at oprette sig i RUT
I dag er udfordringerne anderledes. Mange af de udenlandske virksomheder registrerer sig med et dansk CVR-nummer, hvorefter de ifølge reglerne ikke behøver registrere sig i RUT-registret. Efterfølgende kan de afmelde sig fra CVR, hvorefter de igen skal have RUT-nummer, når de arbejder i Danmark. Men det er ikke sikkert, at de registrerer sig igen.

En del udenlandske virksomheder har derfor opgaver i Danmark uden at oplyse det i RUT-registret. Derfor skal RUT-oplysningerne nu i langt højere grad suppleres med observationer fra byggepladserne, hvor data skal køres sammen med CVR-registret og andre registre.

Systemet gør det meget nemmere at planlægge den ugentlige overvågning, siger Trine Asklund, BJMF. Foto: Nils Mulvad.

– Systemet gør det meget nemmere at planlægge den ugentlige overvågning, siger Trine Askelund, BJMF. Foto: Nils Mulvad.


 
Bygge-, Jord- og Miljøarbejdernes Fagforening i København er en af de fagforeninger, der bruger RUT-systemet aktivt til at holde styr på de udenlandske arbejdsgivere.

– Vi har en række særlige opgaver, som tidligere tog os lang tid at registrere og planlægge. Det er nu sat op helt særskilt til os i systemet. Det gør det meget nemmere at planlægge den ugentlige overvågning, fortæller sekretær Trine Askelund.

Hun og de andre brugere i BJMF regner med at gå endnu længere i anvendelsen af systemet i den kommende tid, især nu, hvor systemet åbnes for også at følge de udenlandske virksomheder, der ikke har et RUT-nummer.

{ 0 comments }