Udtræk fra pdf

Lektionen gennemgår de vigtigste måder til at udtrække data fra PDF.

Undervejs kan du stoppe videoen og gå tilbage for at gense, så du får de enkelte trin at virke.

HvadHvorforHvordan
Metoder til udtræk af data fra pdf-filPDF-filer er et meget udbredt format til at gemme rapporter og dokumenter.

PDF-formatet sikrer, at udseendet ikke ændres. Det er ofte svært at få data fra PDF’en og ind i et regneark, så strukturen af tabeller opretholdes.

PDF-filer kan fremstilles på mange måder, og derfor opfører PDF-filer sig på mange forskellige måder. Hvad der virker på én PDF-fil, virker ikke nødvendigvis på den næste.

Det er derfor også vigtigt at kende til flere måder at hente data ud på.
Forbered filenLigger den/de tabeller, du vil udtrække, inde i en større pdf-fil, så klip alt det uvedkommende fra, så du kun arbejder med sider, der indeholder tal, du skal bruge.

Har du pdf-dokumentet åbnet i en browser, kan du vælge at udskrive til en pdf-fil på din computere og så blot udskrive de sider, du skal bruge.

Du kan klippe i en pdf-fil ved hjælp af den gratis webtjeneste I love pdf. Vælg ””Split PDF”




https://ilovepdf.com

Udtræk via ExcelI nyere versioner af Excel kan man importere data fra forskellige kilder – herunder pdf-filer – uden at skulle bruge anden software.

Vi tager i dette eksempel udgangspunkt i, at vi har gemt en pdf-fil på vores computer. Men den kan også blot ligge på en url på nettet.

Åbn et nyt dokument. Vælg fanebladet ”Data”.


Vælg nu: ”Hent data” – ”Fra andre kilder” – ”Fra PDF-fil”.



Naviger nu hen til mappen, hvor din pdf-fil ligger. Marker filen og tryk på ”Importer”.

I Navigator-vinduet (se næste side) får man nu en oversigt over, hvilket indhold der er fundet i pdf-filen.

I dette tilfælde er der fundet 4 tabeller:
Vælg den, du gerne vil importere.

Klik på ”Indlæs” og vent et øjeblik.

Nu hentes data ind:
Når du udtrækker en tabel fra en pdf-fil på ovenstående måde, er der skabt en forbindelse mellem filen og tabellen. Hvis du redigerer i filen – eller fx overskriver den med en ny version med samme navn – så kan du i Power Query Editor trykke ”Opdater”, og så vil ændringerne slå igennem i tabellen.

Hvis du ikke er interesseret i, at data er tabel-formaterede, kan du altid vælge fanebladet ”Tabeldesign”, klikke inde i tabellen og vælge ”Konvertér til område”. Så har du stadig din tabel, men nu uden tabel-formatering.










Udtræk via betalingsudgaven af Adobe AcrobatBetalingsudgaven af Adobe Acrobat indeholder en god eksport-funktion.

Åbn filen i Adobe.
Vælg ”Eksporter PDF”
Vælg ”Regneark” og ”Excel projektmappe”
Klik ”Eksporter”
Vælg mappen, hvor resultatet skal placeres.
Ændr. evt. dokumentnavnet og tryk ”Gem”
Excel åbner nu dokumentet med den eksporterede tabel.

Der skal formentlig renses lidt ekstra. Især hvis en tabel i pdf-filen gik over flere sider.




Udtræk via et tredjepartsprogramDer findes mange forskellige programmer, der som Adobes acrobat kan trække data ud af pdf-filer. Det er ofte godt at prøve forskellige, og så kan man sammenligne og se, hvor man skal lave mindst efterbehandling.

Vi anbefaler - og bruger - indimellem CometDocs.com og det førnævnte ilovepdf.com. Vær dog opmærksom på, at konverteringen foregår i en cloud-service. Brug derfor ikke denne type programmer til følsomme data.
Det kan være smart at prøve forskellige løsninger og så vælge den, der giver mindst efterarbejde/rensning.

Er dine data følsomme, kan du fx bruge Tabula, som er skabt som et non-profit projekt. Hent via link.

Tabula skal ikke installeres – blot pakkes ud - og al behandling foregår på din egen computer.

Tabula udtrækker til en csv-tekstfil, hvor de danske karakterer ikke uden videre bliver rigtige, hvis du blot dobbeltklikker på den.

Derfor skal du enten i et simpelt tekstbehandlingsprogram åbne den – gemme den som en txt-fil og derefter åbne den i Excel. Så kan du i importguiden under ”Filoprindelse” vælge UTF-8 – og så bliver de danske specialkarakterer korrekte.

Eller – du kan i Excel – under Data-fanebladet – vælge ”Hent data” – fra tekst/CSV.

Vælg ”Indlæs i” og ”tabel” – så bliver karaktererne rigtige, og filen åbner i et Excel-ark.





https://cometdocs.com




https://ilovepdf.com




https://tabula.technology/




Udtræk ved hjælp af OCREn anden måde at konvertere pdf-dokumenter på er ved at bruge et OCR værktøj. OCR virker ved, at programmet visuelt "aflæser" pdf-filen, prøver at forstå, hvad det aflæste er - og derefter rekonstruerer indholdet. Et OCR-program er praktisk, når pdf-filen er gemt som et billede, hvor man ikke kan markere tekst med musen. OCR virker også med almindelige billedformater som jpg, tiff eller png.

OCR virker, hvis teksten er maskinskrevet eller printet i en rimelig kvalitet. Teksten læses og gemmes som redigerbar tekst. Der findes mange typer OCR-software, men kvaliteten varierer.
Gratis onlineprogram:
https://www.onlineocr.net/



Professionelt betalingsprogram (dog med gratis test i en uge og op til 100 siders udtræk):
https://pdf.abbyy.com/download/

Opgave: PDF-import

OpgaveBeskrivelse
Åbn og gem pdf-filHent data her:

https://www.ft.dk/samling/20201/almdel/bou/spm/89/svar/1755909/2348274.pdf
eller her:
https://data.kaasogmulvad.dk/unv/onlinekursus/2348274.pdf

8. marts 2021 svarede minister Kaare Dybvad Bek på et spørgsmål fra Folketingets Boligudvalg. Det skete – som næsten altid – i form af en oversendt pdf-fil, der bl.a. indeholder oplysninger om gennemsnitsalderen på befolkningen i hver enkelt kommune samt en oplysning om, hvor meget gennemsnitsalderen er steget/faldet i kommunerne i en forudgående periode.

Kommunerne er ikke sorteret efter gennemsnitsalder, så hvis vi fx vil lave en top ti-liste over de yngste og ældste kommuner, må vi udtrække data, rense dem og rangordne dem. Det går denne opgave ud på.
Beskær pdf-filenBeskær filen, så du kun arbejder med de tre sider med data.
Udtræk data fra pdf-filenBrug hvilke metoder, du vil – alt efter hvad du har til rådighed.

Afprøv fx Ilovepdf.com – tabula – cometdocs.com eller Adobe Acrobat, hvis du har adgang til betalingsløsningen.
Rens dataDu er nødt til at rense data en del, før du kan sortere data.

Det kan gøres på forskellige måder, men her er et forslag:

1. Sørg for, at der kun er overskrifter i toppen.
2. Er der kommet overskrifter med ind fra side 2 og 3, slettes disse.
3. Sørg for, at ingen celler er flettede.
4. Ryd formater.
5. Få data til at stå i de samme kolonner, så de flugter hele vejen igennem.
6. Opret en ny kolonne – kald den fx ”Tendens”.
7. Slå filter til – vælg dem, hvor et + indikerer stigende gennemsnitsalder.
8. Ud for disse kommuner, skriv i den nye Tendens-kolonne ”Stigende”.
9. Vælg nu i filteret dem, hvor et – indikerer faldende tendens.
10. Ud for disse kommuner, skriv i Tendens-kolonnen ”Faldende”.
11. Marker kolonnen med + og – Brug søg /erstat til at fjerne disse tegn.
13. Brug søg/erstat til at fjerne mellemrum og ”år” i begge de importerede kolonner.
14. Tjek nu, at alt er i orden.
15. Sorter data og find top10 for de yngste og de ældste kommuner.
Der er lukket for kommentarer.