Inspect webside finder skjulte links – hos Statstidende

Den 29. januar 2019 ændrede Statstidende udseende. Alt fik en grundlæggende make-over. Vores mange skraber-robotter, der henter oplysninger om konkurser, rekonstruktioner, herreløse bank-konti og meget andet godt, virkede derfor ikke længere.

Medier bruger oplysningerne fra Statstidende både til konkrete nyhedshistorier og til avanceret research efter virksomheder og personer. Oplysninger benytter de også til analyser, for eksempel af udviklingen af tvangsauktioner i Danmark, og hvor der er sket flest tvangsauktioner i den seneste tid.

Ofte kan jeg relativt simpelt justere en robot, når en hjemmeside er ændret. Det meste kan som regel genbruges. Men ikke i tilfældet med Statstidende.

Konkursboer er opdelt i seks underpunker på Statstidendes nye hjemmeside. Jeg er nødt til at finde det dybe link til hver enkelt af de seks specialsider.

Kort fortalt var jeg nødt til at finde de interne dybe links, der åbner hver enkelt specialside. Konkursboer har for eksempel seks specialsider. Tvangsauktioner har tre specialsider, mens Rekonstruktioner har seks. I alt henter vi data fra 34 af Statstidendes mange specialsider.

De links, som fremgår af browseren under brug af Statstidende, henter i virkeligheden data via andre skjulte links, hvorefter oplysningene bliver vist på siden. For at få en robot til automatisk at hente data er man næsten altid nødt til at finde disse bagvedliggende, skjulte links og benytte dem.

Sådan lokaliseres et dybt link til specialside

I tilfældet med konkursboer finder jeg det dybe link til hver specialside på denne måde:

Jeg afklikker fire af de seks specialsider og har så Dekret og yderligere en aktiv. Jeg bruger et gratis værktøj, der er indbygget i browseren. Jeg bruger Google Chrome og højreklikker på området på websiden. I menuen, der kommer ved højreklik, vælger jeg Inspect (på engelsk – eller Undersøg på dansk). På skærmen ser jeg nu en tredelt webside med et væld af muligheder, bl.a. syv menupunkter, Elements, Console, Sources, Network etc. Jeg benytter Network, der starter i optagefunktion med en rød prik lysende, der viser, at den gemmer al aktivitet på hjemmesiden.

Når jeg derefter også afklikker den femte specialside, så kun Dekret er valgt, sender websiden en instruktion til den bagvedliggende database om kun at hente disse data.

Afklik af det femte punkt resulterer i aktivering af to filer, der begge er dybe links. Faktisk er de to link ens. Ved at højreklikke på et af dem kan jeg kopiere linket og skaffer mig det dybe link til den første side med dekreter.

Sådan kan jeg fortsætte for hver enkelt af de specialsider, som jeg er interesseret i, ligesom jeg kan se, hvad der sker, når jeg klikker på side 2 eller klikker ind på de detaljerede oplysninger om et konkursbo.

I webbrowserens adressefelt, ser det ud, som om det er én side, der loades, men det er i virkeligheden en anden side, der loades inde bagved. Og det er den bagvedliggende side, som indeholder informationen.

Her er vist linket til side 2 (page=1) for konkursdekreter den 13. februar 2019. Dato-felterne for fra og til er fremhævet med gult, mens angivelsen af søgekoden for dekreter i konkursboer er fremhævet med grønt. Resten af linket er identisk for alle sider hos Statstidende. Sagt på anden vis, så er dette den direkte søgestreng, der definerer datoer, konkursdekret og side.
Sammenlign dette link med det ovenfor. De er næsten ens. Dette er det, man kan se på websiden, men data kommer via det andet link. Eneste forskel på de to link er fremhævet med grønt her.

Prøv at se, hvordan data ser ud i datavisning (json).

Se hvordan de detaljerede oplysninger ser ud for det første firma på listen – også i datavisning.

Se her, hvordan data ser ud på den hjemmeside, offentligheden ser.

Herefter er det til selv at konstruere link, der fører til alle de sider, der skal hentes data fra. Hvis der for eksempel den 15. januar er 82 dekreter, der vises på ni sider, skal begge datofelter være 2019-01-15, mens der skal være ni link, hvor eneste variation er, at page går fra =0 til =8. Første side er page=0, mens side 9 er page=8.

Tvangsauktioner

Tvangsauktionen af Åvej 3 i Hirtshals er en af de detaljerede meddelelser i Statstidende den 13. februar 2019. Linket, man ser i sin browser, er: https://www.statstidende.dk/messages/S11022019-257,
mens det bagvedliggende link med data er https://www.statstidende.dk/api/message/S11022019-257.
Bemærk api/, og at det hedder messages/ og message/.

Vores Statstidende-robot lå stille i to uger, efter at Statstidende havde ændret hjemmesiden. Nu er den i gang igen. I går hentede vi de data, vi ikke havde fået ud i de to uger. Alt er opdateret igen .

No comments yet.

Skriv et svar

This site uses Akismet to reduce spam. Learn how your comment data is processed.