Hvad er web scraping af AI-træningsdata?

Web scraping til AI-træningsdata er processen, hvor automatiserede programmer (bots) systematisk indsamler store mængder information fra internettet. Denne data – tekst, billeder og kode – bruges til at træne og forbedre kunstig intelligens-modeller, så de kan forstå og generere indhold.

## Definition og formål med web scraping

Web scraping er en automatiseret metode til at udtrække data fra hjemmesider. I stedet for manuelt at kopiere indhold, anvendes et script eller en bot, der navigerer på internettet, identificerer relevant information og gemmer den i et struktureret format, f.eks. i en database eller et regneark.

Formålet med at anvende denne teknik til AI er at skaffe den enorme mængde data, som er nødvendig for at træne moderne AI-modeller. Store sprogmodeller og billedgeneratorer kræver milliarder af datapunkter for at lære mønstre, sprog, kontekst og visuelle koncepter. Internettet fungerer her som et gigantisk, offentligt tilgængeligt bibliotek af menneskelig viden og kreativitet.

Processen gør det muligt for udviklere at indsamle data i en skala, der ville være umulig for mennesker. Uden web scraping ville udviklingen af mange af de AI-værktøjer, der anvendes i dag, have været markant langsommere og mere omkostningstung. Dataen er brændstoffet, der driver modellens læringsevne.

## Hvordan fungerer processen teknisk?

En web scraper, også kendt som en web crawler eller bot, er et stykke software designet til at browse internettet på en automatiseret måde. Processen starter typisk med en liste af URL’er, som botten skal besøge. Når den ankommer til en side, downloader den sidens fulde HTML-kode.

Herefter analyserer (parser) scraperen HTML-koden for at finde de specifikke data, den er programmeret til at indsamle. Det kan være tekst i afsnit (`

`-tags), billeder (``-tags), links (``-tags) eller data i tabeller. Den udtrækker disse informationer og ignorerer irrelevant indhold som reklamer, navigationsmenuer og sidefødder.

De indsamlede data renses og struktureres, inden de gemmes. Tekst gemmes ofte som rå tekstfiler, mens billeder og deres tilhørende beskrivelser (alt-tekst) gemmes sammen. Denne systematiske tilgang sikrer, at dataen er organiseret og klar til brug i træningsfasen af en AI-model. Det er vores erfaring, at en velstruktureret indsamlingsproces er afgørende for den efterfølgende datakvalitet.

Mange hjemmesider angiver i en `robots.txt`-fil, hvilke dele af siden de ikke ønsker, at bots skal tilgå. Respektfulde scrapere overholder disse anvisninger, men det er teknisk muligt at ignorere dem, hvilket skaber en række etiske og juridiske problemstillinger.

## Hvilke typer data indsamles?

Den type data, der indsamles, afhænger fuldstændigt af formålet med den AI-model, der skal trænes. Variationen er stor, men dataen kan typisk inddeles i nogle hovedkategorier, som hver især tjener som fundament for forskellige AI-kompetencer.

De mest almindelige datatyper omfatter:

* Tekstdata: Dette er den mest udbredte type og inkluderer artikler, bøger, blogindlæg, forumdiskussioner, produktanmeldelser og kommentarer. Disse data bruges til at træne store sprogmodeller (LLM’er) som dem, der driver chatbots og tekstanalyseværktøjer.
* Billeddata: Fotografier, illustrationer, diagrammer og kunst fra hele internettet. Ofte indsamles billederne sammen med tilhørende tekstbeskrivelser, billedtekster eller metadata. Disse data er essentielle for træning af billedgenkendelses- og billedgenereringsmodeller.
* Kodningsdata: Offentligt tilgængelig kode fra platforme som GitHub. Denne data bruges til at træne AI-modeller, der kan skrive, analysere og fejlfinde softwarekode.
* Strukturerede data: Information fra tabeller, lister og databaser, f.eks. produktkataloger, finansielle data eller vejrdata. Disse data anvendes til at træne modeller til forudsigelser og dataanalyse.

## Juridiske og etiske overvejelser i Danmark og EU

Web scraping befinder sig i en juridisk gråzone, der er under konstant udvikling, især i EU. I en dansk kontekst er der flere centrale love og principper, man skal forholde sig til. Ophavsretsloven beskytter originalt indhold som tekst og billeder. At kopiere dette materiale i stor skala til kommerciel brug kan udgøre en krænkelse af ophavsretten.

Hvis de indsamlede data indeholder personoplysninger, f.eks. navne, e-mails eller billeder af identificerbare personer, træder GDPR (databeskyttelsesforordningen) i kraft. Indsamling og behandling af personoplysninger uden et klart retsgrundlag er ulovligt. Datatilsynet fører tilsyn med overholdelsen af disse regler i Danmark.

EU’s AI Act, som er ved at blive implementeret, stiller desuden krav om gennemsigtighed omkring de træningsdata, der er brugt til at udvikle højrisiko-AI-systemer. Virksomheder skal kunne dokumentere, hvor deres data kommer fra, og hvordan de er blevet behandlet. Dette lægger et pres på udviklere for at bevæge sig væk fra ukritisk scraping af internettet.

Endelig har mange hjemmesider servicevilkår (Terms of Service), der eksplicit forbyder automatiseret dataindsamling. Selvom en overtrædelse primært er et kontraktbrud, har retssager i udlandet vist, at det kan få juridiske konsekvenser. Den etiske dimension handler om rimeligheden i at bruge offentligt tilgængeligt indhold, som er skabt af individer og virksomheder, til at bygge kommercielle AI-produkter uden samtykke eller kompensation.

## Kvaliteten af scraped data

En af de største tekniske udfordringer ved web scraping er kvaliteten af den indsamlede data. Internettet er et ustruktureret og “støjende” miljø. Rå, scraped data er sjældent klar til brug og kræver en omfattende rensningsproces, kendt som pre-processing.

“Støj” i data kan være mange ting: HTML-kode, reklamer, navigationslinks, cookie-bannere og andet irrelevant indhold, der utilsigtet bliver en del af datasættet. Hvis denne støj ikke fjernes, lærer AI-modellen forkerte mønstre og vil generere output af lavere kvalitet.

Et andet centralt problem er bias. Data fra internettet afspejler de fordomme og skævheder, der findes i samfundet. Hvis et datasæt primært består af tekst fra en bestemt demografisk gruppe, vil den trænede model reproducere denne gruppes sprogbrug og synspunkter. Dette kan føre til, at AI-systemer udviser diskriminerende adfærd eller giver misvisende information, som det ses i eksempler, hvor Google anbefaler lim på pizza.

Data-rensning indebærer fjernelse af duplikeret indhold, filtrering af støj, anonymisering af personlige oplysninger og forsøg på at balancere datasættet for at mindske bias. Denne proces er ofte den mest tidskrævende og ressourcekrævende del af at bygge en AI-model.

## Eksempler på anvendelse i praksis

De data, der indsamles via web scraping, er fundamentet for mange af de AI-applikationer, der bruges i dag. Uden disse massive datasæt ville modellernes evner være stærkt begrænsede.

Store sprogmodeller (LLM’er) som OpenAI’s GPT-serie og Googles Gemini er trænet på enorme mængder tekst fra internettet. Datasættene, som f.eks. Common Crawl, indeholder petabytes af data fra milliarder af websider. Det er denne brede eksponering for sprog, der gør dem i stand til at skrive, oversætte og ræsonnere.

Billedgenereringsmodeller som Midjourney, Stable Diffusion og DALL-E er trænet på datasæt som LAION-5B, der indeholder over fem milliarder billed-tekst-par indsamlet fra internettet. Modellen lærer sammenhængen mellem en tekstbeskrivelse (f.eks. “en astronaut, der rider på en hest”) og de visuelle elementer, der udgør billedet.

Andre anvendelser inkluderer træning af AI til sentiment-analyse, hvor modellen lærer at genkende positive eller negative holdninger ved at analysere tusindvis af produktanmeldelser. Ligeledes trænes AI-værktøjer til kodegenerering på store mængder open source-kode fra platforme som GitHub.

## Alternativer til web scraping

På grund af de juridiske, etiske og kvalitetsmæssige udfordringer ved web scraping, søger mange virksomheder og forskere mod alternative metoder til at skaffe træningsdata. Disse metoder giver ofte mere kontrol og gennemsigtighed.

Nogle af de primære alternativer er:

* Licenserede datasæt: Virksomheder kan købe eller licensere adgang til kuraterede datasæt af høj kvalitet fra dataudbydere. Dette er en dyrere løsning, men den sikrer, at data er lovligt indhentet og ofte bedre struktureret.
* Open-source datasæt: Der findes flere store, offentligt tilgængelige datasæt, som er skabt til forskning og udvikling. Eksempler inkluderer The Pile (tekst) og ImageNet (billeder). Disse er ofte allerede renset og dokumenteret.
* Syntetisk data: Dette er data, der er kunstigt genereret af en anden AI-model. I stedet for at finde rigtige billeder af et sjældent produkt, kan man få en AI til at generere tusindvis af variationer. Dette er især nyttigt i situationer, hvor data er følsomme eller svære at skaffe.
* Interne virksomhedsdata: Mange virksomheder råder over store mængder proprietær data, f.eks. kundeservice-logs, salgsdata eller tekniske dokumenter. Disse data kan bruges til at træne specialiserede AI-modeller til interne formål.

## Fremtidsperspektiver for data-indsamling

Fremtiden for indsamling af AI-træningsdata vil sandsynligvis blive formet af en kombination af teknologisk innovation og øget regulering. Den nuværende praksis med ureguleret, stor-skala web scraping er under pres fra både lovgivere og indholdsskabere.

Teknologisk ser vi en udvikling mod mere intelligente indsamlingsmetoder. I stedet for simple scrapere kan en AI-agent få til opgave at finde og vurdere relevansen af data, hvilket kan forbedre kvaliteten markant. Samtidig vil brugen af syntetisk data sandsynligvis vokse, da det giver fuld kontrol over dataens indhold og diversitet.

Regulatorisk vil love som EU’s AI Act tvinge udviklere til at være mere transparente omkring deres datakilder. Dette kan føre til etableringen af et mere formelt marked for AI-træningsdata, hvor indholdsskabere kan få kompensation for brugen af deres materiale. Nogle medieorganisationer har allerede indgået aftaler med AI-virksomheder om licensering af deres arkiver.

På længere sigt kan der opstå en balance, hvor data-indsamling bliver en mere etisk og gennemsigtig proces, drevet af en blanding af licenserede, syntetiske og åbne datasæt, mens den “vilde vest”-tilgang til web scraping gradvist udfases.

Relaterede artikler: