Hvad er model collapse i AI?

Model collapse er en degenerativ proces, hvor en AI-model mister viden og ydeevne, fordi den trænes på data, der er genereret af andre AI-modeller. Over tid fører dette til forsimplede og ukorrekte resultater, da modellen glemmer den oprindelige, menneskeskabte datadiversitet.

Uddybende definition af Model Collapse

Model collapse, også kendt som model-forfald, beskriver et fænomen, hvor generative AI-modeller gradvist forringes, når de trænes på syntetisk data. Processen kan sammenlignes med at tage en fotokopi af en fotokopi gentagne gange. Hver ny kopi mister en smule detalje og skarphed, og til sidst bliver billedet en udvasket og forvrænget version af originalen.

På samme måde vil en AI-model, der lærer fra AI-genereret indhold, begynde at efterligne de statistiske mønstre og eventuelle fejl i det syntetiske data frem for den komplekse og nuancerede virkelighed, som oprindeligt menneskeskabt data repræsenterer. Modellen glemmer simpelthen, hvordan den “ægte” verden ser ud.

Hvordan opstår fænomenet i praksis?

Processen opstår i en selvforstærkende cyklus. Internettet og store datasæt fyldes i stigende grad med indhold skabt af AI, f.eks. tekster, billeder og kode. Når udviklere træner nye AI-modeller eller opdaterer eksisterende, indsamler de ofte data fra disse kilder. Uden omhyggelig filtrering vil de nye modeller uundgåeligt blive trænet på output fra deres forgængere.

Modellen lærer dermed ikke af den oprindelige datakilde, men af en tidligere models fortolkning af den. Denne proces gentages, og for hver generation forstærkes fejl og skævheder, mens variation og detaljerigdom mindskes. Resultatet er en model, der bliver dårligere til at håndtere komplekse eller sjældne scenarier, fordi dens “verdensbillede” er blevet forsimplet. Fænomenet kan føre til bizarre fejl, som når Google anbefaler lim på pizza.

Konsekvenser for AI-modellers ydeevne

Når en model begynder at kollapse, påvirker det dens funktionalitet på flere måder. Den primære konsekvens er et tab af diversitet i modellens output. Tekster kan blive mere stereotype, billeder kan begynde at ligne hinanden, og kreative løsninger bliver sjældnere. Modellen konvergerer mod et gennemsnitligt og forudsigeligt resultat.

En anden alvorlig konsekvens er, at modellen “glemmer” viden om sjældne begivenheder eller nicher. Den oprindelige træningsdata indeholder information om et bredt spektrum af emner, men AI-genereret data har en tendens til at fokusere på de mest almindelige mønstre. De mindre hyppige data, også kaldet “halerne” i en statistisk fordeling, forsvinder gradvist fra modellens viden.

  • Tab af diversitet: Output bliver mere ensartet og mindre kreativt.
  • Glemsel af sjældne data: Modellen mister viden om specifikke og mindre almindelige emner.
  • Forstærkning af bias: Eksisterende skævheder i data kan blive overrepræsenteret og forstærket.
  • Generel forringelse: Modellens evne til at ræsonnere og generere præcist indhold falder.

Hvilke typer AI-modeller er mest sårbare?

Det er primært generative AI-modeller, der er i farezonen for model collapse. Disse modeller er designet til at skabe nyt indhold, som ligner de data, de er trænet på. Jo mere udbredt deres output bliver, desto større er risikoen for, at det ender i fremtidige træningssæt.

Store sprogmodeller (LLMs) som dem, der driver chatbots og tekstgeneratorer, er særligt udsatte. Deres output i form af artikler, e-mails og kodestykker bliver hurtigt en del af det digitale økosystem. Ligeledes er billed- og videogeneratorer, som f.eks. Midjourney, Stable Diffusion og Kling, sårbare, da de genererede billeder deles bredt online og kan blive opsamlet af web-crawlere til brug i nye datasæt.

En kompleks AI-agent, der er bygget oven på en stor sprogmodel, vil også blive direkte påvirket, hvis den underliggende model lider af forfald, da dens evne til at planlægge og udføre opgaver vil blive forringet.

Strategier til at modvirke Model Collapse

Forskere og udviklere arbejder på flere strategier for at forhindre eller bremse model collapse. Den mest direkte metode er forbedret datahygiejne. Det indebærer omhyggelig kuratering og filtrering af træningsdata for at fjerne eller markere syntetisk indhold. Dette er dog en ressourcekrævende proces, som bliver sværere, i takt med at mængden af AI-genereret indhold vokser.

En anden tilgang er digital vandmærkning, hvor AI-genereret indhold mærkes med et usynligt signal. Dette signal kan senere detekteres, så indholdet kan frasorteres, før det bruges til træning. Denne metode kræver dog enighed om standarder og udbredt implementering på tværs af AI-udviklere.

Endelig fokuserer forskning på at udvikle mere robuste algoritmer, der er mindre følsomme over for syntetisk data. Dette kan involvere teknikker, der aktivt bevarer modellens viden om sjældne data eller som kan skelne mellem menneskeligt og maskinelt genererede mønstre under selve træningen.

Betydningen for danske virksomheder

For danske virksomheder, der anvender AI, udgør model collapse en langsigtet, men reel risiko. Virksomheder, der finjusterer sprogmodeller på egne data, skal være opmærksomme på, hvor deres data stammer fra. Hvis interne dokumenter eller kundedata er blevet produceret ved hjælp af AI, kan finjusteringen utilsigtet bidrage til en forringelse af modellen.

I praksis ser vi ofte, at virksomheder scraper data fra internettet til specifikke formål. Denne praksis bliver mere risikabel, da en større andel af dette data er syntetisk. For en marketingafdeling kan det betyde, at AI-genererede tekster bliver mindre originale, og for en analyseafdeling kan det føre til upålidelige konklusioner baseret på en forsimplet model.

Fremadrettet bliver adgang til verificeret, menneskeskabt data af høj kvalitet en afgørende konkurrencefordel. Det understreger, hvorfor små virksomheder med unikke, proprietære datasæt kan have en fordel i en fremtid præget af syntetisk indhold.

Fremtidsperspektiver og forskning

Model collapse er et aktivt forskningsområde, og der publiceres løbende nye studier, som undersøger fænomenets dynamik og mulige løsninger. Et centralt fokus er “data provenance”, altså sporing af datas oprindelse. Ved at vide, om data er menneskeskabt eller syntetisk, kan modeller trænes mere intelligent.

Forskere fra blandt andet Stanford og Rice University har i studier vist, hvordan modeller hurtigt kan miste information om data-distributionens “haler”. Deres arbejde, som kan findes på platforme som arXiv, understreger behovet for konstant at tilføre frisk, menneskeskabt data for at holde modellerne sunde og velfungerende.

På længere sigt kan løsningen ligge i udviklingen af helt nye modelarkitekturer, der er designet til at lære kontinuerligt uden at glemme tidligere viden – en udfordring kendt som “katastrofal glemsel”. Indtil da er omhyggelig datahåndtering den primære forsvarslinje mod model collapse.