Hvad er tokenization og context windows?

Tokenization er processen, hvor en sprogmodel opdeler tekst i mindre enheder kaldet tokens. Et context window er den maksimale mængde tokens, en model kan behandle på én gang. Disse to begreber er fundamentale for, hvordan AI forstår og genererer sprog.

### Hvad er tokenization?

Tokenization er det første skridt, en sprogmodel tager for at forstå menneskeligt sprog. Processen konverterer en tekststreng, som f.eks. en sætning eller et helt dokument, til en sekvens af mindre stykker, kaldet tokens. Disse tokens er de byggeklodser, modellen arbejder med.

Et token er ikke nødvendigvis det samme som et ord. Det kan være et helt ord, en del af et ord (et “subword”), et enkelt tegn eller et tegnsætningstegn. For eksempel kan ordet “AI-assistent” blive opdelt i tre tokens: “AI”, “-“, og “assistent”. Valget af opdelingsmetode afhænger af den specifikke tokenizer, der er trænet til modellen.

Denne opdeling gør det muligt for modellen at håndtere et stort og komplekst ordforråd mere effektivt. Ved at genkende mønstre i subwords kan den forstå og generere ord, den aldrig har set før, herunder bøjninger og sammensatte ord, som er almindelige i det danske sprog.

Hver token bliver derefter konverteret til et unikt numerisk ID, som modellen kan bruge i sine matematiske beregninger. Denne oversættelse fra tekst til tal er afgørende for, at neurale netværk kan behandle sproglig information.

### Hvordan fungerer tokenization i praksis?

Processen med tokenization styres af en algoritme, en såkaldt tokenizer. Der findes forskellige typer, men en af de mest udbredte metoder er “Byte-Pair Encoding” (BPE) eller variationer heraf. BPE starter med at opdele teksten i enkelte tegn og bygger derefter gradvist et ordforråd op ved at flette de hyppigst forekommende par af enheder sammen.

For eksempel kan en tokenizer lære, at “ing” er en almindelig endelse på dansk. Derfor vil den behandle “ing” som et enkelt token i ord som “løsning” og “udvikling”. Dette gør modellen mere effektiv, da den ikke skal lære hvert eneste ord fra bunden, men kan genbruge kendte dele.

Antallet af tokens, en tekst omdannes til, er sjældent 1:1 med antallet af ord. En tommelfingerregel er, at 100 tokens svarer til cirka 75 ord på engelsk. For dansk kan tallet variere, da sprogets struktur med længere, sammensatte ord kan påvirke, hvordan teksten opdeles.

Du kan selv se, hvordan en tekst bliver opdelt, ved at bruge online værktøjer, som f.eks. OpenAI’s Tokenizer. Dette giver en konkret fornemmelse for, hvordan en model “ser” den tekst, du giver den.

### Hvad er et context window?

Et context window, eller kontekstvindue, definerer den samlede mængde information, en sprogmodel kan “huske” og tage i betragtning på et givent tidspunkt. Det er modellens korttidshukommelse, og dens størrelse måles i tokens.

Når du interagerer med en AI, f.eks. en chatbot, inkluderer kontekstvinduet både din prompt (dit input) og modellens svar (dens output). Alt inden for dette vindue er tilgængeligt for modellen, når den skal formulere sit næste svar. Information, der falder uden for vinduet, bliver glemt.

Hvis en samtale bliver for lang og overskrider modellens context window, vil den begynde at glemme de tidligste dele af samtalen. Dette kan føre til, at den mister tråden, stiller de samme spørgsmål igen eller giver svar, der ikke tager højde for tidligere aftalt information.

Størrelsen på et context window varierer markant mellem forskellige modeller. Tidlige modeller som GPT-3 havde et vindue på omkring 2.000 tokens, mens nyere modeller som GPT-4 Turbo og Claude 3 har vinduer på over 100.000 tokens, hvilket svarer til en hel bog.

### Sammenhængen mellem tokens og context windows

Tokenization og context windows er tæt forbundne. Antallet af tokens, som en tekst bliver omdannet til, afgør, hvor meget plads teksten optager i modellens context window. En lang rapport kan nemt fylde hele vinduet i en ældre model, mens den kun optager en brøkdel i en nyere model.

Forståelsen af denne sammenhæng er central for effektiv brug af AI. Hvis du skal have en model til at analysere et stort dokument, skal du sikre dig, at modellens context window er stort nok til at rumme hele dokumentet som tokens. Ellers vil modellen kun kunne analysere en del af teksten ad gangen.

I praksis ser vi ofte, at virksomheder undervurderer, hvordan længden af deres input-dokumenter påvirker omkostningerne. Brugen af sprogmodeller afregnes typisk pr. token, både for input og output. Et større context window giver flere muligheder, men det kan også føre til højere omkostninger, hvis man ikke er opmærksom på sit forbrug.

Denne balance mellem kapacitet og omkostning er en vigtig overvejelse, når man implementerer AI-løsninger, f.eks. inden for automatisering af kundeservice, hvor lange samtalehistorikker skal håndteres.

### Betydningen af context window-størrelse

Størrelsen på et context window har direkte indflydelse på en sprogmodels anvendelighed og kapabiliteter. Et større vindue giver modellen adgang til mere kontekst, hvilket forbedrer dens evne til at udføre komplekse opgaver.

Fordele ved et stort context window inkluderer:
* Bedre sammenhæng i lange samtaler.
* Evnen til at analysere og opsummere store dokumenter som rapporter, juridiske tekster eller forskningsartikler.
* Forbedret evne til at følge komplekse instruktioner, der er spredt over en lang prompt.
* Mindre behov for at finjustere modellen, da man kan give den mere kontekst direkte i prompten.

Et større vindue er dog ikke uden ulemper. Det kræver betydeligt mere computerkraft, hvilket kan resultere i langsommere svartider og højere driftsomkostninger. Derudover kan nogle modeller have en tendens til at “fare vild” i meget store kontekstvinduer og overse vigtige detaljer, der er placeret i midten af en lang tekst.

Valget af model afhænger derfor af opgaven. Til hurtige, simple spørgsmål er en model med et lille context window ofte tilstrækkelig og mere omkostningseffektiv. Til dybdegående dataanalyse og rapportgenerering er et stort context window derimod en nødvendighed.

### Begrænsninger og udfordringer

Selvom teknologien udvikler sig hurtigt, er der stadig begrænsninger forbundet med tokenization og context windows. En primær udfordring er, at context windows er statiske. Når grænsen er nået, er informationen tabt, medmindre man anvender mere avancerede teknikker til at administrere hukommelsen.

En anden udfordring er “lost in the middle”-problemet, hvor modeller har en tendens til at fokusere mere på information i starten og slutningen af kontekstvinduet og overse detaljer i midten. Dette kan påvirke kvaliteten af analyser af lange dokumenter.

Tokenization kan også være en udfordring for visse sprog eller domæner. En tokenizer, der primært er trænet på engelsk, kan være ineffektiv til at opdele dansk tekst, hvilket resulterer i flere tokens pr. ord og dermed højere omkostninger. Ligeledes kan fagjargon eller specialiserede termer blive opdelt uhensigtsmæssigt, hvis de ikke var en del af træningsdataene.

Disse begrænsninger understreger, at selvom en AI-agent kan behandle store mængder tekst, er dens “forståelse” betinget af disse tekniske rammer.

### Praktisk anvendelse i danske virksomheder

Forståelsen af tokens og context windows er afgørende for danske virksomheder, der ønsker at udnytte AI. Det påvirker alt fra omkostningsstyring til kvaliteten af de resultater, man opnår.

I kundeservice kan en model med et stort context window fastholde hele kundens historik i en enkelt samtale, hvilket giver en mere personlig og effektiv service. Uden et tilstrækkeligt vindue vil chatbotten “glemme” tidligere oplysninger, hvilket frustrerer kunden.

Inden for indholdsproduktion og SEO kan en skribent give AI’en et langt baggrundsdokument, en specifik tone-of-voice guide og SEO-nøgleord, alt sammen inden for samme kontekstvindue. Dette sikrer, at det genererede indhold er sammenhængende, velinformeret og optimeret.

For juridiske eller finansielle virksomheder, der skal analysere lange kontrakter eller årsrapporter, er et stort context window en forudsætning. Det gør det muligt at stille specifikke spørgsmål til dokumentet og få præcise svar baseret på den fulde kontekst. Mange små virksomheder kan drage fordel af disse muligheder uden selv at skulle udvikle teknologien.

### Fremtiden for tokens og context windows

Udviklingen inden for AI peger mod stadigt større context windows. Forskere arbejder på at gøre modellerne mere effektive, så de kan håndtere millioner af tokens uden at miste præcision eller blive for langsomme. Dette vil åbne for helt nye anvendelsesmuligheder, såsom at analysere hele kodebaser eller komplette arkiver af virksomhedsdokumenter.

Samtidig forskes der i alternative metoder til det faste context window. Teknikker som “Retrieval-Augmented Generation” (RAG) kombinerer sprogmodeller med eksterne databaser. I stedet for at proppe al information ind i kontekstvinduet, lærer modellen at søge efter relevant information efter behov.

For danske brugere og virksomheder betyder denne udvikling, at AI-værktøjer bliver endnu mere kraftfulde. Overholdelse af databeskyttelsesregler, som dem der skitseres i EU’s AI Act, vil fortsat være centralt, især når modeller behandler store mængder potentielt følsomme data. Fremtidens modeller vil sandsynligvis tilbyde mere fleksible og effektive måder at håndtere information på.

Relaterede artikler: