Hvad er AI Embeddings?

AI embeddings er en teknik, der oversætter komplekse data som tekst, billeder eller lyd til numeriske repræsentationer, kaldet vektorer. Dette gør det muligt for computere at forstå og arbejde med dataenes semantiske betydning og relationer, hvilket er fundamentalt for mange AI-opgaver.

Kernen i AI Embeddings: Fra Ord til Tal

Computere forstår ikke ord og sætninger på samme måde som mennesker. De arbejder med tal. AI embeddings fungerer som en oversætter, der konverterer et stykke data – for eksempel ordet “bil” – til en lang liste af tal, en såkaldt vektor. Denne vektor repræsenterer ordets position i et multidimensionelt rum.

I dette rum er afstanden mellem vektorerne et mål for deres semantiske relation. Ord med lignende betydning, som “bil” og “køretøj”, vil have vektorer, der ligger tæt på hinanden. Ord med modsatrettet betydning, som “varm” og “kold”, vil ligge langt fra hinanden.

Denne matematiske repræsentation gør det muligt for algoritmer at udføre beregninger på sprog. Et klassisk eksempel er, at vektoren for “Konge” minus vektoren for “Mand” plus vektoren for “Kvinde” resulterer i en vektor, der ligger meget tæt på vektoren for “Dronning”.

Denne evne til at fange relationer er kernen i, hvorfor embeddings er så kraftfulde. De giver maskiner en form for kontekstuel forståelse, der rækker ud over simpel genkendelse af nøgleord. Teknologien er grundlaget for avanceret dataanalyse og sprogforståelse.

Hvordan skabes en Embedding?

Embeddings skabes ved at træne store neurale netværk på enorme mængder data. For tekst-embeddings trænes en model typisk på milliarder af sætninger fra internettet, bøger og artikler. Under træningen lærer modellen at forudsige et ord baseret på de omkringliggende ord i en sætning.

Gennem denne proces justerer modellen de numeriske værdier i sine vektorer, så ord, der ofte optræder i lignende kontekster, får lignende vektor-repræsentationer. Ordet “hund” vil ofte optræde nær ord som “gø”, “snor” og “kødben”, og dets vektor vil derfor afspejle disse relationer.

Resultatet er en færdigtrænet embedding-model, der kan tage et nyt stykke tekst, som den aldrig har set før, og omdanne det til en meningsfuld vektor. Kendte modeller som `text-embedding-3-large` fra OpenAI er eksempler på sådanne systemer, der er gjort tilgængelige for udviklere.

Processen er beregningsmæssigt krævende og kræver betydelige ressourcer, hvilket er grunden til, at mange virksomheder benytter sig af forudtrænede modeller i stedet for at udvikle deres egne fra bunden.

Praktisk anvendelse i danske virksomheder

Embeddings er ikke en teoretisk øvelse; de driver en lang række praktiske AI-løsninger, som mange danske virksomheder allerede anvender eller kan drage fordel af. Teknologien er en af de drivende kræfter i den nuværende AI-revolution.

I praksis ser vi ofte, at virksomheder med store mængder ustruktureret data, såsom tekst eller billeder, opnår den største værdi ved at implementere embeddings. Det kan transformere den måde, de interagerer med deres data på.

Nogle af de mest almindelige anvendelser inkluderer:

Anbefalingssystemer: En webshop kan omdanne sine produkter til embeddings. Når en kunde ser på et produkt, kan systemet finde andre produkter med lignende vektorer og anbefale dem. Det samme princip gælder for streamingtjenester, der anbefaler film eller musik.
Klassificering af tekst: En virksomhed kan automatisk sortere kundehenvendelser. Ved at omdanne hver henvendelse til en vektor kan systemet klassificere den som “faktura-spørgsmål”, “teknisk support” eller “klage” og sende den til den rette afdeling.
Analyse af kundeanmeldelser: Ved at omdanne tusindvis af anmeldelser til embeddings kan en virksomhed gruppere dem efter tema (clustering) og identificere gennemgående mønstre i kundetilfredsheden, uden at et menneske skal læse alt igennem.
Snyd-detektion: I finanssektoren kan transaktioner omdannes til vektorer. Usædvanlige transaktioner vil have vektorer, der afviger markant fra normalen, hvilket kan signalere potentiel svindel.

Semantisk søgning: Mere end bare nøgleord

En af de mest transformative anvendelser af embeddings er semantisk søgning. Traditionelle søgemaskiner fungerer primært ved at matche nøgleord. Hvis du søger på “løbesko til skov”, finder den sider, der indeholder præcis disse ord.

Semantisk søgning forstår derimod den underliggende intention eller betydning bag en søgning. Den omdanner både brugerens søgeforespørgsel og indholdet på en hjemmeside til embeddings. Herefter finder den de dokumenter, hvis vektorer er tættest på søgeforespørgselens vektor, uanset om de præcise nøgleord er til stede.

En bruger, der søger på “løbesko til skov”, kan med semantisk søgning få resultater, der indeholder “trailsko til ujævnt terræn” eller “fodtøj til off-road løb”. Systemet forstår, at disse begreber er semantisk relaterede. Dette er en central del af, hvordan Google revolutionerer søgning med AI.

For virksomheder med store vidensbaser, webshops med mange produkter eller interne dokumentarkiver betyder semantisk søgning, at medarbejdere og kunder kan finde relevant information hurtigere og mere intuitivt.

Embeddings til billeder, lyd og andre datatyper

Selvom tekst er det mest kendte eksempel, er princippet bag embeddings universelt og kan anvendes på næsten enhver form for data. Det handler om at træne et neuralt netværk til at udtrække meningsfulde træk fra dataen og repræsentere dem som en vektor.

For billeder kan en model lære at genkende former, farver, teksturer og objekter. Et billede af en golden retriever og et billede af en labrador vil få meget ens vektorer, fordi de deler mange visuelle træk. Dette muliggør “visuel søgning”, hvor man kan uploade et billede og finde lignende billeder.

For lyd kan en model lære at identificere karakteristika i lydbølger. Dette kan bruges til at finde sange, der lyder som en anden sang, eller til at identificere specifikke lydeffekter i et stort lydbibliotek.

Denne fleksibilitet gør embeddings til en fundamental byggeklods i moderne AI. Ved at omdanne forskellige datatyper til det samme matematiske format (vektorer) kan man bygge systemer, der arbejder på tværs af data, for eksempel at søge efter billeder ved hjælp af en tekstbeskrivelse.

Valg af den rette Embedding-model

Der findes ikke én embedding-model, der er bedst til alle formål. Valget afhænger af den specifikke opgave, budget og de tekniske krav. Virksomheder står typisk over for et valg mellem at bruge en forudtrænet model via en API eller at anvende og eventuelt finjustere en open source-model.

Forudtrænede modeller fra store udbydere er ofte nemme at implementere og er trænet på generelle, brede datasæt. De fungerer godt til mange standardopgaver som generel semantisk søgning eller tekstklassificering.

Open source-modeller, som man kan finde på platforme som Hugging Face, giver mere kontrol. En virksomhed kan vælge en model, der er specialiseret i et bestemt sprog eller domæne. For opgaver, der involverer meget specifikt fagsprog (f.eks. juridiske dokumenter eller medicinske journaler), kan det være nødvendigt at finjustere en model på virksomhedens egne data for at opnå optimal præcision.

Faktorer, der spiller ind i valget, er blandt andet modellens størrelse (påvirker hastighed og omkostninger), dimensionaliteten af vektorerne (højere dimensioner kan fange flere nuancer, men kræver mere lagerplads) og modellens performance på relevante benchmarks.

Begrænsninger og etiske overvejelser

Embeddings er en kraftfuld teknologi, men den har også begrænsninger og medfører etiske overvejelser. Da modellerne lærer fra data skabt af mennesker, kan de arve og forstærke de fordomme, der findes i dataene. Hvis en model er trænet på historiske tekster, kan den associere visse jobtitler med bestemte køn, hvilket kan føre til diskriminerende resultater i f.eks. et rekrutteringssystem.

En anden begrænsning er manglen på gennemsigtighed. Embeddings fungerer som en “sort boks”. Det kan være svært at inspicere en vektor og præcist forklare, hvorfor den har de værdier, den har, eller hvorfor to vektorer er tæt på hinanden. Denne mangel på forklarlighed kan være problematisk i systemer, hvor der træffes vigtige beslutninger om mennesker.

Desuden fanger embeddings statistiske sammenhænge, ikke sand forståelse. De kan have svært ved at håndtere nuancer som sarkasme, ironi eller komplekse kulturelle referencer, som ikke er tydeligt repræsenteret i træningsdataene. Forståelsen af teknologi og algoritmer bag er derfor central for ansvarlig anvendelse.

Fremtiden for Embeddings og EU-regulering

Udviklingen inden for embeddings fortsætter med høj hastighed. En af de store tendenser er multimodale embeddings, hvor en enkelt vektor kan repræsentere information fra flere datatyper samtidigt, for eksempel både et billede og den tilhørende tekst. Dette åbner for endnu mere sofistikerede AI-applikationer.

Embeddings er også en fundamental komponent i mere avancerede systemer som store sprogmodeller og autonome AI-agenter, hvor de bruges til at give modellen en form for hukommelse og kontekstforståelse.

I en dansk og europæisk kontekst er det relevant at se på, hvordan teknologien forholder sig til regulering som EU’s AI Act. Embeddings i sig selv betragtes sjældent som højrisiko-AI. De systemer, de indgår i, kan dog falde ind under reguleringen, hvis de anvendes i kritiske områder som rekruttering, kreditvurdering eller retshåndhævelse.

Dette vil stille krav til gennemsigtighed omkring de data, modellerne er trænet på, samt dokumentation for, hvordan man har adresseret potentielle bias. Virksomheder, der anvender embeddings i sådanne systemer, skal derfor være forberedte på at kunne redegøre for deres modellers oprindelse og egenskaber.