Direct Preference Optimization (DPO) er en metode til at finjustere store sprogmodeller. Teknikken træner modellen direkte på data om menneskelige præferencer, hvilket gør den mere effektiv og stabil end tidligere metoder som RLHF, der kræver en separat belønningsmodel til at guide træningen.
Hvad er Direct Preference Optimization (DPO)?
DPO er en træningsteknik, der bruges i slutfasen af udviklingen af en sprogmodel. Formålet er at justere modellens adfærd, så den bedre stemmer overens med menneskelige forventninger og værdier. Dette kaldes også “alignment” eller “justering”.
Processen lærer modellen at skelne mellem gode og dårlige svar. I stedet for at lære, hvad et godt svar er i absolutte termer, lærer modellen, hvilket af to svar et menneske ville foretrække. Denne relative tilgang gør træningen mere direkte og matematisk elegant.
Teknikken er et alternativ til den mere komplekse metode Reinforcement Learning from Human Feedback (RLHF), som tidligere var standarden for at justere modeller som ChatGPT. DPO opnår lignende eller bedre resultater med en enklere og mere stabil proces.
Fra RLHF til DPO: En teknisk forenkling
Den traditionelle metode til at justere sprogmodeller har været Reinforcement Learning from Human Feedback (RLHF). Denne proces består af flere trin: Først trænes en belønningsmodel til at forudsige, hvilke svar mennesker vil bedømme højt. Derefter bruges reinforcement learning til at optimere sprogmodellen, så den producerer svar, der maksimerer scoren fra belønningsmodellen.
RLHF er en kraftfuld, men også kompleks og beregningstung proces. Den kan være ustabil og svær at implementere korrekt.
DPO forenkler dette markant. Metoden fjerner behovet for en separat belønningsmodel og reinforcement learning-trinnet. I stedet bruger DPO præferencedataene til direkte at opdatere sprogmodellens sandsynligheder. Modellen lærer at øge sandsynligheden for at generere det foretrukne svar og mindske sandsynligheden for det afviste svar.
Sådan fungerer DPO i praksis
Grundlaget for DPO er et datasæt med menneskelige præferencer. Dette datasæt består af en række prompter, hvor der til hver prompt er genereret mindst to forskellige svar fra en AI-model.
Menneskelige evaluatorer gennemgår disse svarpar og markerer, hvilket svar de foretrækker. Det foretrukne svar kaldes “chosen” (valgt), og det andet kaldes “rejected” (afvist).
Dette datasæt med tusindvis af “chosen” og “rejected” svarpar bruges derefter til at træne sprogmodellen. DPO-algoritmen justerer modellens interne parametre, så den bliver mere tilbøjelig til at generere svar, der ligner de valgte, og mindre tilbøjelig til at generere svar, der ligner de afviste. Det er en direkte optimering baseret på en klar matematisk formulering, som er beskrevet i det oprindelige forskningspapir på arXiv.org.
Fordele ved at anvende DPO
DPO-metoden tilbyder flere fordele sammenlignet med ældre teknikker som RLHF, hvilket har gjort den populær blandt udviklere af AI-modeller.
- Stabilitet: Processen er mere stabil og forudsigelig. RLHF kan involvere komplekse dynamikker, der gør træningen svær at styre, mens DPO er en mere ligetil optimeringsopgave.
- Effektivitet: Ved at fjerne behovet for at træne en separat belønningsmodel sparer DPO betydelige beregningsressourcer. Det gør processen hurtigere og billigere.
- Enkelhed: Implementeringen af DPO er teknisk mindre kompliceret. Dette gør avanceret modeljustering mere tilgængelig for mindre teams og virksomheder, der ikke har ressourcerne til at håndtere den fulde RLHF-pipeline.
- Ydeevne: I mange tilfælde har DPO vist sig at producere modeller, der klarer sig lige så godt som eller bedre end modeller trænet med RLHF, når det gælder om at følge instruktioner og afspejle menneskelige præferencer.
Begrænsninger og udfordringer ved DPO
Selvom DPO er en forbedring, har metoden også sine begrænsninger. Den største udfordring er afhængigheden af data. Kvaliteten af den færdigtrænede model afhænger direkte af kvaliteten, diversiteten og omfanget af det indsamlede præferencedatasæt. Hvis dataene er inkonsistente eller afspejler bias, vil modellen arve disse fejl.
Indsamlingen af disse data er en ressourcekrævende proces. Det kræver mange timers arbejde fra menneskelige evaluatorer at skabe et stort og robust datasæt, hvilket kan være en barriere for mange.
En anden potentiel begrænsning er, at DPO er mindre “udforskende” end RLHF. Fordi den direkte optimerer mod kendte præferencer, er den måske mindre i stand til at opdage helt nye og kreative måder at besvare en prompt på, som en RLHF-trænet model potentielt kunne finde frem til.
Anvendelsesområder for DPO i Danmark
For danske virksomheder åbner DPO op for nye muligheder for at skræddersy AI-modeller til specifikke behov. En virksomhed kan bruge metoden til at finjustere en open source-model, så den afspejler virksomhedens tone-of-voice, værdier og produktviden.
Et konkret eksempel er inden for kundeservice. Her kan DPO bruges til at træne en model til at levere mere empatiske, præcise og hjælpsomme svar. Dette kan forbedre oplevelsen i systemer til automatisering af kundeservice.
Ligeledes kan virksomheder, der bruger AI til indholdsproduktion og SEO, anvende DPO til at sikre, at det genererede indhold konsekvent overholder brand-guidelines. Det er vores erfaring, at denne form for tilpasning er afgørende for, hvad kan små virksomheder lære af AI-revolutionen og få ud af teknologien.
DPO og AI-sikkerhed
Justering af AI-modeller er ikke kun et spørgsmål om kvalitet, men også om sikkerhed. DPO er et vigtigt værktøj til at gøre AI-systemer mere sikre og pålidelige. Ved at træne en model til systematisk at foretrække harmløse, etiske og faktuelt korrekte svar kan udviklere reducere risikoen for, at modellen genererer skadeligt indhold, misinformation eller udviser bias.
Dette er afgørende for at undgå situationer, hvor en AI giver absurde eller farlige råd, som da Google anbefaler (stadig) lim på pizza.
I en europæisk kontekst er teknikker som DPO relevante for at opfylde kravene i EU’s AI Act. Forordningen stiller krav til robusthed, nøjagtighed og sikkerhed i AI-systemer, især dem der klassificeres som højrisiko. DPO er en af de metoder, der kan anvendes til at dokumentere og sikre, at en model opfører sig som forventet.
Fremtiden for DPO og model-alignment
DPO er en del af en hurtigt udviklende forskningsgren inden for AI. Selvom teknikken er relativt ny, har den allerede haft stor indflydelse på, hvordan sprogmodeller udvikles. Fremtidig forskning vil sandsynligvis fokusere på at forbedre metoden yderligere.
Der eksperimenteres med hybride tilgange, der kombinerer DPO’s stabilitet med andre metoders styrker. Derudover arbejdes der på at gøre dataindsamlingen mere effektiv, for eksempel ved at bruge AI til at hjælpe med at generere og evaluere svarpar.
For udviklere, der ønsker at arbejde med DPO, tilbyder platforme som Hugging Face open source-værktøjer og biblioteker, der gør det lettere at implementere. Dette er med til at demokratisere adgangen til avanceret modeljustering, så flere kan bygge en specialiseret AI-agent eller assistent.