Hvad er Mixture of Experts (MoE)?

Mixture of Experts (MoE) er en arkitektur inden for neurale netværk, hvor en stor model er opbygget af mange mindre, specialiserede “ekspert”-netværk. I stedet for at aktivere hele modellen for hver opgave, udvælger en mekanisme kun de mest relevante eksperter, hvilket gør processen mere effektiv.

Kernen i MoE-arkitekturen

En MoE-model består grundlæggende af to centrale komponenter: et antal “eksperter” og et “gating network”. Hver ekspert er i sig selv et mindre neuralt netværk, der er trænet til at specialisere sig i en bestemt type data eller opgave. Det kan for eksempel være en ekspert i juridisk sprog og en anden i kreativ skrivning.

Gating networket fungerer som en intelligent fordeler eller “router”. Når modellen modtager et input, for eksempel en sætning, analyserer gating networket dette input og beslutter, hvilken eller hvilke eksperter der er bedst egnet til at behandle det.

Resultatet er, at kun en lille del af modellens samlede parametre aktiveres for at generere et svar. Dette står i kontrast til traditionelle, tætte (dense) modeller, hvor hele netværket bruges hver gang, uanset opgavens art.

Denne tilgang gør det muligt at bygge modeller med et ekstremt højt antal parametre, uden at de beregningsmæssige omkostninger ved at bruge dem stiger tilsvarende.

Sådan fungerer en MoE-model i praksis

Processen i en MoE-model kan beskrives i en række trin. Først modtager modellen et input, for eksempel et spørgsmål fra en bruger. Dette input sendes direkte til gating networket.

Gating networket analyserer inputtet og tildeler en “score” til hver ekspert baseret på, hvor relevant den vurderes at være. Typisk udvælges de få eksperter med den højeste score, ofte kun to eller tre ud af mange.

De valgte eksperter behandler derefter inputtet parallelt. Hver ekspert genererer sit eget output eller sin egen del af løsningen. Til sidst kombineres outputtet fra de aktive eksperter, ofte vægtet af den score de fik fra gating networket, for at skabe det endelige svar.

Man kan forestille sig det som et team af speciallæger på et hospital. I stedet for at alle læger undersøger hver patient, vurderer en visitationssygeplejerske (gating networket) patientens symptomer og sender vedkommende videre til de mest relevante specialister, f.eks. en kardiolog og en lungelæge.

Fordele ved at bruge Mixture of Experts

MoE-arkitekturen tilbyder flere markante fordele sammenlignet med traditionelle, tætte AI-modeller. Den primære fordel er beregningsmæssig effektivitet, da kun en brøkdel af modellen er aktiv under kørsel.

Dette fører til en række afledte fordele:

  • Hurtigere inferens: Fordi færre beregninger er nødvendige for at generere et svar, kan MoE-modeller ofte levere resultater hurtigere end tætte modeller af sammenlignelig størrelse.
  • Skalerbarhed: Det er muligt at bygge modeller med billioner af parametre, hvilket ville være praktisk umuligt med en tæt arkitektur på grund af de enorme krav til computerkraft.
  • Specialisering: Modellen kan opnå en højere grad af specialisering, da hver ekspert kan fokusere på at blive ekstremt dygtig inden for et snævert domæne, hvilket kan forbedre den samlede kvalitet af outputtet.

I praksis ser vi ofte, at virksomheder kan opnå resultater på niveau med state-of-the-art modeller, men med lavere driftsomkostninger, hvilket gør avanceret kunstig intelligens mere tilgængelig.

Ulemper og begrænsninger ved MoE

Selvom MoE-arkitekturen er effektiv under kørsel, har den også sine udfordringer. En af de største ulemper er hukommelseskravet. Selvom kun få eksperter er aktive ad gangen, skal hele modellen, inklusiv alle eksperter, indlæses i computerens hukommelse (RAM eller VRAM). Dette stiller store krav til hardwaren.

Træningen af MoE-modeller er også mere kompleks. Det kræver omhyggelig justering for at sikre, at gating networket lærer at fordele opgaverne jævnt. Hvis netværket udvikler en præference for kun at bruge et lille antal “favorit”-eksperter, mister man fordelen ved specialisering, og modellen bliver ineffektiv.

En anden begrænsning er kommunikationen mellem eksperterne. I den mest simple form for MoE arbejder eksperterne uafhængigt. Mere avancerede opgaver kan kræve en mere sofistikeret teknologi og algoritmer, hvor eksperter kan samarbejde eller bygge videre på hinandens resultater.

Endelig kan finjustering af en MoE-model til en specifik opgave være vanskeligere, da man både skal justere eksperterne og gating networket for at opnå det bedste resultat.

MoE i kendte sprogmodeller

Flere af de mest avancerede sprogmodeller på markedet i dag anvender MoE-arkitekturen for at opnå en balance mellem ydeevne og effektivitet. Et fremtrædende eksempel er Googles Gemini-serie af modeller, som udnytter denne tilgang til at håndtere en bred vifte af opgaver.

Et andet kendt eksempel er modellen Mixtral 8x7B fra det franske firma Mistral AI. Navnet afslører arkitekturen: den består af otte forskellige “eksperter”, hvoraf gating networket vælger de to mest relevante for hver beregning. Dette giver modellen en samlet parameterstørrelse, der er stor, men med en beregningsomkostning, der er tættere på en meget mindre model.

OpenAI har også eksperimenteret med og anvendt MoE i udviklingen af deres GPT-modeller. Arkitekturen er blevet en nøglestrategi for at skalere sprogmodeller ud over tidligere grænser og er en central del af den nuværende AI-udvikling.

Anvendelsesmuligheder i en dansk kontekst

For danske virksomheder åbner MoE-arkitekturen for nye muligheder. Ved at træne eller finjustere en MoE-model kan en virksomhed udvikle en AI med specialiserede “eksperter” tilpasset det danske marked. En ekspert kan håndtere kundeservice på dansk, en anden kan analysere juridiske dokumenter i henhold til dansk lovgivning, og en tredje kan generere marketingmateriale til en dansk målgruppe.

Denne tilgang er mere ressourceeffektiv end at træne én gigantisk model til at kunne alt. For små og mellemstore virksomheder betyder det, at adgangen til skræddersyet, højtydende AI bliver mere realistisk. Lavere driftsomkostninger per forespørgsel gør det rentabelt at integrere AI i flere forretningsprocesser.

Det er vores erfaring, at virksomheder, der har brug for at behandle meget forskelligartede data, kan drage stor fordel af MoE. Et mediebureau kan for eksempel have eksperter til henholdsvis sportsnyheder, finansstof og kulturanmeldelser, hvilket sikrer højere kvalitet og relevans i det genererede indhold.

Fremtiden for MoE og EU-regulering

Fremtiden for AI-arkitekturer peger i retning af øget modularitet og specialisering, og her spiller MoE en central rolle. Forskningen fokuserer på at gøre gating-mekanismerne endnu mere intelligente og dynamiske, så modellerne bedre kan tilpasse sig nye opgaver uden fuld retræning. Vi ser også udvikling mod “sparse” modeller, hvor MoE er et vigtigt skridt på vejen.

I en europæisk kontekst er EU’s AI Act relevant. Forordningen stiller krav til gennemsigtighed og risikostyring for AI-systemer. Selvom AI Act ikke direkte regulerer specifikke tekniske arkitekturer som MoE, kan modellens opbygning have betydning for, hvordan man dokumenterer og forklarer dens beslutninger.

En MoE-model kan potentielt tilbyde en vis grad af forklarbarhed. Ved at identificere, hvilke eksperter der blev aktiveret for et givent output, kan man få et indblik i modellens “tankeproces”. Dette kan blive et værdifuldt redskab for virksomheder, der skal efterleve kravene om gennemsigtighed i AI-systemer med høj risiko.