Hvad er open-source AI-modeller?

Open-source AI-modeller er kunstig intelligens-systemer, hvis kildekode, arkitektur og ofte også trænede modelvægte er offentligt tilgængelige. Dette giver udviklere og virksomheder mulighed for frit at studere, modificere og distribuere modellerne til egne formål, i modsætning til lukkede, proprietære systemer.

Definition og kernekoncept

Kernen i open-source er gennemsigtighed og fri adgang. Når en AI-model er open-source, betyder det, at de grundlæggende komponenter, der definerer og driver modellen, er frigivet under en licens, der tillader genbrug og modifikation. Dette omfatter typisk modellens arkitektur (designet), kildekoden brugt til at bygge den, og i mange tilfælde de “vægte”, som er de lærte parametre fra træningsprocessen.

Adgangen giver en dyb teknisk indsigt, som er umulig med lukkede modeller. Udviklere kan se præcis, hvordan modellen træffer beslutninger, og de kan tilpasse den til specifikke behov. Dette står i skarp kontrast til lukkede modeller som OpenAI’s GPT-serie, hvor den underliggende teknologi er en forretningshemmelighed.

Licenserne varierer. Nogle, som Apache 2.0, er meget tilladende og tillader kommerciel brug med få restriktioner. Andre, som Llama 2 Community License, kan have begrænsninger for meget store virksomheder eller specifikke anvendelser. Valget af licens definerer de juridiske rammer for, hvordan modellen må anvendes.

Det er vores erfaring, at mange danske virksomheder overser licensbetingelserne, men de er afgørende for, om en model lovligt kan integreres i et kommercielt produkt.

Forskellen på open-source og lukkede modeller

Den primære forskel ligger i kontrol og transparens. Med en lukket model, som man typisk tilgår via en API (Application Programming Interface), betaler man for brug og har ingen kontrol over selve modellen. Man kan ikke se, hvordan den er bygget, hvilke data den er trænet på, eller hvordan den vil blive opdateret i fremtiden.

En open-source model giver derimod fuld kontrol. En virksomhed kan downloade modellen og køre den på sine egne servere, enten i skyen eller lokalt (on-premise). Dette sikrer, at følsomme data aldrig forlader virksomhedens egen infrastruktur, hvilket er en væsentlig fordel i forhold til GDPR-overholdelse.

Økonomien er også anderledes. Lukkede modeller har løbende driftsomkostninger baseret på forbrug. Open-source modeller har ingen licensomkostninger, men kræver til gengæld en initial investering i hardware (typisk kraftige GPU’er) og teknisk ekspertise til at opsætte, vedligeholde og optimere modellen.

Innovationen drives forskelligt. Lukkede modeller udvikles af et enkelt firma, mens open-source modeller ofte drager fordel af et globalt fællesskab af udviklere, der bidrager med forbedringer, finder fejl og udvikler nye anvendelsesmuligheder.

Fordele ved at anvende open-source AI

Valget af en open-source model giver en række strategiske fordele, især for virksomheder, der ønsker fuld kontrol over deres teknologistak og data. Fleksibiliteten til at tilpasse en model er en af de mest markante fordele, da den kan finjusteres til specifikke brancher, sprog eller opgaver.

En anden central fordel er datasikkerhed. Ved at hoste modellen selv sikrer man, at proprietære eller personfølsomme oplysninger ikke sendes til en tredjepartsleverandør. Dette er særligt relevant for sektorer som sundhed, finans og jura, hvor datasuverænitet er et krav fra Datatilsynet.

De primære fordele kan opsummeres således:

Økonomisk fleksibilitet: Ingen løbende licens- eller API-omkostninger. Udgifterne er primært bundet til hardware og intern ekspertise, hvilket kan være mere forudsigeligt på lang sigt.
Datasikkerhed og kontrol: Fuld kontrol over dataflow og mulighed for at køre systemet helt isoleret fra internettet.
Tilpasning og specialisering: Modeller kan finjusteres (fine-tuning) med virksomhedens egne data for at opnå højere præcision og relevans for specifikke opgaver.
Gennemsigtighed: Mulighed for at auditere modellens kode og arkitektur for at forstå dens adfærd, identificere bias og sikre overholdelse af etiske retningslinjer.

Ulemper og risici

Selvom open-source AI tilbyder stor frihed, medfølger der også et betydeligt ansvar og en række udfordringer. Den mest umiddelbare ulempe er de tekniske krav. At drive en stor sprogmodel kræver specialiseret og dyr hardware samt medarbejdere med kompetencer inden for machine learning operations (MLOps).

Support og vedligeholdelse er en anden faktor. Med en kommerciel, lukket model følger der typisk en serviceaftale og kundesupport. Med en open-source model er virksomheden selv ansvarlig for fejlfinding, opdateringer og sikkerhed. Man er afhængig af fællesskabet eller skal hyre eksterne konsulenter.

I praksis ser vi ofte, at virksomheder undervurderer de ressourcer, der kræves til løbende drift og optimering af en selv-hostet model. Det er ikke en “set-and-forget” løsning.

De væsentligste risici omfatter:

Tekniske krav: Behov for kraftfulde servere (GPU’er), stor lagerplads og avanceret teknisk viden til implementering og vedligeholdelse.
Mangel på central support: Ansvaret for drift, fejlfinding og opdateringer ligger hos brugeren, ikke en ekstern leverandør.
Ansvar for sikkerhed og etik: Virksomheden er selv ansvarlig for at forhindre misbrug af modellen og for at håndtere eventuel bias eller skadeligt output.
Ressourcekrævende: Både i form af computerkraft og de menneskelige ressourcer, der skal allokeres til projektet.

Kendte eksempler på open-source modeller

Landskabet for open-source AI er i hastig udvikling, drevet af både store teknologivirksomheder og agile startups. En af de mest kendte aktører er Meta, som har udgivet Llama-serien af modeller. Disse modeller har sat en høj standard for ydeevne og har været afgørende for at accelerere udviklingen i open-source-fællesskabet.

En anden markant europæisk spiller er franske Mistral AI, som har frigivet en række meget effektive modeller, der er kendt for at levere stærk ydeevne på mindre og mere tilgængelig hardware. Deres modeller er populære til anvendelser, hvor ressourceforbruget er en kritisk faktor.

Andre vigtige modeller inkluderer Falcon-serien, udviklet i De Forenede Arabiske Emirater, og modeller fra organisationer som EleutherAI, der fokuserer på at skabe åbne alternativer til lukkede systemer. Disse modeller findes ofte på platforme som Hugging Face, der fungerer som et centralt knudepunkt for deling af modeller, datasæt og værktøjer.

For billedgenerering er Stability AI’s Stable Diffusion en af de mest udbredte open-source modeller, som har demokratiseret adgangen til at skabe AI-genererede billeder.

Hvordan virksomheder i Danmark kan anvende dem

For danske virksomheder åbner open-source AI for en række konkrete muligheder, der er svære at realisere med standardiserede, lukkede systemer. En primær anvendelse er udviklingen af specialiserede assistenter, der er trænet på virksomhedens interne dokumenter, produktmanualer eller juridiske tekster.

En produktionsvirksomhed kan for eksempel finjustere en model til at forstå tekniske manualer og give præcise svar til serviceteknikere i felten. En advokatvirksomhed kan træne en model på dansk jura for at assistere med research og dokumentanalyse, alt sammen uden at sende følsomme klientdata til en ekstern server.

En anden stærk anvendelse er forbedret kundeservice. Ved at træne en chatbot på virksomhedens egen data om produkter og tidligere kundesager kan man skabe en langt mere relevant og præcis kundeoplevelse. Dette er især værdifuldt for at håndtere henvendelser på dansk med forståelse for lokale nuancer og terminologi.

Endelig giver open-source modeller mulighed for dataanalyse på store, ustrukturerede interne datasæt. En virksomhed kan analysere tusindvis af kundefeedback-mails eller interne rapporter for at identificere mønstre og tendenser, som ellers ville være skjulte.

Teknisk implementering og krav

Implementering af en open-source AI-model er en teknisk proces, der kræver en struktureret tilgang. Det første skridt er valg af model, som afhænger af den specifikke opgave. Skal modellen generere tekst, analysere data eller forstå billeder? Størrelsen på modellen er også afgørende, da større modeller kræver mere computerkraft.

Hardware er den næste overvejelse. Store sprogmodeller kører mest effektivt på specialiserede processorer kaldet GPU’er (Graphics Processing Units), typisk fra producenter som NVIDIA. En virksomhed skal enten investere i egne servere med disse kort eller leje den nødvendige computerkraft hos en cloud-udbyder som Amazon Web Services, Google Cloud eller Microsoft Azure.

Software-økosystemet er bygget op omkring frameworks som PyTorch og TensorFlow. Disse værktøjer bruges til at indlæse, tilpasse og køre modellerne. Derudover findes der platforme som LangChain og LlamaIndex, som hjælper med at bygge applikationer oven på sprogmodellerne, for eksempel ved at forbinde dem til virksomhedens egne databaser.

Endelig kræver processen medarbejdere med de rette kompetencer. Det omfatter typisk data scientists eller machine learning-ingeniører, der kan håndtere alt fra dataforberedelse og finjustering til implementering og løbende overvågning af modellens ydeevne.

Sikkerhed og etiske overvejelser

Med den fulde kontrol over en open-source model følger også det fulde ansvar for dens anvendelse. Virksomheder, der implementerer disse modeller, skal selv sikre, at de anvendes på en sikker og etisk forsvarlig måde. Dette indebærer at udvikle mekanismer til at forhindre, at modellen genererer skadeligt, partisk eller faktuelt forkert indhold.

Bias er en væsentlig risiko. Hvis en model finjusteres på et datasæt, der indeholder historiske fordomme, vil modellen reproducere og forstærke disse. Det er virksomhedens ansvar at rense og kuratere træningsdata for at minimere bias og sikre en fair behandling af alle brugergrupper.

Misbrug er en anden overvejelse. Da koden er åben, kan ondsindede aktører potentielt udnytte teknologien til at skabe misinformation, svindel eller andre skadelige formål. Virksomheder skal derfor implementere robuste sikkerhedsforanstaltninger omkring deres AI-systemer.

I en europæisk kontekst er overholdelse af lovgivning som EU’s AI Act central. Denne forordning stiller krav til gennemsigtighed, risikostyring og dokumentation, især for AI-systemer, der anses for at have høj risiko. Ansvaret for at leve op til disse krav påhviler den organisation, der implementerer og anvender modellen.

Fremtiden for open-source AI

Fremtiden for open-source kunstig intelligens ser ud til at blive præget af en fortsat demokratisering af teknologien. Hvor de tidlige store modeller var forbeholdt en håndfuld teknologigiganter, gør open-source det muligt for mindre virksomheder, forskere og startups at deltage i innovationen.

En tydelig tendens er udviklingen af mindre, men mere specialiserede og effektive modeller. I stedet for én gigantisk model, der kan alt, vil vi se flere modeller, der er optimeret til specifikke opgaver som oversættelse, kodegenerering eller juridisk analyse. Disse mindre modeller er billigere at køre og lettere at tilpasse.

Fællesskabet vil fortsat spille en afgørende rolle. Samarbejdsplatforme vil gøre det lettere at dele viden, forbedre eksisterende modeller og udvikle nye teknikker til at gøre AI mere sikker og pålidelig. Denne kollektive indsats kan accelerere udviklingen hurtigere, end enkelte virksomheder kan alene.

For danske virksomheder betyder det, at adgangen til avanceret AI-teknologi bliver lettere og mere overkommelig. Muligheden for at bygge skræddersyede løsninger, der respekterer datasuverænitet og europæiske værdier, vil sandsynligvis gøre open-source til et stadigt mere attraktivt valg i de kommende år.