Hvad er syntetiske data i maskinlæring?

Syntetiske data er kunstigt fremstillede informationer, der ikke er indsamlet fra virkelige hændelser. De genereres af algoritmer for at efterligne statistiske egenskaber fra et reelt datasæt. Formålet er at træne, teste eller validere maskinlæringsmodeller uden at bruge følsomme eller utilstrækkelige originale data.

Definition af syntetiske data

Syntetiske data er information, der er skabt algoritmisk frem for at være indsamlet direkte fra den virkelige verden. I modsætning til reelle data, som registreres via sensorer, brugerundersøgelser eller transaktioner, bliver syntetiske data genereret af en computermodel.

Målet med disse data er at reproducere de matematiske og statistiske mønstre, der findes i et originalt datasæt. Det betyder, at de syntetiske data skal have samme fordeling, korrelationer og sammenhænge mellem variabler som de virkelige data, de er baseret på.

Denne proces sikrer, at en maskinlæringsmodel, der trænes på syntetiske data, opfører sig på samme måde, som hvis den var blevet trænet på de originale, virkelige data. Dataene er dog helt nye og indeholder ingen en-til-en korrespondance med virkelige individer eller hændelser.

Dermed fungerer syntetiske data som en statistisk stedfortræder. De muliggør udvikling og test af AI-systemer i situationer, hvor adgang til virkelige data er begrænset af privatlivshensyn, omkostninger eller simpel mangel på tilgængelig information.

Hvordan genereres syntetiske data?

Processen med at skabe syntetiske data involverer typisk avancerede generative modeller. Disse modeller lærer de underliggende mønstre i et eksisterende, reelt datasæt og bruger derefter denne viden til at producere nye, kunstige datapunkter.

En udbredt metode er brugen af Generative Adversarial Networks (GANs). Et GAN-system består af to neurale netværk: en “generator”, der skaber nye data, og en “diskriminator”, der forsøger at skelne mellem de falske data og de ægte data. De to netværk træner hinanden, indtil generatoren bliver så dygtig, at dens output er statistisk uadskilleligt fra det originale datasæt.

En anden teknik er Variational Autoencoders (VAEs). En VAE lærer først at komprimere data ned til en forenklet repræsentation og derefter at genskabe de oprindelige data fra denne repræsentation. Ved at trække nye punkter fra den komprimerede repræsentation kan modellen generere nye, realistiske data.

Der findes også simplere, statistisk baserede metoder, hvor man analyserer fordelingen af de originale data og derefter trækker tilfældige stikprøver fra disse lærte fordelinger for at skabe nye datasæt. Valget af metode afhænger af datatypen og det ønskede niveau af realisme.

Formål og primære fordele

Anvendelsen af syntetiske data er motiveret af en række praktiske og regulatoriske udfordringer i arbejdet med kunstig intelligens. De løser konkrete problemer, som virksomheder ofte står over for, når de skal udvikle AI-løsninger. I praksis ser vi ofte, at virksomheder bruger teknologien til at accelerere udviklingsprojekter, der ellers ville være bremset af dataadgang.

De primære fordele kan opsummeres i flere punkter:

Beskyttelse af privatliv: Da dataene er kunstige, indeholder de ingen personhenførbare oplysninger. Det gør dem ideelle til at udvikle og dele modeller uden at bryde GDPR.
Dataforøgelse (augmentation): Hvis et originalt datasæt er for lille til at træne en robust model, kan syntetiske data bruges til at supplere det og skabe et større træningsgrundlag.
Balancering af datasæt: Mange virkelige datasæt er ubalancerede, f.eks. med få eksempler på svindel i et stort datasæt af transaktioner. Syntetiske data kan bruges til at skabe flere eksempler på sjældne hændelser.
Simulation og test: Virksomheder kan generere data, der repræsenterer sjældne eller farlige scenarier (f.eks. biluheld for selvkørende biler), som er svære at indsamle i virkeligheden.
Reducerede omkostninger: Indsamling og annotering af virkelige data kan være en dyr og tidskrævende proces. Generering af syntetiske data er ofte hurtigere og billigere.

Anvendelsesområder i dansk erhvervsliv

I Danmark ser vi en stigende anvendelse af syntetiske data på tværs af flere brancher, især hvor data er følsomme eller svære at skaffe.

Inden for sundhedssektoren bruges teknologien til at generere anonymiserede patientjournaler. Det giver forskere og udviklere mulighed for at bygge prædiktive modeller for sygdomsforløb uden at kompromittere patienternes privatliv. Det kan for eksempel være til træning af billedgenkendelsesmodeller på syntetiske røntgen- eller scanningsbilleder.

Finanssektoren anvender syntetiske data til at forbedre systemer til afsløring af svindel. Ved at generere store mængder realistiske, men falske, transaktionsdata, herunder sjældne typer af svindel, kan algoritmer trænes mere effektivt til at genkende mistænkelige mønstre.

I detailhandlen kan syntetiske kundedata bruges til at simulere købsadfærd og teste nye butikslayouts eller marketingstrategier. Det giver indsigt uden at skulle analysere individuelle kunders personlige historik. Ligeledes bruger teknologivirksomheder, der udvikler autonome systemer som droner eller selvkørende biler, syntetiske data til at træne deres modeller i tusindvis af simulerede trafiksituationer.

Kvalitet og realisme i syntetiske data

Kvaliteten af syntetiske data er afgørende for deres anvendelighed. Hvis de genererede data ikke afspejler de statistiske egenskaber fra det virkelige datasæt tilstrækkeligt godt, vil en model trænet på dem ikke fungere korrekt i den virkelige verden. Kvaliteten måles typisk på to parametre: lighed og privatliv.

Lighed (fidelity) refererer til, hvor godt de syntetiske data fanger mønstrene, korrelationerne og fordelingerne i de originale data. Dette kan evalueres statistisk ved at sammenligne de to datasæt eller funktionelt ved at træne en model på hvert datasæt og sammenligne deres præstation på en tredje, uafhængig testdata.

Samtidig skal dataene opretholde et højt niveau af privatlivsbeskyttelse. De må ikke være så tæt på de originale data, at man kan genskabe information om virkelige individer. Der er en iboende balancegang her: jo mere realistiske data, desto større er risikoen for, at de utilsigtet lækker information fra træningsdataene.

Moderne generative modeller er blevet markant bedre til at opnå høj lighed, men det kræver stadig omhyggelig validering at sikre, at et syntetisk datasæt er egnet til formålet. Uden tilstrækkelig kvalitet risikerer man at træne en model, der er upålidelig.

Risici og etiske overvejelser

Selvom syntetiske data løser mange problemer, medfører de også nye risici og etiske dilemmaer. En af de primære bekymringer er forstærkning af bias. Hvis det originale datasæt indeholder skævheder relateret til køn, etnicitet eller andre demografiske faktorer, vil den generative model lære og potentielt forstærke disse skævheder i de syntetiske data.

En anden risiko er muligheden for “medlemskabsinferens-angreb” (membership inference attacks). Selvom dataene er kunstige, kan en avanceret modstander i nogle tilfælde analysere de syntetiske data og afgøre, om en bestemt persons data var en del af det oprindelige træningssæt. Dette udgør en potentiel trussel mod privatlivets fred.

Der er også en etisk overvejelse omkring misbrug. Teknologien, der bruges til at skabe realistiske syntetiske data, kan også anvendes til at generere vildledende information, såsom deepfakes eller falske datasæt til at understøtte en bestemt dagsorden. Dette stiller krav til ansvarlig udvikling og implementering.

Endelig er der en risiko for, at en model, der udelukkende er trænet på syntetiske data, ikke kan håndtere uforudsete hændelser eller “outliers” i den virkelige verden, fordi de syntetiske data kun afspejler de mønstre, der var til stede i det oprindelige datasæt.

Syntetiske data og GDPR

I en europæisk og dansk kontekst er en af de største drivkræfter for brugen af syntetiske data EU’s databeskyttelsesforordning (GDPR). GDPR stiller strenge krav til behandlingen af personoplysninger, hvilket kan gøre det komplekst og risikabelt at bruge kundedata eller medarbejderdata til at udvikle AI.

Fuldt syntetiske data, der er genereret uden en en-til-en-relation til virkelige personer, betragtes som anonyme data. Ifølge Datatilsynet og europæisk lovgivning falder anonyme data uden for GDPR’s anvendelsesområde. Det betyder, at virksomheder kan bruge, dele og analysere disse data frit uden at skulle indhente samtykke eller bekymre sig om de samme juridiske forpligtelser.

Dette åbner for langt mere agil innovation. Udviklingsteams kan få adgang til realistiske data uden lange godkendelsesprocesser. Data kan deles med eksterne partnere eller bruges i cloud-miljøer med færre sikkerhedsforanstaltninger, end hvad der kræves for personfølsomme oplysninger.

Med den kommende AI Act fra EU, som stiller krav til gennemsigtighed og robusthed i AI-systemer, kan syntetiske data også spille en rolle. De kan bruges til at stressteste modeller for bias og retfærdighed på en kontrolleret måde, hvilket kan hjælpe virksomheder med at dokumentere overholdelse af de nye regler.

Fremtiden for syntetiske data

Fremtiden for syntetiske data peger i retning af en endnu dybere integration i hele livscyklussen for AI-udvikling. Teknologien modnes hurtigt, og generative modeller bliver stadigt bedre til at skabe komplekse og høj-dimensionelle data, såsom video, 3D-miljøer og tidsseriedata.

Vi vil sandsynligvis se en stigning i “data-as-a-service”-platforme, hvor virksomheder kan bestille skræddersyede, syntetiske datasæt, der opfylder specifikke krav, uden selv at skulle investere i den nødvendige infrastruktur og ekspertise. Dette vil demokratisere adgangen til data for mindre virksomheder og startups.

En anden tendens er brugen af syntetiske data til at udforske hypotetiske scenarier. Ved at justere parametrene i den generative model kan man skabe data, der repræsenterer fremtidige markedsforhold eller sjældne begivenheder, hvilket giver virksomheder mulighed for at bygge mere robuste og fremtidssikrede modeller.

Endelig vil kombinationen af syntetiske data og andre privatlivsfremmende teknologier, som differentiel privatliv og fødereret læring, skabe endnu stærkere garantier for databeskyttelse. Dette vil blive en central del af værktøjskassen for enhver organisation, der arbejder med data i vores AI-drevne ordbog over teknologier.