Hvordan gælder GDPR for AI-træningsdata?

GDPR (General Data Protection Regulation) regulerer behandlingen af personoplysninger, hvilket også omfatter de data, der bruges til at træne AI-modeller. Reglerne stiller krav til lovlighed, gennemsigtighed og sikkerhed, når personlig information indgår i et træningsdatasæt, uanset om det er tekst, billeder eller andre datatyper.

Grundlæggende principper: GDPR og AI

GDPR gælder, så snart et træningsdatasæt indeholder personoplysninger. Det vil sige enhver information, der kan identificere en fysisk person. Behandling af data, herunder indsamling, strukturering og analyse med henblik på at træne en algoritme, er omfattet af forordningens regler.

De centrale principper i GDPR skal overholdes. Det drejer sig om lovlighed, rimelighed og gennemsigtighed. Virksomheder, der udvikler eller anvender AI, skal kunne redegøre for, hvordan de behandler data i overensstemmelse med disse principper.

For danske virksomheder er det en central del af den digitale transformation, og det er et område, hvor selv små virksomheder skal være opmærksomme. Manglende overholdelse kan føre til betydelige bøder og tab af omdømme.

AI-systemer, der er trænet på data indsamlet uden et gyldigt retsgrundlag, er i strid med GDPR. Det gælder uanset, hvor avanceret eller nyttig teknologien er.

Hvad udgør personoplysninger i træningsdata?

Personoplysninger er et bredt begreb. I konteksten af AI-træning kan det omfatte alt fra direkte identifikatorer som navne, e-mailadresser og telefonnumre til indirekte identifikatorer.

Indirekte identifikatorer kan være billeder af ansigter, lydoptagelser af stemmer, IP-adresser, bruger-ID’er eller endda tekstbidder, der i kombination kan afsløre en persons identitet. For eksempel kan en række anonymiserede kommentarer fra et forum blive til personoplysninger, hvis de samlet set kan spores tilbage til en specifik bruger.

Det er ikke kun de data, der bevidst indsamles, som er relevante. Metadata, såsom tidspunkter for aktivitet eller geografisk placering, kan også udgøre personoplysninger.

Derfor kræver brugen af store datasæt til AI-træning en grundig analyse for at identificere, om der behandles personoplysninger. Hvis det er tilfældet, træder GDPR’s regler i kraft.

Krav til retsgrundlag for behandling

For at behandle personoplysninger lovligt til AI-træning skal den dataansvarlige have et gyldigt retsgrundlag i henhold til GDPR artikel 6. De mest relevante retsgrundlag i denne sammenhæng er samtykke og legitim interesse.

Samtykke skal være specifikt, informeret og frivilligt. Det kan være vanskeligt at opnå for træning af store, generelle modeller, hvor data er indsamlet over lang tid og fra mange kilder. Brugeren skal præcist vide, hvad vedkommendes data bruges til.

Legitim interesse kan anvendes, hvis behandlingen er nødvendig for at forfølge en legitim interesse, som ikke overstiges af den registreredes rettigheder. I praksis ser vi ofte, at virksomheder læner sig op ad legitim interesse, men det kræver en grundig og veldokumenteret afvejningstest.

Den dataansvarlige skal kunne dokumentere, at der findes et gyldigt retsgrundlag for behandlingen, som beskrevet af Datatilsynet. Uden et sådant grundlag er behandlingen ulovlig.

Formålsbegrænsning og dataminimering

To af GDPR’s kerneprincipper er formålsbegrænsning og dataminimering. Formålsbegrænsning betyder, at personoplysninger skal indsamles til specifikke, udtrykkeligt angivne og legitime formål. De må ikke efterfølgende behandles til andre, uforenelige formål.

Hvis data oprindeligt er indsamlet til f.eks. ordrebehandling, kan de ikke uden videre genbruges til at træne en generel AI-model. Det kræver enten et nyt samtykke eller en vurdering af, om det nye formål er foreneligt med det oprindelige.

Dataminimering indebærer, at man kun må behandle de personoplysninger, der er nødvendige for at opnå formålet. Virksomheder bør derfor vurdere, om det er muligt at træne deres AI-model effektivt uden at inkludere personoplysninger, eller med så få som muligt.

Dette princip er tæt forbundet med designet af effektive og lovlige AI-workflows, hvor unødvendige data frasorteres tidligt i processen.

Anonymisering og pseudonymisering af data

For at reducere risikoen og potentielt undgå GDPR’s anvendelsesområde kan data anonymiseres eller pseudonymiseres. Der er en afgørende forskel på de to metoder.

Anonymiserede data er data, hvor alle personidentificerbare elementer er fjernet permanent og irreversibelt. Hvis data er fuldt anonymiserede, betragtes de ikke længere som personoplysninger, og GDPR gælder ikke. Det er dog teknisk meget vanskeligt at opnå ægte anonymisering i komplekse datasæt.

Pseudonymisering erstatter direkte identifikatorer med pseudonymer, f.eks. et bruger-ID i stedet for et navn. Dataene kan stadig føres tilbage til en person ved hjælp af en “nøgle”. Pseudonymiserede data er derfor stadig omfattet af GDPR, men metoden betragtes som en vigtig sikkerhedsforanstaltning.

Anonymisering: Fjerner alle identifikatorer permanent. Dataen er ikke længere personoplysninger.
Pseudonymisering: Erstatter identifikatorer med pseudonymer. Dataen er stadig personoplysninger, men med øget sikkerhed.
Teknikker: Kan omfatte fjernelse af navne, sløring af ansigter eller generalisering af data (f.eks. alder 34 -> aldersgruppe 30-40).

De registreredes rettigheder i en AI-kontekst

Personer, hvis data indgår i et træningssæt, har en række rettigheder under GDPR. Disse inkluderer retten til indsigt, berigtigelse og sletning (“retten til at blive glemt”).

Disse rettigheder skaber tekniske udfordringer for AI-modeller. Det er ofte praktisk umuligt at fjerne en enkelt persons bidrag fra en allerede trænet model uden at skulle gen-træne hele modellen fra bunden, hvilket er en ressourcekrævende proces.

Derfor skal rettighederne primært håndhæves i forhold til selve træningsdatasættet. En person kan anmode om at få sine data slettet fra det datasæt, der bruges til fremtidig træning og finjustering af modellen.

Virksomheder skal have procedurer på plads for at håndtere disse anmodninger. Dette gælder også, når personoplysninger håndteres i systemer til automatisering af kundeservice, hvor en bruger kan anmode om sletning af sin historik.

Ansvar og dokumentation for dataansvarlige

Virksomheden, der bestemmer formålet med og midlerne til behandlingen af data til AI-træning, er dataansvarlig. Den dataansvarlige har det fulde ansvar for at overholde GDPR.

Dette indebærer en ansvarlighedspligt, hvor virksomheden aktivt skal kunne dokumentere sin overholdelse. Dokumentationen bør omfatte retsgrundlaget for behandlingen, de tekniske og organisatoriske sikkerhedsforanstaltninger og en fortegnelse over behandlingsaktiviteter.

For AI-projekter, der sandsynligvis vil medføre en høj risiko for personers rettigheder, er det et krav at gennemføre en konsekvensanalyse vedrørende databeskyttelse (DPIA). Træning af AI på store mængder personoplysninger vil ofte falde ind under denne kategori.

En DPIA er en proces, der har til formål at identificere og minimere risici forbundet med databehandlingen, før projektet igangsættes.

Internationale dataoverførsler til AI-træning

Mange af de førende AI-modeller udvikles og trænes af virksomheder uden for EU, primært i USA. Hvis en dansk virksomhed bruger en tjeneste, der indebærer overførsel af personoplysninger til et land uden for EU/EØS (et tredjeland), gælder GDPR’s regler for internationale overførsler.

En sådan overførsel kræver et gyldigt overførselsgrundlag. Det kan være en afgørelse fra EU-Kommissionen om, at tredjelandet har et tilstrækkeligt beskyttelsesniveau, eller anvendelse af standardkontraktbestemmelser (SCCs).

Virksomheder skal sikre sig, at deres leverandører af AI-tjenester har et lovligt grundlag for at modtage og behandle data fra EU. Dette er et komplekst område, der kræver juridisk opmærksomhed, især efter tidligere afgørelser om dataoverførsler mellem EU og USA.

Manglende overholdelse af disse regler kan resultere i, at overførslen af data skal stoppes, og at der pålægges bøder.

Samspillet med den kommende AI Act

EU’s AI Act (Forordningen om kunstig intelligens) er en ny lovgivning, der regulerer selve AI-systemerne baseret på deres risikoniveau. Den fungerer side om side med GDPR.

Hvor GDPR fokuserer på beskyttelsen af personoplysninger, fokuserer AI Act på sikkerhed, gennemsigtighed og grundlæggende rettigheder i forbindelse med brugen af AI. Hvis et AI-system behandler personoplysninger, skal det overholde begge regelsæt.

AI Act stiller specifikke krav til data og datastyring for højrisiko-AI-systemer, herunder krav til trænings-, validerings- og testdatasæt. Disse krav supplerer GDPR’s regler om datakvalitet og relevans.

Dette vil have betydning for udviklingen af alt fra simple chatbots til en avanceret AI-agent. AI Act indfører en risikobaseret tilgang, som supplerer GDPR’s databeskyttelsesfokus, og er en del af EU’s samlede regulatoriske framework for AI.