Hvad er Google DeepMinds AI Control Roadmap for sikre AI-agenter?

Google DeepMinds AI Control Roadmap er en sikkerhedsramme for avancerede AI-agenter, der får adgang til interne systemer. Pointen er ikke, at agenter allerede bevidst handler skadeligt, men at organisationer skal kunne opdage, begrænse og stoppe skadelige handlinger, hvis mere autonome modeller bruges i følsomme arbejdsgange.

Hvad har Google DeepMind offentliggjort?

Google DeepMind offentliggjorde den 18. juni 2026 artiklen Securing the future of AI agents. Artiklen beskriver en intern sikkerhedsramme, som Google DeepMind kalder AI Control Roadmap, og som skal bruges til at styre mere avancerede AI-agenter i Googles egne systemer.

Nyheden handler ikke om en ny model, en ny chatbot eller et almindeligt produktløfte. Den handler om en metode til at give AI-agenter mere adgang uden at give dem ubegrænset handlefrihed. DeepMind beskriver roadmapet som et lag oven på almindelig modeltræning, sandkasser, endpoint-sikkerhed og beskyttelse mod prompt injection.

Det gør nyheden bredere end en enkelt produktopdatering. Hvis AI-agenter skal skrive kode, bruge interne værktøjer, hente data og udføre flere trin uden løbende menneskelig instruktion, bliver adgangsstyring, overvågning og hurtig reaktion en del af selve AI-arkitekturen.

Hvad betyder AI control?

AI control betyder her en systembaseret sikkerhedsmetode, hvor en organisation ikke kun forsøger at træne en model til at være hjælpsom og sikker, men også begrænser, overvåger og stopper den, når den handler i et konkret it-miljø. En AI-agent vurderes derfor ud fra både svar, handlinger, adgang og kontekst.

DeepMind beskriver AI control som et ekstra forsvarslag. Model alignment skal stadig få modellen til at følge menneskelige mål, men roadmapet antager, at alignment kan være ufuldstændig. Hvis en agent får adgang til kode, databaser, udviklingsmiljøer eller interne dokumenter, skal sikkerhedssystemet derfor kunne reagere på adfærd, ikke kun på hensigten i en prompt.

Den grundlæggende idé minder om nul-tillid i cybersikkerhed. Agenten får ikke fuld tillid, bare fordi den er et internt værktøj. Den får gradvist adgang, og adgangen afhænger af, om dens handlinger kan forklares, logges, kontrolleres og rulles tilbage.

Hvorfor behandles AI-agenter som en intern sikkerhedsrisiko?

DeepMind bruger en forsigtig trusselsmodel, hvor interne AI-agenter behandles som mulige insider-risici. Det betyder ikke, at DeepMind påstår, at nuværende modeller er strategiske angribere. I den tekniske rapport skriver forfatterne tværtimod, at nuværende AI-modeller ikke er strategiske eller alvorligt fejljusterede på den måde, som roadmapet forbereder sig på.

Pointen er, at agenters arbejdsform kan ligne en intern medarbejders adgangsmønster. De kan få lov til at læse kode, foreslå ændringer, starte processer, kalde værktøjer og koordinere trin. Hvis en sådan agent misforstår opgaven, skjuler fejl eller handler for aggressivt mod et mål, kan skaden opstå inde i systemet.

Roadmapet bygger blandt andet på kendte principper fra cybersikkerhed: mindst mulig adgang, isolering, overvågning, hændelsesrespons og forsvar i flere lag. DeepMind nævner MITRE ATT&CK som et forbillede for at opdele mulige angreb i mindre taktikker og teknikker, der kan testes og opdages.

Hvordan fungerer roadmapets to sikkerhedsspor?

DeepMinds roadmap samler kontrolarbejdet i to hovedspor: detection og prevention/response. Detection handler om at opdage, når en agent er ved at afvige fra en sikker eller legitim arbejdsgang. Prevention og response handler om at stoppe, begrænse, vende tilbage eller eskalere handlingen, før den bliver til skade.

Detection måler, hvor stor en del af trafikken der overvåges, hvor mange fejljusterede handlinger der opdages, og hvor hurtigt systemet reagerer.
Prevention og response afgør, om en handling kan nøjes med forsinket kontrol, eller om den kræver blokering i realtid.
Trusted AI supervisors kan bruges som overvågende systemer, der vurderer agenters ræsonnement, planer og værktøjskald.

Det praktiske skift er, at sikkerhed ikke længere kun er en manuel review-proces efter arbejdet. Når agenten handler hurtigt og i mange trin, skal kontrollen følge samme tempo. Ved lav risiko kan en organisation gennemgå logs bagefter. Ved høj risiko må systemet kunne afvise et værktøjskald, kræve menneskelig godkendelse eller fjerne adgang med det samme.

Hvad betyder D1-D4 og R1-R3?

I GDM AI Control Roadmap kobler DeepMind sikkerhedsniveauer til modellens evner. Detection-niveauerne D1-D4 handler om, hvor svær agenten er at overvåge. Prevention og response-niveauerne R1-R3 handler om, hvor alvorlig skade agenten potentielt kan udføre.

Spor	Hvad måles?	Hvad ændrer sig i praksis?
Detection D1-D4	Agentens evne til at undgå eller skjule sig for overvågning.	Kontrollen flytter fra synlig ræsonnementstekst mod adfærdsanalyse og eventuelt dybere modelinspektion.
Prevention og response R1-R3	Agentens evne til at udføre handlinger med større skadepotentiale.	Reaktionen flytter fra forsinket gennemgang til realtidsblokering, adgangskontrol og hurtig hændelsesrespons.

Rammen er nyttig, fordi den undgår en alt-eller-intet-diskussion om AI-agenter. En agent, der kun kan skrive kladder i et isoleret miljø, kræver ikke samme kontrol som en agent, der kan ændre kode, kalde interne API’er eller arbejde med følsomme datasæt.

Hvad viser analysen af én million agentforløb?

DeepMind skriver, at teamet har bygget en intern prototype på et asynkront monitoreringssystem, som gennemgår coding-agent-forløb og eskalerer fund til menneskelig review. Ifølge kilden har DeepMind analyseret én million coding-agent-opgaver for at finde mere præcise adfærdsmønstre end simple søgeord.

Analysen er brugt til at bygge en live monitor for Gemini Spark-agenten. DeepMind nævner utilsigtet datasletning som et eksempel på en hændelse, monitoreringen skal kunne reagere på i realtid. Det er et konkret eksempel på, at problemet ikke kun er ondsindede handlinger, men også fejlfortolkning, overivrig målopfyldelse og manglende forståelse af konsekvenser.

For læsere, der kender test af AI-modeller, viser nyheden en beslægtet bevægelse: sikkerhed flytter fra rene laboratorieevalueringer til driftssituationer, hvor modellen bruger værktøjer og påvirker rigtige systemer.

Hvilke kontroller er relevante i praktisk brug?

Roadmapet er skrevet til avancerede interne AI-systemer hos en frontier-lab, men flere principper er praktisk forståelige i almindelige organisationer. De handler ikke om at forudsige alt, hvad en agent kan gøre, men om at begrænse konsekvenserne, når en handling går galt.

Giv agenten mindst mulig adgang til data, kode, værktøjer og eksterne systemer.
Log prompt, kontekst, værktøjskald, output og ændringer, så hændelser kan undersøges bagefter.
Kræv menneskelig godkendelse for irreversible handlinger som sletning, udbetaling, offentlig publicering eller ændring af adgangsrettigheder.
Brug sandkasser og testmiljøer, når agenten skriver kode eller arbejder med automatiserede handlinger.
Definér på forhånd, hvornår en agent skal stoppes, begrænses eller sendes til manuel gennemgang.

Kontrollerne giver især mening, når en agent arbejder på tværs af systemer. En chatbot uden værktøjsadgang kan give et forkert svar. En agent med adgang til filer, kalendere, kode eller økonomisystemer kan udføre en forkert handling.

Hvad betyder det for organisationer i Danmark?

Nyheden dokumenterer ikke en specifik lancering i Danmark og siger ikke, at danske arbejdspladser skal bruge DeepMinds roadmap. Relevansen ligger i mønsteret: Når AI-agenter flytter fra samtale til handling, bliver adgang, logning, ansvar og menneskelig kontrol en del af den praktiske indførelse.

For virksomheder, skoler og offentlige arbejdspladser er den mest realistiske betydning derfor ikke, at de skal kopiere DeepMinds tekniske niveauer. De skal kunne svare på enklere spørgsmål: Hvilke systemer må agenten bruge? Hvilke data må den se? Hvilke handlinger kræver godkendelse? Hvem kan stoppe en fejl? Hvordan opdages en afvigelse?

Det gælder også ved mere hverdagsnære AI-løsninger. En agent, der hjælper med sagsforberedelse, analyse, support eller kode, kan være nyttig uden at have ret til at publicere, slette, sende eller ændre rettigheder. Adgangsgrænser er ikke et tegn på lav modenhed, men en måde at gøre automatisering mere kontrollerbar.

Hvordan hænger roadmapet sammen med GDPR og AI Act?

DeepMinds roadmap er ikke en europæisk regelbog. Det er en teknisk sikkerhedsramme fra en modeludvikler. Alligevel passer flere af idéerne ind i den type kontrol, som organisationer i EU i forvejen skal tænke over, når AI-systemer får adgang til data og beslutningsprocesser.

Europa-Kommissionen beskriver AI Act som et risikobaseret regelsæt for udviklere og brugere af AI, herunder regler for højrisiko-systemer og generelle AI-modeller. Kommissionens side om databeskyttelse i EU beskriver samtidig beskyttelse af personoplysninger som en grundlæggende rettighed.

I praksis betyder det, at agentkontrol bør kobles til datafortrolighed, lovligt behandlingsgrundlag, dataminimering, adgangsstyring og dokumentation. Hvis en agent behandler personoplysninger, er spørgsmålet ikke kun, om modellen svarer korrekt. Spørgsmålet er også, om dataadgangen, formålet, sikkerheden og den menneskelige kontrol kan forklares.

Hvad kan roadmapet ikke dokumentere endnu?

Roadmapet er en plan og en forskningsbaseret sikkerhedsramme, ikke et bevis på, at alle fremtidige agentproblemer kan stoppes. DeepMinds tekniske rapport kalder AI control et ungt felt og beskriver afvejninger mellem sikkerhed og udviklingshastighed. Den siger også, at kontrol ikke er en permanent eller altomfattende sikkerhedsstrategi for meget stærkere systemer.

Derfor bør nyheden læses som en konkret metode til at mindske risiko, ikke som en garanti. Den dokumenterer analyse af coding-agent-forløb, en intern prototype og et roadmap med niveauer og kontroltyper. Den dokumenterer ikke, at alle typer agentadfærd kan forudsiges, at alle organisationer kan implementere samme system, eller at sikkerhedsmetoderne er standardiserede på tværs af branchen.

Det er også her, tredjeparts-evalueringer, sikkerhedsstandarder og uafhængig dokumentation får betydning. Interne rammer kan være teknisk stærke, men brugere og myndigheder har brug for metoder, der kan sammenlignes, testes og forklares uden for den enkelte leverandørs egne systemer.

Hvordan adskiller AI control sig fra almindelig modeltræning?

Almindelig modeltræning og alignment forsøger at påvirke modellens svar og adfærd indefra. AI control arbejder uden om modellen ved at styre det miljø, agenten handler i. Forskellen svarer til forskellen mellem at lære en medarbejder sikker adfærd og samtidig begrænse adgang, kræve godkendelser og føre revisionsspor.

Det betyder, at AI control ligger tættere på sikker arkitektur end på prompting alene. En prompt kan sige, at en agent ikke må slette data. Et kontrolsystem kan forhindre sletning, kræve godkendelse, logge forsøget eller køre handlingen i en sandkasse. Det gør teknologien relevant for AI-workflows, hvor flere trin kobles sammen.

DeepMinds companion-paper Three Layers of Agent Security udvider perspektivet fra den enkelte agent til multi-agent-systemer og cyberforsvar. Det peger på, at agent-sikkerhed ikke kun er en modelopgave, men også en infrastrukturopgave for udviklere, organisationer, standardiseringsmiljøer og myndigheder.

Hvilke kilder ligger til grund?

Artiklen bygger primært på Google DeepMinds egen nyhed om sikkerhed for AI-agenter og den tekniske rapport GDM AI Control Roadmap. Den praktiske policyvinkel er tjekket mod Three Layers of Agent Security, Europa-Kommissionens side om AI Act og Kommissionens oversigt over EU-databeskyttelse.