Fable 5 og sikkerhed mod AI-jailbreaks

Fable 5 er Anthropics generelle version af en meget kapabel Claude-model, som er genåbnet efter amerikansk eksportkontrol og nye cybersikkerhedsfiltre. Nyheden gør AI-jailbreaks til et konkret governance-spørgsmål: modeller kan blive nyttige i kodning og sikkerhedsarbejde, men kræver kontroller mod misbrug, falske blokeringer og persondata.

Artiklens hovedpointer:

Fable 5 viser, hvordan meget kapable AI-modeller kan kræve særskilte sikkerhedsfiltre, når de bruges til kodning og cybersikkerhed. Nyheden forklarer forskellen på almindelig modeladgang, trusted access, jailbreaks og praktiske kontrolpunkter for organisationer, der skal balancere nytte, misbrugsrisiko, databeskyttelse og EU-regler.

Hvad er den centrale nyhed om Fable 5?

Anthropic har genåbnet adgangen til Claude Fable 5 og Claude Mythos 5 efter en kort suspension, der fulgte af amerikanske eksportkontroller. Ifølge Anthropic blev kontrollerne indført 12. juni 2026 og ophævet 30. juni 2026. Den 1. juli skrev virksomheden, at adgangen igen var gendannet.

Fable 5 er den version, som Anthropic gør bredt tilgængelig på Claude Platform, Claude.ai, Claude Code og Claude Cowork. Mythos 5 er mere afgrænset og er genåbnet for udvalgte amerikanske organisationer, mens Anthropic arbejder på at udvide adgangen til flere Glasswing-partnere.

Nyheden handler derfor ikke kun om én model. Den viser, hvordan meget kapable AI-modeller kan blive reguleret, begrænset og genåbnet, når myndigheder, modeludviklere og sikkerhedspartnere vurderer, at en model både kan hjælpe forsvarere og misbruges af angribere.

Hvad er forskellen på Fable 5 og Mythos 5?

Anthropic beskriver Fable 5 og Mythos 5 som modeller med samme underliggende model, men med forskellige sikkerhedslag. Fable 5 er rettet mod generel brug og har stærke safeguards. Mythos 5 har færre begrænsninger på udvalgte områder og er kun tiltænkt betroede partnere, især inden for defensiv cybersikkerhed.

Forskellen minder om skellet mellem et almindeligt produktmiljø og et kontrolleret forsknings- eller sikkerhedsmiljø. Den brede version skal kunne bruges af mange uden at give adgang til de mest risikable funktioner. Den snævre version kan give sikkerhedsteams større handlefrihed, men kun under strengere adgangskontrol.

Område	Fable 5	Mythos 5
Adgang	Bredere adgang på Claude-flader	Udvalgte partnere og trusted access
Sikkerhedslag	Konservative filtre og fallback	Færre filtre på godkendte områder
Typisk brug	Kodning, analyse og vidensarbejde	Defensiv sårbarhedsanalyse og forskning

Hvorfor blev adgangen suspenderet?

Anthropic skriver, at den amerikanske regering 12. juni lagde eksportkontrol på Fable 5 og Mythos 5. Ordren krævede, at adgangen blev begrænset for udenlandske statsborgere, uanset om de befandt sig i eller uden for USA. Da Anthropic ikke kunne verificere nationalitet i realtid, suspenderede virksomheden adgangen for alle brugere.

Baggrunden var en rapport, hvor Amazon-forskere havde fundet en metode til at omgå Fable 5’s safeguards. Metoden fik modellen til at identificere softwarefejl, og i ét tilfælde producerede modellen kode, der viste, hvordan en sårbarhed kunne udnyttes.

Anthropic vurderer selv, at den rapporterede metode ikke viste unikke Mythos-niveau-kapabiliteter. Virksomheden skriver, at andre modeller kunne give lignende output på den samme opgave. Den praktiske pointe er, at myndigheder og udbydere ikke kun ser på, om en model kan noget nyt, men også på om dens kontrolmekanismer kan omgås.

Hvordan virker sikkerhedsfiltrene?

Anthropic bruger safety classifiers, altså mindre automatiske AI-systemer, som overvåger anmodninger og output under en samtale. Når klassifikatoren vurderer, at en forespørgsel eller et svar kan være skadeligt inden for cybersikkerhed, blokeres Fable 5 fra at svare direkte.

I den nye udgave skriver Anthropic, at den konkrete teknik fra Amazon-rapporten blokeres i over 99 procent af tilfældene. Hvis en anmodning til Fable 5 bliver blokeret, får brugeren besked, og anmodningen sendes i stedet til Claude Opus 4.8.

Det er en anderledes tilgang end et simpelt afslag. Modellen kan stadig hjælpe på mindre risikable opgaver, men den mest kapable model fjernes fra bestemte mønstre. Det gør systemet mere fleksibelt, men det kan også gøre oplevelsen ujævn for udviklere, der arbejder med legitim fejlfinding eller sikkerhedstest.

Hvad betyder en sikkerhedsmargin?

En sikkerhedsmargin betyder, at filteret hellere blokerer for meget end for lidt, når en opgave ligner risikabel cybersikkerhed. Anthropic skriver, at Fable 5’s filtre bevidst er sat til også at ramme nogle anmodninger, der sandsynligvis er harmløse.

Fordelen er, at skadelige anmodninger får sværere ved at slippe igennem. Ulempen er falske positiver: rimelige forespørgsler om kodning, debugging eller defensiv sikkerhed kan blive håndteret af en anden model eller afvist. For en udvikler kan det se ud som et modelproblem, selv om det reelt er en sikkerhedspolitik, der træder i kraft.

Den skelnen er central i AI-sikkerhed mod jailbreaking. Et robust system skal ikke kun stoppe åbenlyst skadelige prompts. Det skal også kunne håndtere gråzoner, hvor samme tekniske viden kan bruges til at lukke en sårbarhed eller til at udnytte den.

Hvordan vurderes et AI-jailbreak?

Et AI-jailbreak er en teknik, der forsøger at omgå modellens safeguards. Anthropic foreslår nu, sammen med Amazon, Microsoft, Google og andre Glasswing-partnere, et fælles rammeværk til at vurdere alvoren af sådanne teknikker.

Forslaget bruger fire kriterier:

Kapabilitetsløft: hvor meget ekstra evne jailbreaket giver brugeren.
Bredde: hvor mange forskellige offensive opgaver samme teknik kan åbne for.
Våbengørelse: hvor let teknikken kan omsættes til et reelt angreb.
Opdagelighed: hvor let teknikken er at finde, dele eller genbruge.

Den struktur gør AI-jailbreaks mere sammenlignelige. Et lille bypass, der kun virker på én smal og lavrisiko-opgave, bør ikke behandles på samme måde som en universel teknik, der åbner en hel klasse af skadelige handlinger. Det svarer til forskellen mellem en isoleret fejl og en systemisk svaghed.

Hvordan adskiller det sig fra almindelig sårbarhedsscoring?

Inden for klassisk cybersikkerhed bruges standarder som CVSS til at beskrive alvoren af softwaresårbarheder. De vurderer blandt andet, hvor let en sårbarhed kan udnyttes, og hvor stor skade den kan medføre. Anthropic bruger selv CVSS som eksempel på en etableret standard, der gør sårbarheder lettere at prioritere.

AI-jailbreaks er sværere at standardisere, fordi de ofte afhænger af prompt, kontekst, modelversion, værktøjsadgang og sikkerhedsfilter. En teknik kan være ufarlig i én samtale og mere alvorlig i en agentisk opsætning, hvor modellen har adgang til kodebaser, terminaler eller eksterne systemer.

Det gør tredjepartsevalueringer af AI-modeller mere relevante. En udbyders egen vurdering er nyttig, men eksterne tests kan afprøve, om de samme safeguards virker i realistiske arbejdsgange og under forsøg på omgåelse.

Hvad betyder nyheden for udviklere og sikkerhedsteams?

For udviklere betyder nyheden, at meget kapable modeller i stigende grad får indbygget politik, som kan ændre svaret afhængigt af emnet. En prompt om at finde en fejl i egen kode kan være legitim, men den kan ligne en opgave om udnyttelse af sårbarheder. Derfor kan svaret blive blokeret, flyttet til en anden model eller kræve en mere præcis kontekst.

For sikkerhedsteams viser nyheden, at avanceret AI til sårbarhedsanalyse ikke bør behandles som et almindeligt chatværktøj. Det bør placeres i en kontrolleret proces med logning, adgangsstyring, menneskelig review og klare rammer for, hvilke systemer modellen må analysere.

Det ligger tæt på den udvikling, AI Mentor tidligere har beskrevet i Project Glasswing, hvor udvalgte partnere bruger AI til at finde sårbarheder i kritisk software. Fable 5-nyheden handler om, hvad der sker, når lignende kapabiliteter skal ud til en bredere brugergruppe.

Hvad betyder det for organisationer i Danmark?

Anthropic skriver, at Fable 5 gøres tilgængelig globalt, men organisationer i Danmark bør stadig kontrollere den konkrete adgang, plan, databehandling og kontraktvilkår, før modellen bruges i arbejde med kode, sikkerhed eller interne dokumenter. Global tilgængelighed er ikke det samme som en lokal compliance-godkendelse.

Hvis en model bruges til at analysere kode, logs, sikkerhedshændelser eller interne dokumenter, kan input indeholde personoplysninger, forretningshemmeligheder eller detaljer om egne systemer. Her er datafortrolighed ved generativ AI ikke et tillægsspørgsmål, men en del af selve risikovurderingen.

EU AI Act og GDPR giver ikke et enkelt ja eller nej til brugen af en bestemt amerikansk AI-model. De skaber derimod rammer for risikostyring, gennemsigtighed, persondata og ansvar. For offentlige arbejdspladser, uddannelsesmiljøer og virksomheder med følsomme data betyder det, at en teknisk modeltest bør følges af vurdering af formål, datatyper, adgang, logning og leverandørvilkår.

Hvilke kontrolpunkter følger af nyheden?

Nyheden giver en praktisk tjekliste for organisationer, der vil bruge kapable AI-modeller i udvikling eller sikkerhedsarbejde. Den handler mindre om, hvilken model der er bedst, og mere om hvilke rammer der skal være på plads, når modellen kan påvirke kode, risikovurderinger eller sårbarhedsanalyser.

Afklar om modellen må se kildekode, logs, kundedata eller sikkerhedsfund.
Dokumentér om modellen gemmer input, hvor længe data opbevares, og hvem der kan få adgang.
Adskil almindelig kodningshjælp fra opgaver, der nærmer sig exploit-udvikling.
Kræv menneskelig review, før AI-fund omsættes til ændringer i produktionssystemer.
Test om legitime sikkerhedsopgaver bliver blokeret, og planlæg en fallback-proces.

Disse punkter er også relevante for cybersikkerhed og frontier-modeller. Jo mere selvstændigt en model kan arbejde, desto vigtigere bliver det at skelne mellem test, forsvar, misbrug og dokumenteret autorisation.

Hvad kan Fable 5-nyheden ikke vise endnu?

Nyheden dokumenterer ikke, at et fælles jailbreak-rammeværk allerede er en færdig standard. Anthropic beskriver det som et forslag og et arbejde, der skal udvikles med flere partnere. Det betyder, at andre modeludviklere, myndigheder og forskere endnu kan vurdere alvoren af AI-jailbreaks på andre måder.

Nyheden dokumenterer heller ikke, at safety classifiers løser problemet med misbrug af AI i cybersikkerhed. Anthropic skriver selv, at alle safeguards kan lave fejl, og at nogle jailbreaks vil blive fundet. Klassifikatorer kan sænke risikoen, men de kan ikke erstatte adgangskontrol, testmiljøer, incident response og ansvarlig brug af sikkerhedsværktøjer.

Afgrænsningen er derfor, at Fable 5 ikke kun er en modelnyhed. Det er et eksempel på, hvordan avancerede AI-modeller bliver pakket ind i adgangspolitik, sikkerhedsfiltre og myndighedsdialog, før de får lov at indgå i almindelige arbejdsgange.

Hvad kan ske næste gang?

Anthropic forventer at dele flere detaljer om det foreslåede rammeværk for jailbreak-alvor. Virksomheden lancerer også et HackerOne-program, hvor sikkerhedsforskere kan indsende potentielle cyber-jailbreaks i Fable 5 til vurdering.

Den bredere udvikling peger mod mere formaliseret test før og efter modeludrulning. Myndigheder vil sandsynligvis kræve bedre dokumentation for, hvordan meget kapable modeller evalueres, hvordan nye bypass-teknikker håndteres, og hvordan modeludbydere deler information om alvorlige fund.

For brugere og organisationer betyder det, at AI-modeller i sikkerheds- og kodningsarbejde kan blive mindre statiske. En model kan ændre adfærd, når nye safeguards rulles ud, når en myndighed vurderer en risiko, eller når en leverandør ændrer adgangsvilkår. Den praktiske styring bør derfor bygge på løbende kontrol, ikke kun en engangsvurdering ved indkøb eller test.

Hvilke kilder ligger til grund?

Artiklen bygger på Anthropics meddelelse om genåbningen af Fable 5, den oprindelige lancering af Claude Fable 5 og Claude Mythos 5, FIRST’s beskrivelse af CVSS, Europa-Kommissionens side om AI Act og Kommissionens oversigt over EU’s databeskyttelsesregler.