Hvad er supervised og unsupervised learning?

Supervised og unsupervised learning er to centrale metoder inden for maskinlæring. Supervised learning træner en AI-model på data, der er mærket med korrekte svar, ligesom en elev med en facitliste. Unsupervised learning analyserer data uden mærkater for at finde skjulte mønstre og strukturer.

## Definition af Supervised Learning

Supervised learning, eller overvåget læring, er en metode, hvor en AI-model lærer ud fra et datasæt, der er forsynet med “mærkater” eller “etiketter”. Hvert datapunkt i træningssættet har et kendt og korrekt output. Modellen trænes til at finde sammenhængen mellem input og det korrekte output.

Målet er at gøre modellen i stand til at forudsige output for nye, ukendte data. Processen kan sammenlignes med en lærer, der viser en elev eksempler på regnestykker (input) sammen med de korrekte resultater (output). Efter tilstrækkelig træning kan eleven selv løse nye regnestykker.

Denne tilgang kræver en betydelig mængde manuelt forarbejdet data, da mennesker typisk skal gennemgå og mærke dataene korrekt. Kvaliteten af disse mærkater er afgørende for modellens præstation. En AI-model trænet på dårligt mærkede data vil levere upålidelige resultater.

Supervised learning opdeles primært i to kategorier: klassifikation og regression. Ved klassifikation forudsiger modellen en kategori (f.eks. “spam” eller “ikke spam”). Ved regression forudsiger modellen en kontinuerlig værdi (f.eks. prisen på et hus).

## Sådan fungerer Supervised Learning i praksis

I praksis starter processen med indsamling og forberedelse af et mærket datasæt. For eksempel kan et hospital indsamle tusindvis af billeder af modermærker, hvor hver er mærket af en hudlæge som enten “godartet” eller “ondartet”.

Dette datasæt deles op i et træningssæt og et testsæt. Modellen trænes på træningssættet, hvor den justerer sine interne parametre for at minimere forskellen mellem sine forudsigelser og de faktiske mærkater. Denne proces gentages mange gange, indtil modellen opnår en tilfredsstillende nøjagtighed.

Efter træningen evalueres modellen på testsættet, som den ikke har set før. Dette giver et realistisk billede af, hvordan modellen vil klare sig på nye, virkelige data. Hvis en model til billedgenkendelse klarer sig godt på testsættet, kan den implementeres til at assistere læger i diagnosticering.

Eksempler på supervised learning i hverdagen inkluderer spamfiltre i e-mails, ansigtsgenkendelse på smartphones og systemer, der forudsiger forsinkelser i offentlig transport. De anvendte algoritmer spænder fra simple lineære modeller til komplekse neurale netværk.

## Definition af Unsupervised Learning

Unsupervised learning, eller uovervåget læring, er en metode, hvor en AI-model arbejder med data, der ikke har nogen foruddefinerede mærkater eller korrekte svar. Modellens opgave er at analysere dataene og selv finde meningsfulde strukturer, mønstre, grupperinger eller afvigelser.

I stedet for at blive guidet mod et specifikt resultat, fungerer modellen som en selvstændig analytiker, der udforsker dataene for at afdække skjulte sammenhænge. Dette er nyttigt i situationer, hvor det er umuligt, for dyrt eller for tidskrævende at mærke store mængder data.

De to mest almindelige opgaver inden for unsupervised learning er clustering og association. Clustering handler om at gruppere lignende datapunkter sammen. Association handler om at finde regler eller sammenhænge mellem forskellige datapunkter, f.eks. hvilke produkter der ofte købes sammen i et supermarked.

Denne tilgang er fundamental for at skabe indsigt i komplekse datasæt, hvor mennesker ikke umiddelbart kan se mønstrene. Den kan afsløre helt nye kategorier eller sammenhænge, som en virksomhed kan handle på.

## Sådan fungerer Unsupervised Learning i praksis

En typisk anvendelse af unsupervised learning er kundesegmentering. En webshop kan have data om tusindvis af kunders købsadfærd, men ingen faste kategorier for dem. En clustering-algoritme kan analysere disse data og automatisk gruppere kunderne i segmenter som “prisfølsomme studerende”, ” loyale storkøbere” og “sporadiske tilbudskøbere”.

Denne indsigt kan bruges til at målrette markedsføringskampagner mere effektivt. Virksomheden behøvede ikke på forhånd at definere disse grupper; modellen fandt dem selv baseret på data. Dette er en kernekompetence inden for avanceret dataanalyse.

Et andet eksempel er anomalidetektion, hvor systemet lærer, hvordan normal datatrafik på et netværk ser ud. Når der opstår en usædvanlig aktivitet, som afviger markant fra det lærte mønster, kan systemet slå alarm om et potentielt sikkerhedsbrud.

I praksis kræver resultaterne fra unsupervised learning ofte menneskelig fortolkning. Modellen kan identificere en klynge af data, men det er op til en dataanalytiker at forstå, hvad denne klynge repræsenterer i en forretningsmæssig kontekst.

## De primære forskelle opsummeret

Selvom begge metoder er en del af maskinlæring, er deres tilgang og formål fundamentalt forskellige. Forskellene kan opsummeres i følgende punkter:

* **Data:** Supervised learning kræver mærkede data (input med kendt output). Unsupervised learning arbejder med umærkede data (kun input).
* **Mål:** Målet med supervised learning er at forudsige et resultat baseret på kendte eksempler. Målet med unsupervised learning er at opdage skjulte mønstre og strukturer i data.
* **Tilgang:** Supervised learning er en guidet proces, hvor modellen får “facitlisten”. Unsupervised learning er en selvstændig udforskning, hvor modellen finder sin egen struktur.
* **Evaluering:** Præstationen af en supervised model er relativt let at måle ved at sammenligne dens forudsigelser med de korrekte svar. Resultaterne fra en unsupervised model er ofte sværere at evaluere objektivt og kræver typisk domæneekspertise til validering.

## Anvendelsesområder i danske virksomheder

I en dansk kontekst anvendes begge metoder bredt til at skabe forretningsværdi. Supervised learning er udbredt i finanssektoren til kreditvurdering, i detailhandlen til at forudsige salg og i produktionsvirksomheder til kvalitetskontrol baseret på billedgenkendelse.

Unsupervised learning bruges til at analysere kundeadfærd i e-handelsplatforme for at give personlige produktanbefalinger. Energiselskaber bruger metoden til at identificere unormale forbrugsmønstre, der kan indikere fejl i netværket. Inden for kundeservice kan unsupervised learning gruppere henvendelser for at identificere nye, tilbagevendende problemer.

I praksis ser vi ofte, at virksomheder starter med supervised learning, da målet er klart defineret, og succeskriterierne er nemme at måle (f.eks. “reducer antallet af falske kreditkorttransaktioner med 10 %”). Unsupervised learning anvendes ofte i mere eksplorative faser for at finde nye forretningsmuligheder.

Mange moderne AI-systemer kombinerer desuden de to tilgange. En unsupervised model kan først gruppere data, hvorefter en ekspert mærker disse grupper, som så bruges til at træne en supervised model.

## Værktøjer og teknologier

Udviklingen inden for maskinlæring drives af en række open source-værktøjer, der gør teknologien tilgængelig for både store og små virksomheder. Biblioteker som Scikit-learn, TensorFlow og PyTorch indeholder et væld af implementerede algoritmer for både supervised og unsupervised learning.

Disse værktøjer, der primært er baseret på programmeringssproget Python, har standardiseret mange af de processer, der er involveret i at bygge, træne og implementere maskinlæringsmodeller. Dette har sænket barren for, hvad der kræves for at komme i gang.

For virksomheder uden specialiserede data science-teams tilbyder cloud-platforme som Google Cloud AI, Amazon Web Services (AWS) og Microsoft Azure færdigbyggede maskinlæringstjenester. Disse platforme giver adgang til kraftfuld computerkraft og brugervenlige grænseflader, der kan automatisere store dele af processen.

Valget af værktøj afhænger af opgavens kompleksitet, virksomhedens eksisterende teknologiske infrastruktur og de interne kompetencer. For mange små og mellemstore virksomheder er cloud-baserede løsninger ofte den hurtigste vej til at udnytte potentialet i maskinlæring.

## Regulering og etik i en EU-kontekst

Anvendelsen af supervised og unsupervised learning i Danmark er underlagt EU-lovgivning, herunder GDPR og den kommende AI Act. GDPR stiller strenge krav til behandlingen af personoplysninger, hvilket er relevant, når træningsdata indeholder information om individer.

AI Act fokuserer på gennemsigtighed, robusthed og retfærdighed i AI-systemer. For supervised learning betyder det, at der skal være dokumentation for, hvordan træningsdata er indsamlet og mærket. Dette er især vigtigt for at undgå bias, hvor en model utilsigtet diskriminerer mod bestemte grupper, fordi træningsdataene var skæve.

Etisk set er bias en af de største udfordringer. Hvis en model til jobrekruttering trænes på historiske data, hvor mænd oftere blev ansat i lederstillinger, kan modellen lære at favorisere mandlige ansøgere. Det er virksomhedens ansvar at identificere og modvirke sådanne skævheder.

For unsupervised learning er udfordringen ofte relateret til fortolkning. En model kan segmentere kunder på en måde, der utilsigtet skaber sårbare grupper, som kan udnyttes kommercielt. Reguleringen kræver, at virksomheder er bevidste om og tager ansvar for de konsekvenser, deres AI-modeller kan have.

## Ud over de to hovedtyper

Ud over supervised og unsupervised learning findes der andre vigtige paradigmer inden for maskinlæring. Et af de mest kendte er reinforcement learning (forstærkende læring), hvor en model lærer ved at interagere med et miljø og modtage belønninger eller straffe for sine handlinger. Dette bruges i spil, robotstyring og optimering af komplekse systemer.

En anden tilgang er semi-supervised learning, som er en hybrid mellem de to hovedtyper. Her bruges et lille datasæt med mærkater sammen med et stort datasæt uden mærkater. Modellen bruger de mærkede data til at få en grundlæggende forståelse, som den derefter bruger til at udlede mønstre i de umærkede data. Dette er en praktisk løsning, når mærkning af data er dyrt.

Disse avancerede metoder er ofte grundlaget for mere komplekse systemer som en AI assistent, der skal kunne føre en samtale og udføre opgaver baseret på feedback fra brugeren. Valget af læringsmetode afhænger altid af den specifikke opgave, der skal løses, og den type data, der er tilgængelig.

Relaterede artikler: