Hvad er maskinsyn (Computer Vision)?

Maskinsyn, eller Computer Vision, er et felt inden for kunstig intelligens, der træner computere til at tolke og forstå visuel information fra verden. Teknologien gør det muligt for maskiner at identificere objekter, personer, mønstre og handlinger i billeder og videoer, ligesom mennesker gør.

Kernefunktioner i maskinsyn

Maskinsyn har til formål at automatisere opgaver, som det menneskelige synssystem kan udføre. Teknologien bygger på mønstergenkendelse og billedbehandling for at give computere en form for visuel forståelse. Det er ikke blot en digitalisering af et billede, men en aktiv fortolkning af billedets indhold.

Feltet omfatter flere specialiserede opgaver. Billedklassifikation bestemmer, hvad et billede overordnet forestiller, f.eks. om det er et landskab eller et portræt. Objektgenkendelse går et skridt videre og lokaliserer specifikke objekter i et billede, som f.eks. at finde alle cykler i en gadescene.

En anden central funktion er semantisk segmentering. Her tildeler systemet en kategori til hver enkelt pixel i et billede. Dette giver en meget detaljeret forståelse af billedets komposition, f.eks. ved præcist at afgrænse vejen, himlen og bygningerne i et bybillede. Disse funktioner danner grundlaget for de fleste praktiske anvendelser.

Sådan fungerer teknologien

Grundlaget for moderne maskinsyn er neurale netværk, især en type kaldet Convolutional Neural Networks (CNNs). Et digitalt billede består af pixels, som for computeren blot er en samling tal. Et CNN behandler disse tal i flere lag for gradvist at identificere mønstre.

De første lag i netværket genkender simple træk som kanter, hjørner og farvegradienter. Efterfølgende lag kombinerer disse simple træk til mere komplekse strukturer som former, teksturer og til sidst hele objekter som et ansigt eller en bil. Processen efterligner den måde, den menneskelige hjerne behandler visuelle input.

For at et neuralt netværk kan lære disse mønstre, kræver det træning på enorme mængder data. Et system, der skal genkende katte, trænes på tusindvis af billeder af katte. Under træningen justerer modellen sine interne parametre, indtil den med høj præcision kan identificere katte i nye, ukendte billeder. Frameworks som TensorFlow og PyTorch er centrale værktøjer i udviklingen af disse modeller.

Anvendelse i danske virksomheder

I Danmark anvendes maskinsyn på tværs af mange brancher til at optimere processer og skabe nye muligheder. I produktionsindustrien bruges teknologien til automatisk kvalitetskontrol, hvor kameraer på samlebåndet identificerer fejl og defekter i produkter med en hastighed og præcision, mennesker ikke kan matche.

Landbruget benytter droner og stationære kameraer med maskinsyn til at overvåge afgrøders sundhed, identificere ukrudt eller estimere høstudbyttet. Dette muliggør præcisionslandbrug, hvor ressourcer som vand og gødning kan fordeles mere effektivt. I detailhandlen analyserer systemer kundestrømme i butikker for at optimere layoutet eller holder styr på lagerbeholdningen på hylderne.

Disse anvendelser er en del af den digitale transformation, som mange små virksomheder står overfor. I praksis ser vi ofte, at den største værdi opnås, når maskinsyn integreres direkte i eksisterende produktions- eller logistiksystemer for at levere data i realtid.

Maskinsyn i hverdagen

Uden at de fleste tænker over det, er maskinsyn en integreret del af mange dagligdags teknologier. Ansigtsgenkendelse til at låse en smartphone op er et af de mest udbredte eksempler. Lignende teknologi bruges i fotoapps til automatisk at gruppere billeder efter, hvem der er på dem.

Andre eksempler inkluderer:

Automatiske nummerpladegenkendelsessystemer (ANPG) ved betalingsanlæg og parkeringshuse.
Selvkørende biler og avancerede førerassistentsystemer (ADAS), der bruger kameraer til at identificere vejbaner, fodgængere og andre køretøjer.
Scannere i supermarkeder, der genkender frugt og grønt uden stregkode.
Sociale medier, der automatisk foreslår at tagge venner i billeder.

Disse funktioner er blevet så almindelige, at de ofte ikke længere opfattes som avanceret kunstig intelligens, men blot som en forventet del af moderne software og hardware.

Udfordringer og begrænsninger

Maskinsynsmodeller er kun så gode som de data, de er trænet på. Hvis træningsdataene er skævvredne, vil modellen arve denne bias. En model, der primært er trænet på billeder af én bestemt etnicitet, kan have svært ved at genkende ansigter fra andre etniske grupper med samme præcision.

Systemerne kan også være sårbare over for variationer i den virkelige verden. Ændringer i lysforhold, vejr, kameravinkel eller delvis tildækning af et objekt kan forvirre en model og føre til forkerte konklusioner. En selvkørende bil skal kunne fungere lige godt i skarp sol, tæt tåge og mørke.

En anden udfordring er såkaldte “adversarial attacks”. Her kan små, for mennesker usynlige, ændringer i et billede få en AI-model til at foretage en helt forkert klassifikation. Dette rejser sikkerhedsmæssige spørgsmål, især i kritiske systemer. Endelig kræver træning og drift af store maskinsynsmodeller betydelig computerkraft, hvilket kan være en barriere.

Etik og regulering i EU

Brugen af maskinsyn, især ansigtsgenkendelse i det offentlige rum, rejser væsentlige etiske og juridiske spørgsmål om overvågning og privatlivets fred. I Danmark og resten af EU er behandlingen af personoplysninger, herunder biometriske data fra billeder, reguleret af GDPR-forordningen.

EU’s AI Act adresserer disse risici ved at indføre en risikobaseret tilgang. Systemer til biometrisk identifikation i realtid i offentligt tilgængelige rum klassificeres som højrisiko og er som udgangspunkt forbudt, med snævre undtagelser for retshåndhævelse. Virksomheder, der udvikler eller anvender højrisiko-AI-systemer, pålægges strenge krav til dokumentation, gennemsigtighed og menneskeligt tilsyn.

Det danske Datatilsynet fører tilsyn med, at brugen af teknologier som maskinsyn overholder databeskyttelsesreglerne. For danske virksomheder betyder det, at implementering af maskinsynsløsninger, der behandler personoplysninger, kræver en grundig juridisk vurdering for at sikre overholdelse af lovgivningen.

Fremtidsperspektiver for maskinsyn

Feltet for maskinsyn udvikler sig hurtigt, især drevet af fremskridt inden for generativ AI. Hvor teknologien traditionelt har fokuseret på at analysere og forstå eksisterende billeder, kan moderne systemer nu også skabe og manipulere visuelt indhold med høj realisme.

Teknologier som Kling og lignende systemer kan skabe fotorealistiske videoer fra tekstbeskrivelser. Dette åbner for nye muligheder inden for alt fra underholdning til revolutionerende AI-videoproduktion til professionel brug. Samtidig viser værktøjer som Adobes Generative Remove, hvordan AI kan fjerne uønskede elementer fra billeder med få klik.

Fremtiden vil sandsynligvis byde på en tættere integration mellem maskinsyn og andre AI-discipliner som sprogforståelse, hvilket muliggør mere avancerede interaktioner. Der arbejdes også på at udvikle mere effektive modeller, der kan køre direkte på mindre enheder som smartphones og AR-briller, hvilket vil gøre avanceret realtidsanalyse mere tilgængelig.