Data Mining - hvad er det?

Data mining er en metode til at finde mønstre, sammenhænge og afvigelser i store datasæt ved hjælp af statistik, maskinlæring og databasearbejde. Formålet er ikke bare at samle data, men at omsætte eksisterende data til forklaringer, forudsigelser eller beslutningsgrundlag, som kan efterprøves.

Artiklens hovedpointer:

Data mining er systematisk analyse af større datasæt for at finde mønstre, afvigelser og sammenhænge, der kan bruges som beslutningsgrundlag. Du får overblik over processen, typiske metoder, forholdet til AI og centrale kontrolpunkter for datakvalitet, validering og persondata.

Hvad betyder data mining i praksis?

Data mining betyder, at du undersøger data systematisk for at finde information, som ikke er synlig ved almindelig opslag, sortering eller rapportering. Det kan være kundemønstre, fejl i en produktionslinje, tegn på svindel, grupper af ensartede sager eller sammenhænge mellem adfærd og senere hændelser.

Udtrykket kan være lidt misvisende, fordi data mining ikke handler om at grave nye data frem fra ingenting. Arbejdet handler om at udvælge, rense, strukturere, modellere og fortolke data, der allerede findes. Hvis datagrundlaget er forkert, ufuldstændigt eller skævt, kan selv avancerede metoder give et resultat, der ser præcist ud uden at være brugbart.

En enkel måde at forstå data mining på er at se det som et mellemled mellem data processering og beslutning. Data skal først gøres anvendelige. Derefter kan modeller og analyser finde mønstre. Til sidst skal mennesker vurdere, om mønstrene giver mening i den konkrete sammenhæng.

Hvordan adskiller data mining sig fra almindelig dataanalyse?

Almindelig dataanalyse starter ofte med et kendt spørgsmål: Hvor meget solgte vi sidste måned? Hvilken kanal gav flest henvendelser? Hvor mange fejl blev registreret i en periode? Data mining bruges typisk, når spørgsmålet er mere åbent: Hvilke mønstre i data kan forklare, forudsige eller afsløre noget, vi ikke allerede kendte?

Forskellen er ikke absolut. Mange projekter bruger både analyse og data mining. En analyse kan vise, at kundetilfredsheden falder i en bestemt region. Data mining kan derefter undersøge, om faldet hænger sammen med leveringstid, svartid, produktkategori, sæson eller en kombination af flere variable.

Data mining kræver derfor mere end talforståelse. Du skal kunne skelne mellem et mønster, der faktisk kan bruges, og et mønster, der blot opstår, fordi datasættet er stort nok til at indeholde tilfældige sammenfald. Det gør validering og faglig fortolkning til en central del af arbejdet.

Hvordan hænger data mining sammen med machine learning?

Data mining og machine learning overlapper, men de betyder ikke helt det samme. Machine learning handler om metoder, hvor modeller lærer mønstre fra data og bruger dem til klassifikation, forudsigelse, gruppering eller anden beregning. Data mining er den bredere opgave med at finde og bruge mønstre i data.

I et data mining-projekt kan machine learning være selve modelmotoren. En klassifikationsmodel kan forudsige, om en sag sandsynligvis ender i en bestemt kategori. En clustering-model kan gruppere kunder, tekster eller hændelser uden foruddefinerede labels. En regressionsmodel kan beregne sammenhænge mellem variable og et numerisk resultat.

Data mining stopper dog ikke ved modellen. Projektet omfatter også afgrænsning af problemet, valg af data, rensning, feature-arbejde, fortolkning, måling af fejl, risikovurdering og beslutning om, hvordan resultatet skal bruges. Det er grunden til, at en teknisk god model stadig kan være uegnet, hvis den besvarer det forkerte spørgsmål.

Hvilke typer mønstre kan data mining finde?

Data mining kan finde forskellige typer mønstre afhængigt af data, metode og formål. Nogle mønstre bruges til forklaring, andre til forudsigelse, segmentering eller kontrol. En model kan for eksempel vise, at visse hændelser ofte optræder sammen, eller at en bestemt kombination af signaler øger sandsynligheden for en senere fejl.

Eksempler på mønstertyper i data mining
Mønstertype	Hvad den viser	Typisk anvendelse
Klassifikation	Hvilken kategori en observation sandsynligvis tilhører	Spamfiltrering, sagsrouting, risikovurdering
Regression	Et forventet tal eller en styrke i en sammenhæng	Efterspørgsel, prisfølsomhed, ventetid
Clustering	Grupper i data uden på forhånd kendte labels	Kundesegmenter, dokumentgrupper, adfærdsmønstre
Anomalidetektion	Observationer, der afviger fra normalmønstret	Fejl, misbrug, dataproblemer, uventede hændelser
Associationsmønstre	Hvilke elementer der ofte optræder sammen	Indkøbskurve, anbefalinger, procesmønstre

Den samme datasamling kan godt bruges til flere typer mønstre. En webshop kan både gruppere kunder, forudsige sandsynlig efterspørgsel og finde usædvanlige transaktioner. Den afgørende forskel ligger i spørgsmålet, du stiller til data, og i hvordan resultatet efterfølgende skal kontrolleres.

Hvordan ser en data mining-proces ud?

En solid data mining-proces begynder med en afgrænsning af problemet. Det lyder praktisk, men det er ofte den vigtigste beslutning. En model, der skal finde svindel, skal ikke nødvendigvis designes på samme måde som en model, der skal forklare kundeadfærd eller forbedre en intern arbejdsgang.

Afklar hvilket spørgsmål data mining skal hjælpe med at besvare.
Vælg de datasæt, der faktisk er relevante for spørgsmålet.
Rens data for dubletter, fejl, manglende værdier og uklare felter.
Transformér data til variable, som en analyse eller model kan bruge.
Vælg metode, træn modellen eller gennemfør mønsteranalysen.
Test resultatet på data, der ikke har været brugt til at finde mønstret.
Vurder om resultatet er forståeligt, stabilt, lovligt og praktisk anvendeligt.

Processen er sjældent lineær. Hvis test viser, at modellen kun virker i en bestemt periode, må du tilbage til datagrundlaget. Hvis resultatet er teknisk præcist, men ikke kan omsættes til handling, må spørgsmålet eller målepunktet justeres. God data mining er derfor iterativt arbejde, ikke en enkelt beregning.

Hvilke data kræver data mining?

Data mining kan bruge strukturerede data som tabeller, transaktioner og målinger, men også tekst, logfiler, billeder, lyd, sensordata og andre ustrukturerede kilder. I praksis kræver de fleste projekter en kombination af datakilder, metadata og domæneviden om, hvordan data er skabt.

Datakvalitet har direkte betydning for resultatet. Manglende værdier kan skjule vigtige forskelle. Dubletter kan overdrive bestemte mønstre. Historiske data kan afspejle gamle arbejdsgange, som ikke længere gælder. Feltdefinitioner kan også ændre sig over tid, så to kolonner med samme navn ikke nødvendigvis betyder det samme i hele perioden.

Større datasæt er ikke automatisk bedre. Big data kan give flere signaler, men også mere støj, flere fejlmuligheder og større krav til dokumentation. Et mindre, velbeskrevet datasæt kan være mere værd end et stort datasæt, hvor oprindelse, målemetode og formål er uklare.

Hvilke metoder bruges typisk i data mining?

Metodevalget afhænger af, om du leder efter forklaring, forudsigelse, gruppering eller afvigelser. Klassifikation bruges, når resultatet er en kategori. Regression bruges, når resultatet er et tal. Clustering bruges, når grupperne ikke er kendt på forhånd. Anomalidetektion bruges, når sjældne eller usædvanlige observationer er interessante.

Tekstdata kræver ofte andre trin end taldata. Før en model kan finde temaer, sentiment eller gentagne formuleringer, skal teksten typisk normaliseres, opdeles og omsættes til repræsentationer, som en model kan arbejde med. Ved billeddata kan mønstre handle om former, objekter, farver eller relationer mellem pixels.

Metoderne kan også kombineres. En organisation kan først bruge clustering til at finde grupper af sager og derefter bruge klassifikation til at genkende nye sager, der ligner en bestemt gruppe. I AI-sammenhæng hænger det tæt sammen med mønstergenkendelse i kunstig intelligens, hvor systemet lærer strukturer i data frem for at følge faste regler.

Hvordan vurderer man om et mønster er brugbart?

Et mønster er først brugbart, når det kan holde uden for de data, det blev fundet i. Derfor bør data mining-resultater testes på adskilte datasæt, nyere perioder eller realistiske cases. Hvis et mønster kun virker på historiske træningsdata, kan det være overtilpasning snarere end reel indsigt.

Brugbarhed afhænger også af konsekvensen af fejl. En model, der foreslår produktkategorier, kan tåle en anden fejlrate end en model, der prioriterer sager, påvirker mennesker eller styrer økonomiske beslutninger. Jo større konsekvens, desto større krav bør der være til dokumentation, forklarlighed, overvågning og menneskelig kontrol.

Du bør især se på stabilitet, forklaringskraft og handlingsværdi. Stabilitet handler om, om mønstret gentager sig. Forklaringskraft handler om, om resultatet kan forstås i relation til faget. Handlingsværdi handler om, om nogen faktisk kan bruge resultatet til at ændre en proces, stille et bedre spørgsmål eller træffe en mere informeret beslutning.

Hvor bruges data mining i organisationer?

Data mining bruges i mange arbejdsgange, hvor organisationer har historiske data og ønsker at finde tilbagevendende signaler. I drift kan det handle om fejlmønstre, belastning, vedligeholdelse og ressourceforbrug. I økonomi kan det handle om afvigelser, risikomønstre og prognoser. I kundearbejde kan det handle om segmenter, churn, efterspørgsel og adfærd.

I marketing og kundeservice bruges data mining ofte til at forstå forløb over tid. En analyse kan vise, hvilke kontaktpunkter der typisk kommer før et køb, en opsigelse eller en supporthenvendelse. Det er beslægtet med analyse af kundeadfærd med AI, men data mining kan også bruges uden generativ AI og uden avancerede sprogmodeller.

I den offentlige sektor, sundhed, uddannelse og finansielle miljøer er kravene typisk højere, fordi data kan være følsomme, og fejl kan påvirke mennesker direkte. Her bør data mining ikke alene vurderes på teknisk nøjagtighed, men også på formål, hjemmel, forklarlighed, bias, adgangsstyring og mulighed for at anfægte eller korrigere resultater.

Hvilke fejl giver misvisende resultater?

En udbredt fejl er datalækage. Det sker, når modellen får adgang til information, der i praksis ikke ville være kendt på beslutningstidspunktet. Resultatet kan se meget præcist ud under test, men svigte i drift. Et eksempel er en model, der forudsiger en hændelse ved indirekte at bruge data, som først registreres efter hændelsen.

En anden fejl er at forveksle korrelation med årsag. Data mining kan vise, at to forhold optræder sammen, men det betyder ikke automatisk, at det ene skaber det andet. Hvis en organisation bruger et sådant mønster som beslutningsgrundlag uden faglig kontrol, kan den ende med at optimere efter et signal, der blot er en indirekte markør.

Andre risici er skæve træningsdata, for små undergrupper, sæsonmønstre, ændrede arbejdsgange og proxyvariable. En proxyvariabel er et felt, der ikke direkte indeholder en følsom oplysning, men som i praksis kan fungere som erstatning for den. Derfor kræver data mining både teknisk test og kritisk gennemgang af, hvad variablerne repræsenterer.

Hvordan hænger data mining sammen med AI?

Data mining er en vigtig del af mange AI-projekter, fordi AI-systemer ofte afhænger af mønstre i store datasæt. Før en model kan trænes, evalueres eller forbedres, skal data forstås. Data mining kan afsløre, hvilke signaler der findes, hvilke fejl der går igen, og hvilke begrænsninger der bør skrives ind i projektets krav.

I klassisk AI-arbejde kan data mining bruges til at finde variable, segmenter eller regler, der indgår i en model. I moderne machine learning kan det bruges til at opdage dataproblemer, evaluere modeladfærd eller overvåge, om mønstre ændrer sig efter implementering. Hvis brugernes adfærd, markedet eller datakilden ændrer sig, kan modellen miste præcision over tid.

Data mining bør derfor ses som en del af AI-livscyklussen. Før træning kan det afklare datagrundlaget. Under udvikling kan det hjælpe med feature-valg og fejlanalyse. Efter implementering kan det overvåge drift, bias og afvigelser. Den praktiske værdi ligger ikke kun i at finde et mønster, men i at opdage hvornår mønstret ikke længere gælder.

Hvilke data- og GDPR-forbehold gælder?

Når data mining bruger personoplysninger, skal formål, datagrundlag og adgang kontrolleres før analysen. I EU og EØS omfatter personoplysninger også indirekte identificerbare oplysninger, og automatiseret brug af persondata kan være profilering, hvis formålet er at analysere eller forudsige personlige forhold som adfærd, præferencer, interesser, økonomi, helbred eller bevægelser.

Det betyder ikke, at data mining altid er ulovligt eller uegnet. Det betyder, at projektet skal have et klart formål, en behandlingsgrund, passende dataminimering, sikkerhed, dokumentation og vurdering af konsekvenser for de berørte personer. Hvis resultatet bruges til beslutninger om mennesker, stiger kravene til kontrol og gennemsigtighed.

Anonymisering og pseudonymisering løser ikke alle problemer. Pseudonyme data kan stadig være personoplysninger, hvis de kan kobles tilbage til en person med ekstra information. Anonymiserede data kan miste værdi, hvis for mange detaljer fjernes. Derfor bør data mining-projekter beskrive, hvilke data der bruges, hvorfor de er nødvendige, hvem der har adgang, og hvor længe resultaterne gemmes.

Hvordan kan du starte sikkert med data mining?

Et sikkert startpunkt er at vælge et afgrænset spørgsmål, hvor konsekvensen af fejl er håndterbar. Det kan være at finde gentagne fejl i supporthenvendelser, gruppere dokumenter efter tema, identificere uventede udsving i driftsdata eller undersøge, hvilke faktorer der hænger sammen med ventetid i en proces.

Beskriv beslutningen eller arbejdsgangen, som analysen skal forbedre.
Notér hvilke data der bruges, hvor de kommer fra, og hvilke begrænsninger de har.
Hold træningsdata, testdata og nye driftsdata adskilt.
Vælg en simpel metode først, så resultatet kan forklares og kontrolleres.
Lav en plan for, hvornår mønstret skal genmåles eller trækkes tilbage.

Den bedste første data mining-opgave er sjældent den mest komplekse. Vælg hellere en opgave, hvor data er forståelige, resultatet kan måles, og berørte personer eller processer ikke udsættes for unødvendig risiko. Når grundlaget virker, kan du udvide til mere avancerede modeller og større datakilder.

Hvilke kilder ligger til grund?

Artiklens faglige grundlag bygger især på Fayyad, Piatetsky-Shapiro og Smyths klassiske artikel om knowledge discovery in databases, Hastie, Tibshirani og Friedmans The Elements of Statistical Learning, scikit-learns dokumentation om unsupervised learning, NISTs AI Risk Management Framework og EUR-Lex-versionen af forordning (EU) 2016/679.

Data Mining – hvad er det?