Usupervised Learning and Data Clustering

En opgave, der involverer maskinlæring, er måske ikke lineær, men den har en række velkendte trin:

Problemdefinition.
Forberedelse af data.
Lær en underliggende model.
Forbedre den underliggende model ved kvantitative og kvalitative evalueringer.
Præsentere modellen.

En god måde at komme til orde med et nyt problem på er at arbejde sig igennem at identificere og definere problemet på den bedst mulige måde og lære en model, der indfanger meningsfuld information fra dataene. Selv om problemer inden for mønstergenkendelse og maskinlæring kan være af forskellig art, kan de overordnet set inddeles i tre kategorier:

Supervised Learning:
Systemet præsenteres for eksempelinput og deres ønskede output, givet af en “lærer”, og målet er at lære en generel regel, der kortlægger input til output.
Unsupervised Learning:
Ingen etiketter gives til læringsalgoritmen, og den overlades til sig selv for at finde struktur i sit input. Uovervåget indlæring kan være et mål i sig selv (opdagelse af skjulte mønstre i data) eller et middel til at nå et mål (indlæring af funktioner).
Forstærkningsindlæring:
Et system interagerer med et dynamisk miljø, hvor det skal udføre et bestemt mål (f.eks. at køre et køretøj eller spille et spil mod en modstander). Systemet får feedback i form af belønninger og straffe, efterhånden som det navigerer i sit problemrum.

Mellem overvåget og uovervåget læring findes semiovervåget læring, hvor læreren giver et ufuldstændigt træningssignal: et træningssæt, hvor nogle (ofte mange) af måloutputtet mangler. Vi vil fokusere på uovervåget læring og dataklynge i dette blogindlæg.

Uovervåget læring

I nogle mønstergenkendelsesproblemer består træningsdataene af et sæt inputvektorer x uden nogen tilsvarende målværdier. Målet i sådanne uovervågede indlæringsproblemer kan være at opdage grupper af lignende eksempler inden for dataene, hvor det kaldes clustering, eller at bestemme, hvordan dataene er fordelt i rummet, hvilket kaldes tæthedsestimering. For at formulere det i enklere vendinger, for et rum med n stikprøver x1 til xn, gives der ikke sande klasseetiketter for hver prøve, derfor kaldes det læring uden lærer.

Problemer med uovervåget læring:

Uovervåget læring er sværere sammenlignet med opgaver med overvåget læring…
Hvordan ved vi, om resultaterne er meningsfulde, da der ikke er nogen svarsetiketter til rådighed?
Lad eksperten se på resultaterne (ekstern evaluering)
Det er nødvendigt at definere en målfunktion for clustering (intern evaluering)

Hvorfor er der behov for uovervåget læring på trods af disse problemer?

Annotering af store datasæt er meget dyrt, og derfor kan vi kun mærke nogle få eksempler manuelt. Eksempel: Der kan være tilfælde, hvor vi ikke ved, hvor mange/hvilke klasser dataene er opdelt i. Eksempel: Vi ønsker måske at anvende clustering for at få et indblik i dataenes struktur, inden vi udformer en klassifikator.

Usupervised Learning kan yderligere inddeles i to kategorier:

Parametrisk uovervåget læring
I dette tilfælde antager vi en parametrisk fordeling af data. Det antages, at stikprøvedata kommer fra en population, der følger en sandsynlighedsfordeling baseret på et fast sæt parametre. Teoretisk set har alle medlemmer af en normal familie af fordelinger den samme form og er parameteriseret ved middelværdi og standardafvigelse. Det betyder, at hvis man kender middelværdien og standardafvigelsen og ved, at fordelingen er normal, kender man sandsynligheden for enhver fremtidig observation. Parametrisk uovervåget læring indebærer konstruktion af Gaussian Mixture Models og anvendelse af Expectation-Maximization-algoritmen til at forudsige klassen for den pågældende prøve. Dette tilfælde er meget vanskeligere end standard overvåget læring, fordi der ikke er nogen svarsetiketter til rådighed, og der er derfor ikke noget korrekt mål for nøjagtighed til rådighed til at kontrollere resultatet.
Ikke-parametrisk uovervåget læring
I den ikke-parametrerede version af uovervåget læring grupperes dataene i klynger, hvor hver klynge (forhåbentlig) siger noget om de kategorier og klasser, der er til stede i dataene. Denne metode bruges almindeligvis til at modellere og analysere data med små stikprøvestørrelser. I modsætning til parametriske modeller kræver ikke-parametriske modeller ikke, at modelløren foretager nogen antagelser om fordelingen af populationen, og derfor omtales de undertiden som en fordelingsfri metode.

Hvad er clustering?

Clustering kan betragtes som det vigtigste uovervågede indlæringsproblem; så som ethvert andet problem af denne art handler det om at finde en struktur i en samling af umærkede data. En løs definition af clustering kunne være “processen med at organisere objekter i grupper, hvis medlemmer ligner hinanden på en eller anden måde”. En klynge er derfor en samling af objekter, som indbyrdes “ligner hinanden” og er “ulige” de objekter, der tilhører andre klynger.

Afstandsbaseret klyngedannelse.

Givet et sæt punkter med et begreb om afstanden mellem punkterne grupperes punkterne i et vist antal klynger, således at

interne (inden for klyngen) afstande bør være små i.e medlemmer af klynger er tæt på/lignende hinanden.
De eksterne (inden for klyngen) afstande bør være store, dvs. at medlemmer af forskellige klynger er uensartede.

Målene med klyngeinddeling

Målet med klyngeinddeling er at bestemme den interne gruppering i et sæt af umærkede data. Men hvordan afgør man, hvad der udgør en god clustering? Det kan påvises, at der ikke findes noget absolut “bedste” kriterium, som ville være uafhængigt af det endelige mål med klyngedannelsen. Derfor er det brugeren, der skal levere dette kriterium, således at resultatet af clusteringen passer til deres behov.

I ovenstående billede, hvordan ved vi så, hvad der er den bedste clusteringløsning?

For at finde en bestemt klyngeløsning , skal vi definere lighedsmålene for klyngerne.

Nærhedsmål

For klyngeopdeling skal vi definere et nærhedsmål for to datapunkter. Nærhed betyder her, hvor ens/usammenlignende prøverne er i forhold til hinanden.

Lighedsmåling S(xi,xk): stor, hvis xi,xk ligner hinanden
Løsningsmåling (eller afstandsmåling) D(xi,xk): lille, hvis xi,xk ligner hinanden

Der er forskellige lighedsmål, der kan anvendes.

Vektorer: Cosinusafstand

Sæt: Jaccard Distance

Et “godt” nærhedsmål er MEGET anvendelsesafhængigt. Klyngerne skal være invariante under de transformationer, der er “naturlige” for problemet. Under clustering anbefales det heller ikke at normalisere data, der er trukket fra flere fordelinger.

Free Press

Usupervised Learning and Data Clustering

Skriv et svar Annuller svar