Apprendimento non supervisionato e clustering dei dati

Un compito che coinvolge l’apprendimento automatico può non essere lineare, ma ha una serie di passi ben noti:

Definizione del problema.
Preparazione dei dati.
Apprendere un modello sottostante.
Migliorare il modello sottostante attraverso valutazioni quantitative e qualitative.
Presentare il modello.

Un buon modo per venire a capo di un nuovo problema è lavorare attraverso l’identificazione e la definizione del problema nel miglior modo possibile e imparare un modello che catturi informazioni significative dai dati. Mentre i problemi di Pattern Recognition e Machine Learning possono essere di vari tipi, possono essere ampiamente classificati in tre categorie:

Supervised Learning:
Al sistema vengono presentati degli esempi di input e i loro output desiderati, dati da un “insegnante”, e l’obiettivo è quello di imparare una regola generale che mappa gli input agli output.
Unsupervised Learning:
Non vengono date etichette all’algoritmo di apprendimento, lasciandolo solo a trovare la struttura nel suo input. L’apprendimento non supervisionato può essere un obiettivo in sé (scoprire modelli nascosti nei dati) o un mezzo per raggiungere un fine (apprendimento delle caratteristiche).
Apprendimento di rinforzo:
Un sistema interagisce con un ambiente dinamico in cui deve eseguire un certo obiettivo (come guidare un veicolo o giocare una partita contro un avversario). Il sistema riceve un feedback in termini di ricompense e punizioni mentre naviga nel suo spazio problematico.

Tra l’apprendimento supervisionato e quello non supervisionato c’è l’apprendimento semi-supervisionato, dove l’insegnante dà un segnale di formazione incompleto: un set di formazione con alcuni (spesso molti) output di destinazione mancanti. Ci concentreremo sull’apprendimento non supervisionato e sul clustering dei dati in questo post del blog.

Apprendimento non supervisionato

In alcuni problemi di riconoscimento dei modelli, i dati di allenamento consistono in un insieme di vettori di input x senza alcun valore target corrispondente. L’obiettivo in tali problemi di apprendimento non supervisionato può essere quello di scoprire gruppi di esempi simili all’interno dei dati, dove si parla di clustering, o di determinare come i dati sono distribuiti nello spazio, noto come stima della densità. Per dirla in termini più semplici, per uno spazio n-campionato da x1 a xn, le vere etichette di classe non sono fornite per ogni campione, quindi conosciuto come apprendimento senza insegnante.

Problemi con l’apprendimento non supervisionato:

L’apprendimento non supervisionato è più difficile rispetto ai compiti di apprendimento supervisionato.
Come facciamo a sapere se i risultati sono significativi dato che non sono disponibili etichette di risposta?
Lasciare che l’esperto guardi i risultati (valutazione esterna)
Definire una funzione obiettivo sul clustering (valutazione interna)

Perché l’apprendimento non supervisionato è necessario nonostante questi problemi?

Annotare grandi dataset è molto costoso e quindi possiamo etichettare solo pochi esempi manualmente. Esempio: Riconoscimento vocale
Ci possono essere casi in cui non sappiamo in quante/quali classi sono divisi i dati. Esempio: Data Mining
Potremmo voler usare il clustering per ottenere qualche informazione sulla struttura dei dati prima di progettare un classificatore.

L’apprendimento non supervisionato può essere ulteriormente classificato in due categorie:

Apprendimento parametrico non supervisionato
In questo caso, si assume una distribuzione parametrica dei dati. Si assume che i dati campione provengano da una popolazione che segue una distribuzione di probabilità basata su un set fisso di parametri. Teoricamente, in una famiglia di distribuzioni normali, tutti i membri hanno la stessa forma e sono parametrizzati da media e deviazione standard. Ciò significa che se si conoscono la media e la deviazione standard, e che la distribuzione è normale, si conosce la probabilità di qualsiasi osservazione futura. L’apprendimento parametrico non supervisionato comporta la costruzione di modelli di miscele gaussiane e l’utilizzo dell’algoritmo di massimizzazione dell’aspettativa per prevedere la classe del campione in questione. Questo caso è molto più difficile dell’apprendimento supervisionato standard perché non ci sono etichette di risposta disponibili e quindi non c’è una misura corretta di accuratezza disponibile per controllare il risultato.
Apprendimento non supervisionato non parametrico
Nella versione non parametrica dell’apprendimento non supervisionato, i dati sono raggruppati in cluster, dove ogni cluster (si spera) dice qualcosa sulle categorie e classi presenti nei dati. Questo metodo è comunemente usato per modellare e analizzare i dati con piccole dimensioni del campione. A differenza dei modelli parametrici, i modelli non parametrici non richiedono che il modellatore faccia alcuna ipotesi sulla distribuzione della popolazione, e quindi sono talvolta indicati come un metodo senza distribuzione.

Che cos’è il clustering?

Il clustering può essere considerato il più importante problema di apprendimento non supervisionato; quindi, come ogni altro problema di questo tipo, si occupa di trovare una struttura in una collezione di dati senza etichetta. Una definizione libera di clustering potrebbe essere “il processo di organizzazione di oggetti in gruppi i cui membri sono simili in qualche modo”. Un cluster è quindi una collezione di oggetti che sono “simili” tra loro e sono “dissimili” agli oggetti appartenenti ad altri cluster.

Clustering basato sulla distanza.

Dato un insieme di punti, con una nozione di distanza tra i punti, raggruppare i punti in un certo numero di cluster, tali che

le distanze interne (all’interno del cluster) dovrebbero essere piccole, cioè i membri dei cluster sono vicini tra loro.I membri dei cluster sono vicini/simili tra loro.
Le distanze esterne (intra-cluster) dovrebbero essere grandi, cioè i membri dei diversi cluster sono dissimili.

Gli obiettivi del clustering

L’obiettivo del clustering è determinare il raggruppamento interno in un insieme di dati senza etichetta. Ma come decidere cosa costituisce un buon clustering? Si può dimostrare che non esiste un criterio assoluto “migliore” che sia indipendente dallo scopo finale del raggruppamento. Di conseguenza, è l’utente che dovrebbe fornire questo criterio, in modo tale che il risultato del clustering si adatti alle sue esigenze.

Ci sono varie misure di similarità che possono essere usate.

Vettori: Distanza Coseno

Insiemi: Jaccard Distance

Punti: Euclidean Distance
q=2

Una “buona” misura di prossimità dipende MOLTO dalle applicazioni. I cluster dovrebbero essere invarianti sotto le trasformazioni “naturali” del problema. Inoltre, durante il clustering non è consigliabile normalizzare i dati che sono tratti da più distribuzioni.

Algoritmi di clustering

Gli algoritmi di clustering possono essere classificati come segue:

Clustering esclusivo
Clustering sovrapposto
Clustering gerarchico
Clustering probabilistico

Nel primo caso i dati sono raggruppati in modo esclusivo, così che se un certo punto dati appartiene ad un determinato cluster allora non può essere incluso in un altro cluster. Un semplice esempio di ciò è mostrato nella figura qui sotto, dove la separazione dei punti è ottenuta da una linea retta su un piano bidimensionale.

Al contrario, il secondo tipo, il clustering sovrapposto, usa insiemi fuzzy per raggruppare i dati, così che ogni punto può appartenere a due o più cluster con diversi gradi di appartenenza. In questo caso, i dati saranno associati a un valore di appartenenza appropriato.

Un algoritmo di clustering gerarchico si basa sull’unione tra i due cluster più vicini. La condizione iniziale è realizzata impostando ogni punto di dati come un cluster. Dopo alcune iterazioni raggiunge i cluster finali desiderati.

Infine, l’ultimo tipo di clustering utilizza un approccio completamente probabilistico.

In questo blog parleremo di quattro degli algoritmi di clustering più usati:

K-means
Fuzzy K-means
Hierarchical clustering
Mix of Gaussians

Ognuno di questi algoritmi appartiene a uno dei tipi di clustering elencati sopra. Mentre K-means è un algoritmo di clustering esclusivo, Fuzzy K-means è un algoritmo di clustering sovrapposto, Hierarchical clustering è ovvio e infine Mixture of Gaussians è un algoritmo di clustering probabilistico. Discuteremo di ogni metodo di clustering nei paragrafi seguenti.

K-Means Clustering

K-means è uno dei più semplici algoritmi di apprendimento non supervisionato che risolve il ben noto problema del clustering. La procedura segue un modo semplice e facile per classificare un dato set di dati attraverso un certo numero di cluster (supponiamo k cluster) fissati a priori. L’idea principale è quella di definire k centri, uno per ogni cluster. Questi centri dovrebbero essere posizionati in modo intelligente, perché una posizione diversa causa un risultato diverso. Quindi, la scelta migliore è quella di posizionarli il più lontano possibile l’uno dall’altro. Il passo successivo è quello di prendere ogni punto appartenente a un dato set di dati e associarlo al centroide più vicino. Quando nessun punto è in sospeso, il primo passo è completato e viene fatto un primo groupage. A questo punto dobbiamo ricalcolare k nuovi centroidi come baricentri dei cluster risultanti dal passo precedente. Dopo aver ottenuto questi k nuovi centroidi, un nuovo legame deve essere fatto tra gli stessi punti del set di dati e il nuovo centroide più vicino. Si è generato un ciclo. Come risultato di questo ciclo possiamo notare che i k centroidi cambiano la loro posizione passo dopo passo fino a quando non vengono fatti più cambiamenti. In altre parole i centroidi non si muovono più.

Infine, questo algoritmo mira a minimizzare una funzione obiettivo, in questo caso una funzione di errore al quadrato. La funzione obiettivo

dove

è una misura di distanza scelta tra un punto dati xi e il centro cluster cj, è un indicatore della distanza degli n punti dati dai loro rispettivi centri di cluster.

L’algoritmo è composto dai seguenti passi:

Lasciamo che X = {x1,x2,x3,……..,xn} sia l’insieme dei punti dati e V = {v1,v2,…….,vc} sia l’insieme dei centri.
Selezionare casualmente ‘c’ centri di cluster.
Calcolare la distanza tra ogni punto dati e centri di cluster.
Assegnare il punto dati al centro del cluster la cui distanza dal centro del cluster è minima tra tutti i centri del cluster.
Ricalcolare il nuovo centro del cluster usando:

dove, ‘ci’ rappresenta il numero di punti dati nel cluster ith.

Ricalcolare la distanza tra ogni punto di dati e i nuovi centri di cluster ottenuti.
Se nessun punto di dati è stato riassegnato allora fermarsi, altrimenti ripetere dal punto 3).

Anche se si può dimostrare che la procedura terminerà sempre, l’algoritmo k-means non trova necessariamente la configurazione più ottimale, corrispondente al minimo della funzione obiettivo globale. L’algoritmo è anche significativamente sensibile ai centri di cluster iniziali selezionati a caso. L’algoritmo k-means può essere eseguito più volte per ridurre questo effetto.

K-means è un algoritmo semplice che è stato adattato a molti domini problematici. Come vedremo, è un buon candidato per l’estensione a lavorare con vettori di caratteristiche fuzzy.

Guardando l’immagine, possiamo identificare due cluster in prossimità delle due concentrazioni di dati. Ci riferiremo a loro usando ‘A’ e ‘B’. Nel primo approccio mostrato in questo tutorial – l’algoritmo k-means – associavamo ogni punto di dati a un centroide specifico; quindi, questa funzione di appartenenza si presentava così:

Free Press

Apprendimento non supervisionato e clustering dei dati

Lascia un commento Annulla risposta