Eine Aufgabe, die maschinelles Lernen beinhaltet, ist vielleicht nicht linear, aber sie hat eine Reihe bekannter Schritte:

  • Problemdefinition.
  • Aufbereitung von Daten.
  • Lernen eines zugrunde liegenden Modells.
  • Verbesserung des zugrundeliegenden Modells durch quantitative und qualitative Auswertungen.
  • Präsentation des Modells.

Eine gute Möglichkeit, mit einem neuen Problem fertig zu werden, besteht darin, das Problem bestmöglich zu identifizieren und zu definieren und ein Modell zu lernen, das sinnvolle Informationen aus den Daten erfasst. Obwohl es verschiedene Arten von Problemen bei der Mustererkennung und dem maschinellen Lernen gibt, lassen sie sich grob in drei Kategorien einteilen:

  • Überwachtes Lernen:
    Dem System werden von einem „Lehrer“ Beispieleingaben und die gewünschten Ausgaben vorgegeben, und das Ziel besteht darin, eine allgemeine Regel zu erlernen, die die Eingaben auf die Ausgaben abbildet.
  • Unüberwachtes Lernen:
    Dem Lernalgorithmus werden keine Bezeichnungen vorgegeben, so dass er auf sich allein gestellt ist, um eine Struktur in seinen Eingaben zu finden. Unüberwachtes Lernen kann ein Ziel an sich sein (Entdeckung verborgener Muster in Daten) oder ein Mittel zum Zweck (Lernen von Merkmalen).
  • Verstärkungslernen:
    Ein System interagiert mit einer dynamischen Umgebung, in der es ein bestimmtes Ziel erfüllen muss (z. B. ein Fahrzeug fahren oder ein Spiel gegen einen Gegner spielen). Das System erhält eine Rückmeldung in Form von Belohnungen und Bestrafungen, während es durch den Problemraum navigiert.

Zwischen überwachtem und unüberwachtem Lernen liegt das halbüberwachte Lernen, bei dem der Lehrer ein unvollständiges Trainingssignal gibt: eine Trainingsmenge, bei der einige (oft viele) der Zielausgaben fehlen. In diesem Blogbeitrag konzentrieren wir uns auf unüberwachtes Lernen und Datenclusterung.

Unüberwachtes Lernen

Bei einigen Problemen der Mustererkennung bestehen die Trainingsdaten aus einer Menge von Eingabevektoren x ohne entsprechende Zielwerte. Das Ziel bei solchen unüberwachten Lernproblemen kann darin bestehen, Gruppen ähnlicher Beispiele innerhalb der Daten zu entdecken, was als Clustering bezeichnet wird, oder zu bestimmen, wie die Daten im Raum verteilt sind, was als Dichteschätzung bezeichnet wird. Um es einfacher auszudrücken: Für einen Raum mit n Stichproben x1 bis xn werden nicht für jede Stichprobe echte Klassenbezeichnungen bereitgestellt, daher spricht man von Lernen ohne Lehrer.

Probleme beim unüberwachten Lernen:

  • Unüberwachtes Lernen ist schwieriger als überwachte Lernaufgaben.
  • Woher wissen wir, ob die Ergebnisse aussagekräftig sind, da keine Antwortbezeichnungen verfügbar sind?
  • Lassen Sie den Experten die Ergebnisse betrachten (externe Bewertung)
  • Definieren Sie eine Zielfunktion für das Clustering (interne Bewertung)

Warum wird unüberwachtes Lernen trotz dieser Probleme benötigt?

  • Das Kommentieren großer Datensätze ist sehr kostspielig, und daher können wir nur wenige Beispiele manuell beschriften. Beispiel: Spracherkennung
  • Es kann Fälle geben, in denen wir nicht wissen, in wie viele/welche Klassen die Daten unterteilt sind. Beispiel: Data Mining
  • Es kann sein, dass wir Clustering verwenden wollen, um einen Einblick in die Struktur der Daten zu erhalten, bevor wir einen Klassifikator entwerfen.

Unüberwachtes Lernen lässt sich in zwei weitere Kategorien einteilen:

  • Parametrisches unüberwachtes Lernen
    In diesem Fall gehen wir von einer parametrischen Verteilung der Daten aus. Dabei wird davon ausgegangen, dass die Beispieldaten aus einer Population stammen, die einer Wahrscheinlichkeitsverteilung folgt, die auf einem festen Satz von Parametern basiert. Theoretisch haben in einer Familie von Normalverteilungen alle Mitglieder die gleiche Form und sind durch Mittelwert und Standardabweichung parametrisiert. Das heißt, wenn man den Mittelwert und die Standardabweichung kennt und weiß, dass die Verteilung normal ist, kennt man die Wahrscheinlichkeit jeder zukünftigen Beobachtung. Parametrisches unüberwachtes Lernen beinhaltet die Konstruktion von Gaußschen Mischungsmodellen und die Verwendung des Algorithmus der Erwartungsmaximierung zur Vorhersage der Klasse der fraglichen Stichprobe. Dieser Fall ist viel schwieriger als das standardmäßige überwachte Lernen, da keine Antwortetiketten zur Verfügung stehen und somit kein korrektes Maß für die Genauigkeit vorhanden ist, um das Ergebnis zu überprüfen.
  • Nicht-parametrisches unüberwachtes Lernen
    Bei der nicht-parametrischen Version des unüberwachten Lernens werden die Daten in Cluster gruppiert, wobei jeder Cluster (hoffentlich) etwas über die in den Daten vorhandenen Kategorien und Klassen aussagt. Diese Methode wird häufig zur Modellierung und Analyse von Daten mit kleinen Stichprobengrößen verwendet. Im Gegensatz zu parametrischen Modellen muss der Modellierer bei nichtparametrischen Modellen keine Annahmen über die Verteilung der Grundgesamtheit treffen und wird daher manchmal als verteilungsfreie Methode bezeichnet.

Was ist Clustering?

Clustering kann als das wichtigste Problem des unüberwachten Lernens angesehen werden; wie bei jedem anderen Problem dieser Art geht es also darum, eine Struktur in einer Sammlung von unbeschrifteten Daten zu finden. Eine lockere Definition von Clustering könnte lauten: „Der Prozess der Organisation von Objekten in Gruppen, deren Mitglieder sich in irgendeiner Weise ähnlich sind“. Ein Cluster ist also eine Sammlung von Objekten, die sich untereinander „ähnlich“ sind und sich von den Objekten, die zu anderen Clustern gehören, „unterscheiden“.

Distanzbasiertes Clustering.

Bei einer Menge von Punkten mit einem Begriff für den Abstand zwischen den Punkten werden die Punkte in eine bestimmte Anzahl von Clustern gruppiert, so dass

  • die internen (innerhalb des Clusters) Abstände klein sein sollten, d. h.
  • externe (innerhalb des Clusters) Distanzen sollten groß sein, d.h. die Mitglieder verschiedener Cluster sind unähnlich.

Die Ziele des Clustering

Das Ziel des Clustering ist es, die interne Gruppierung in einem Satz von unbeschrifteten Daten zu bestimmen. Aber wie kann man entscheiden, was ein gutes Clustering ist? Es lässt sich zeigen, dass es kein absolutes „bestes“ Kriterium gibt, das unabhängig vom Endziel des Clusterns wäre. Folglich ist es der Benutzer, der dieses Kriterium liefern muss, damit das Ergebnis des Clustering seinen Bedürfnissen entspricht.

Woher wissen wir in der obigen Abbildung, was die beste Clustering-Lösung ist?

Um eine bestimmte Clustering-Lösung zu finden, müssen wir die Ähnlichkeitsmaße für die Cluster definieren.

Näherungsmaße

Für das Clustering müssen wir ein Näherungsmaß für zwei Datenpunkte definieren. Nähe bedeutet hier, wie ähnlich/unähnlich die Stichproben in Bezug aufeinander sind.

  • Ähnlichkeitsmaß S(xi,xk): groß, wenn xi,xk ähnlich sind
  • Unähnlichkeits(oder Abstands)maß D(xi,xk): klein, wenn xi,xk ähnlich sind

Es gibt verschiedene Ähnlichkeitsmaße, die verwendet werden können.

  • Vektoren: Cosinus-Abstand

  • Mengen: Jaccard-Abstand

  • Punkte: Euklidischer Abstand
    q=2

Ein „gutes“ Näherungsmaß ist SEHR anwendungsabhängig. Die Cluster sollten unter den für das Problem „natürlichen“ Transformationen invariant sein. Außerdem ist es bei der Clusterbildung nicht ratsam, Daten zu normalisieren, die aus mehreren Verteilungen stammen.

Clustering-Algorithmen

Clustering-Algorithmen können wie folgt klassifiziert werden:

  • Exklusives Clustering
  • Überlappendes Clustering
  • Hierarchisches Clustering
  • Probabilistisches Clustering

Im ersten Fall werden die Daten exklusiv gruppiert, d.h. wenn ein bestimmter Datenpunkt zu einem bestimmten Cluster gehört, kann er nicht in ein anderes Cluster aufgenommen werden. Ein einfaches Beispiel dafür ist in der nachstehenden Abbildung zu sehen, in der die Trennung der Punkte durch eine gerade Linie auf einer zweidimensionalen Ebene erreicht wird.

Im Gegensatz dazu werden beim zweiten Typ, dem überlappenden Clustering, Fuzzy-Mengen zum Clustern von Daten verwendet, so dass jeder Punkt zu zwei oder mehr Clustern mit unterschiedlichen Zugehörigkeitsgraden gehören kann. In diesem Fall werden die Daten einem geeigneten Zugehörigkeitswert zugeordnet.

Ein hierarchischer Clustering-Algorithmus basiert auf der Vereinigung der beiden nächstgelegenen Cluster. Die Anfangsbedingung wird realisiert, indem jeder Datenpunkt als ein Cluster gesetzt wird. Nach einigen Iterationen werden die gewünschten endgültigen Cluster erreicht.

Die letzte Art des Clusterns schließlich verwendet einen vollständig probabilistischen Ansatz.

In diesem Blog werden wir über vier der am häufigsten verwendeten Clustering-Algorithmen sprechen:

  • K-means
  • Fuzzy K-means
  • Hierarchisches Clustering
  • Mischung von Gauß

Jeder dieser Algorithmen gehört zu einem der oben aufgeführten Clustering-Typen. K-means ist ein exklusiver Clustering-Algorithmus, Fuzzy K-means ist ein überlappender Clustering-Algorithmus, Hierarchical Clustering ist offensichtlich und Mixture of Gaussians ist ein probabilistischer Clustering-Algorithmus. In den folgenden Abschnitten werden wir die einzelnen Clustering-Methoden besprechen.

K-Means Clustering

K-means ist einer der einfachsten unüberwachten Lernalgorithmen, der das bekannte Clustering-Problem löst. Das Verfahren folgt einem einfachen und leichten Weg, einen gegebenen Datensatz durch eine bestimmte Anzahl von Clustern (angenommen k Cluster) zu klassifizieren, die a priori festgelegt werden. Die Hauptidee besteht darin, k Zentren zu definieren, eines für jedes Cluster. Diese Zentren sollten auf intelligente Weise platziert werden, da eine unterschiedliche Platzierung zu unterschiedlichen Ergebnissen führt. Daher ist es besser, sie so weit wie möglich voneinander entfernt zu platzieren. Der nächste Schritt besteht darin, jeden Punkt, der zu einem bestimmten Datensatz gehört, dem nächstgelegenen Schwerpunkt zuzuordnen. Wenn kein Punkt ansteht, ist der erste Schritt abgeschlossen und eine frühe Gruppierung wird durchgeführt. Zu diesem Zeitpunkt müssen wir k neue Zentren als Baryzentren der aus dem vorherigen Schritt resultierenden Cluster neu berechnen. Nachdem wir diese k neuen Zentroide haben, muss eine neue Verbindung zwischen denselben Punkten des Datensatzes und dem nächstgelegenen neuen Zentroid hergestellt werden. Es wurde eine Schleife erzeugt. Als Ergebnis dieser Schleife können wir feststellen, dass die k Zentroide ihre Position Schritt für Schritt ändern, bis keine Änderungen mehr vorgenommen werden. Mit anderen Worten, die Zentroide bewegen sich nicht mehr.

Schließlich zielt dieser Algorithmus darauf ab, eine Zielfunktion zu minimieren, in diesem Fall eine quadratische Fehlerfunktion. Die Zielfunktion

wobei

ein gewähltes Distanzmaß zwischen einem Datenpunkt xi und dem Clusterzentrum cj ist, ist ein Indikator für den Abstand der n Datenpunkte von ihren jeweiligen Clusterzentren.

Der Algorithmus besteht aus den folgenden Schritten:

  • Lassen Sie X = {x1,x2,x3,……..,xn} die Menge der Datenpunkte und V = {v1,v2,…….,vc} die Menge der Zentren sein.
  • Wählen Sie zufällig ‚c‘ Clusterzentren aus.
  • Berechnen Sie den Abstand zwischen jedem Datenpunkt und den Clusterzentren.
  • Zuweisung des Datenpunkts zu dem Clusterzentrum, dessen Abstand zum Clusterzentrum das Minimum aller Clusterzentren ist.
  • Neuberechnung des neuen Clusterzentrums unter Verwendung von:

wobei „ci“ die Anzahl der Datenpunkte im i-ten Cluster darstellt.

  • Berechnen Sie den Abstand zwischen jedem Datenpunkt und den neu erhaltenen Clusterzentren neu.
  • Wenn kein Datenpunkt neu zugewiesen wurde, dann stoppen Sie, andernfalls wiederholen Sie ab Schritt 3).

Obwohl bewiesen werden kann, dass das Verfahren immer endet, findet der k-means-Algorithmus nicht unbedingt die optimalste Konfiguration, die dem globalen Zielfunktionsminimum entspricht. Der Algorithmus ist auch sehr empfindlich gegenüber den anfänglich zufällig ausgewählten Clusterzentren. Der k-means-Algorithmus kann mehrfach ausgeführt werden, um diesen Effekt zu verringern.

K-means ist ein einfacher Algorithmus, der an viele Problembereiche angepasst wurde. Wie wir noch sehen werden, ist er ein guter Kandidat für eine Erweiterung für die Arbeit mit unscharfen Merkmalsvektoren.

Das k-means-Verfahren kann als gieriger Algorithmus für die Aufteilung der n Stichproben in k Cluster betrachtet werden, um die Summe der quadratischen Abstände zu den Clusterzentren zu minimieren. Es hat einige Schwächen:

  • Die Art der Initialisierung der Mittelwerte wurde nicht angegeben. Eine gängige Methode ist die zufällige Auswahl von k Stichproben.
  • Es kann vorkommen, dass die Menge der Stichproben, die mi am nächsten sind, leer ist, so dass mi nicht aktualisiert werden kann. Dies ist ein Problem, das bei der Implementierung behandelt werden muss, aber im Allgemeinen ignoriert wird.
  • Die Ergebnisse hängen vom Wert von k ab, und es gibt keinen optimalen Weg, ein bestes „k“ zu beschreiben.

Dieses letzte Problem ist besonders problematisch, da wir oft keine Möglichkeit haben, zu wissen, wie viele Cluster existieren. In dem oben gezeigten Beispiel ergibt derselbe Algorithmus, angewandt auf dieselben Daten, das folgende 3-Mittel-Clustering. Ist es besser oder schlechter als das 2-Mittel-Clustering?

Unglücklicherweise gibt es keine allgemeine theoretische Lösung, um die optimale Anzahl von Clustern für einen beliebigen Datensatz zu finden. Ein einfacher Ansatz besteht darin, die Ergebnisse mehrerer Durchläufe mit verschiedenen k-Klassen zu vergleichen und die beste nach einem bestimmten Kriterium auszuwählen, aber wir müssen vorsichtig sein, da eine Erhöhung von k per Definition zu kleineren Werten der Fehlerfunktion führt, aber auch das Risiko einer Überanpassung erhöht.

Fuzzy K-Means Clustering

Beim Fuzzy Clustering hat jeder Punkt eine Wahrscheinlichkeit, zu jedem Cluster zu gehören, anstatt vollständig zu nur einem Cluster zu gehören, wie es beim traditionellen k-means der Fall ist. Fuzzy k-means versucht insbesondere, das Problem zu lösen, dass Punkte etwas zwischen den Zentren liegen oder anderweitig mehrdeutig sind, indem der Abstand durch eine Wahrscheinlichkeit ersetzt wird, die natürlich eine Funktion des Abstands sein kann, z. B. eine Wahrscheinlichkeit relativ zum Kehrwert des Abstands. Fuzzy k-means verwendet einen gewichteten Schwerpunkt auf der Grundlage dieser Wahrscheinlichkeiten. Die Prozesse der Initialisierung, Iteration und Beendigung sind die gleichen wie bei k-means. Die sich ergebenden Cluster lassen sich am besten als probabilistische Verteilungen und nicht als harte Zuweisung von Etiketten analysieren. Man sollte sich darüber im Klaren sein, dass k-means ein Spezialfall von fuzzy k-means ist, bei dem die verwendete Wahrscheinlichkeitsfunktion einfach 1 ist, wenn der Datenpunkt am nächsten zu einem Schwerpunkt liegt, und ansonsten 0.

Der fuzzy k-means Algorithmus ist der folgende:

  • Nehmen Sie eine feste Anzahl von Clustern K an.
  • Initialisierung: Initialisieren Sie zufällig die mit den Clustern assoziierten k-means μk und berechnen Sie die Wahrscheinlichkeit, dass jeder Datenpunkt Xi Mitglied eines bestimmten Clusters K ist,
    P(PointXiHasLabelK|Xi,K).
  • Iteration: Neuberechnung des Schwerpunkts des Clusters als gewichteter Schwerpunkt unter Berücksichtigung der Zugehörigkeitswahrscheinlichkeiten aller Datenpunkte Xi :

  • Beenden: Iteration bis zur Konvergenz oder bis zum Erreichen einer benutzerdefinierten Anzahl von Iterationen (die Iteration kann bei einigen lokalen Maxima oder Minima gefangen sein)

Zum besseren Verständnis können wir dieses einfache eindimensionale Beispiel betrachten. Nehmen wir an, dass ein bestimmter Datensatz als auf einer Achse verteilt dargestellt werden soll. Die folgende Abbildung zeigt dies:

Bei Betrachtung des Bildes können wir zwei Cluster in der Nähe der beiden Datenkonzentrationen erkennen. Wir werden sie mit „A“ und „B“ bezeichnen. Beim ersten in diesem Tutorial gezeigten Ansatz – dem k-means-Algorithmus – haben wir jeden Datenpunkt einem bestimmten Schwerpunkt zugeordnet; daher sah diese Zugehörigkeitsfunktion wie folgt aus:

Beim Fuzzy k-means-Ansatz hingegen gehört ein und derselbe Datenpunkt nicht ausschließlich zu einem genau definierten Cluster, sondern kann in der Mitte platziert werden. In diesem Fall folgt die Zugehörigkeitsfunktion einer glatteren Linie, um anzuzeigen, dass jeder Datenpunkt zu mehreren Clustern mit unterschiedlichem Zugehörigkeitsgrad gehören kann.

In der obigen Abbildung gehört der als rot markierter Punkt dargestellte Datenpunkt eher zum Cluster B als zum Cluster A. Der Wert 0,2 von „m“ gibt den Grad der Zugehörigkeit zu A für diesen Datenpunkt an.

Hierarchische Clustering-Algorithmen

Bei einer Menge von N zu clusternden Elementen und einer N*N-Abstandsmatrix (oder Ähnlichkeitsmatrix) läuft der grundlegende Prozess des hierarchischen Clustering folgendermaßen ab:

  • Beginnen Sie damit, jedes Element einem Cluster zuzuordnen, so dass Sie bei N Elementen nun N Cluster haben, die jeweils nur ein Element enthalten. Lassen Sie die Abstände (Ähnlichkeiten) zwischen den Clustern die gleichen sein wie die Abstände (Ähnlichkeiten) zwischen den Elementen, die sie enthalten.
  • Finden Sie das nächstgelegene (ähnlichste) Paar von Clustern und fügen Sie sie zu einem einzigen Cluster zusammen, so dass Sie jetzt ein Cluster weniger haben.
  • Berechnen Sie die Abstände (Ähnlichkeiten) zwischen dem neuen Cluster und jedem der alten Cluster.
  • Wiederholen Sie die Schritte 2 und 3, bis alle Elemente in einem einzigen Cluster der Größe N geclustert sind.

Clustering als Gauß-Mischung

Es gibt noch eine andere Möglichkeit, mit Clustering-Problemen umzugehen: ein modellbasierter Ansatz, der darin besteht, bestimmte Modelle für Cluster zu verwenden und zu versuchen, die Übereinstimmung zwischen den Daten und dem Modell zu optimieren.

In der Praxis kann jedes Cluster mathematisch durch eine parametrische Verteilung, wie z. B. eine Gaußverteilung, dargestellt werden. Der gesamte Datensatz wird daher durch eine Mischung dieser Verteilungen modelliert.
Ein Mischungsmodell mit hoher Wahrscheinlichkeit weist in der Regel die folgenden Merkmale auf:

  • Komponentenverteilungen haben hohe „Spitzen“ (Daten in einem Cluster sind eng);
  • das Mischungsmodell „deckt“ die Daten gut ab (dominante Muster in den Daten werden von Komponentenverteilungen erfasst).

Hauptvorteile des modellbasierten Clustering:

  • erprobte statistische Inferenztechniken verfügbar;
  • flexibel bei der Wahl der Komponentenverteilung;
  • erhalten eine Dichteschätzung für jedes Cluster;
  • eine „weiche“ Klassifizierung ist verfügbar.

Gauß-Gemisch
Die am weitesten verbreitete Clustermethode dieser Art basiert auf dem Lernen eines Gauß-Gemischs:

Ein Gemischmodell ist ein Gemisch aus k Komponentenverteilungen, die zusammen eine Mischverteilung f(x) ergeben:

Das αk stellt den Beitrag der k-ten Komponente bei der Konstruktion von f(x) dar. In der Praxis werden häufig parametrische Verteilungen (z. B. Gauß-Verteilungen) verwendet, da viel Arbeit geleistet wurde, um ihr Verhalten zu verstehen. Ersetzt man jedes fk(x) durch einen Gauß, erhält man ein sogenanntes Gauß-Mischungsmodell (GMM).

Der EM-Algorithmus

Die Erwartungsmaximierung geht davon aus, dass die Daten aus mehreren multivariaten Normalverteilungen bestehen (dies ist eine sehr starke Annahme, insbesondere wenn man die Anzahl der Cluster festlegt!) Oder anders ausgedrückt: EM ist ein Algorithmus zur Maximierung einer Wahrscheinlichkeitsfunktion, wenn einige der Variablen in Ihrem Modell unbeobachtet sind (d.h. wenn Sie latente Variablen haben).
Man könnte fairerweise fragen: Wenn wir nur versuchen, eine Funktion zu maximieren, warum verwenden wir dann nicht einfach die bestehenden Verfahren zur Maximierung einer Funktion? Nun, wenn man versucht, diese Funktion zu maximieren, indem man Ableitungen nimmt und sie auf Null setzt, stellt man fest, dass es in vielen Fällen keine Lösung für die Bedingungen erster Ordnung gibt. Es gibt ein Henne-Ei-Problem, denn um die Modellparameter zu lösen, muss man die Verteilung der unbeobachteten Daten kennen; aber die Verteilung der unbeobachteten Daten ist eine Funktion der Modellparameter.

Die Erwartungs-Maximierung versucht dies zu umgehen, indem sie iterativ eine Verteilung für die unbeobachteten Daten schätzt, dann die Modellparameter durch Maximierung einer Funktion, die eine untere Schranke für die tatsächliche Likelihood-Funktion darstellt, schätzt und bis zur Konvergenz wiederholt:

Der Erwartungs-Maximierungs-Algorithmus

  • Starten Sie mit einer Schätzung für die Werte Ihrer Modellparameter
  • E-Schritt: Verwenden Sie für jeden Datenpunkt mit fehlenden Werten Ihre Modellgleichung, um die Verteilung der fehlenden Daten unter Berücksichtigung Ihrer aktuellen Schätzung der Modellparameter und der beobachteten Daten zu ermitteln (beachten Sie, dass Sie eine Verteilung für jeden fehlenden Wert ermitteln, nicht für den erwarteten Wert). Da wir nun eine Verteilung für jeden fehlenden Wert haben, können wir den Erwartungswert der Likelihood-Funktion in Bezug auf die unbeobachteten Variablen berechnen. Wenn unsere Schätzung für die Modellparameter richtig war, ist diese erwartete Wahrscheinlichkeit die tatsächliche Wahrscheinlichkeit unserer beobachteten Daten; wenn die Parameter nicht richtig waren, ist sie nur eine untere Grenze.
  • M-Schritt: Da wir nun eine erwartete Wahrscheinlichkeitsfunktion ohne unbeobachtete Variablen haben, maximieren Sie die Funktion wie im vollständig beobachteten Fall, um eine neue Schätzung Ihrer Modellparameter zu erhalten.
  • Wiederholen Sie den Schritt bis zur Konvergenz.

Probleme im Zusammenhang mit Clustering

Es gibt eine Reihe von Problemen mit Clustering. Dazu gehören:

  • Der Umgang mit einer großen Anzahl von Dimensionen und einer großen Anzahl von Datenelementen kann aufgrund der zeitlichen Komplexität problematisch sein;
  • die Wirksamkeit der Methode hängt von der Definition des Begriffs „Abstand“ ab (für abstandsbasiertes Clustering). Wenn es kein offensichtliches Abstandsmaß gibt, müssen wir es „definieren“, was nicht immer einfach ist, insbesondere in mehrdimensionalen Räumen;
  • das Ergebnis des Clustering-Algorithmus (das in vielen Fällen selbst willkürlich sein kann) kann auf unterschiedliche Weise interpretiert werden.

Mögliche Anwendungen

Clustering-Algorithmen können in vielen Bereichen eingesetzt werden, zum Beispiel:

  • Marketing: Auffinden von Gruppen von Kunden mit ähnlichem Verhalten anhand einer großen Datenbank mit Kundendaten, die deren Eigenschaften und frühere Käufe enthalten;
  • Biologie: Klassifizierung von Pflanzen und Tieren anhand ihrer Merkmale;
  • Versicherungen: Identifizierung von Gruppen von Kfz-Versicherungsnehmern mit hohen durchschnittlichen Schadenkosten; Identifizierung von Betrügern;
  • Erdbebenstudien: Clustering von beobachteten Erdbeben-Epizentren zur Identifizierung von Gefahrenzonen;
  • World Wide Web: Klassifizierung von Dokumenten; Clustering von Weblog-Daten zur Ermittlung von Gruppen mit ähnlichen Zugriffsmustern.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.