Was ist unüberwachtes Lernen?

Das unüberwachte Lernen ist eine Form des Machine Learning, bei der aus nicht gekennzeichneten Daten bestimmte Schlussfolgerungen gezogen werden. Mit dem unüberwachten Lernen sollen in den Daten enthaltene Muster und Zusammenhänge identifiziert werden, ohne dass eine Überwachung erfolgt oder die Ergebnisse im Voraus bekannt sind.

Die Funktionsweise des unüberwachten Lernens

Unüberwachte Lernalgorithmen decken verborgene Muster, Strukturen und Gruppierungen in Daten auf, ohne dass die Ergebnisse im Voraus bekannt sind. Diese Algorithmen stützen sich auf nicht gekennzeichnete Daten, d. h. Daten ohne vordefinierte Kennzeichnungen.

Ein typischer unüberwachter Lernprozess umfasst die Datenvorbereitung, die Anwendung des richtigen unüberwachten Lernalgorithmus und schließlich die Interpretation und Auswertung der Ergebnisse. Dieser Ansatz erweist sich besonders bei Aufgaben wie der Clusteranalyse als nützlich, wenn es darum geht, ähnliche Datenpunkte zu gruppieren, sowie bei der Dimensionsreduktion, die Daten durch die Reduzierung der Anzahl von Merkmalen (Dimensionen) vereinfacht. Durch die Analyse der inhärenten Struktur der Daten kann das unüberwachte Lernen zu einem besseren Verständnis Ihrer Datensätze führen.

Unüberwachtes Lernen kann zunächst auch vor dem überwachten Lernen angewendet werden, um bei der explorativen Datenanalyse bestimmte Merkmale zu identifizieren und anhand von Gruppierungen verschiedene Klassen zu erstellen. Dieser Vorgang ist Teil des Feature Engineering, einem Prozess zur Erkundung und Umwandlung von Rohdaten in Merkmale, die für überwachtes Machine Learning geeignet sind.

Ein Satz verschiedenfarbiger Formen (nicht gekennzeichnete Daten) wird in einen unüberwachten Lernalgorithmus eingegeben, der drei homogene Gruppen (Klassen) ausgibt. — Organisieren von nicht gekennzeichneten Daten in Gruppen mithilfe von unüberwachtem Lernen.

Arten von unüberwachten Lernmethoden

Clustering

Das Clustering ist die am häufigsten verwendete Methode des unüberwachten Lernens und ermöglicht es Ihnen, die natürliche Gruppierung oder inhärente Struktur eines Datensatzes besser zu verstehen. Eingesetzt wird es für die explorative Datenanalyse, Mustererkennung, Anomalieerkennung, Bildsegmentierung und vieles mehr. Clustering-Algorithmen, wie z. B. k-means oder das hierarchische Clustering, gruppieren Datenpunkte so, dass Datenpunkte in derselben Gruppe (oder demselben Cluster) einander ähnlicher sind als Datenpunkte in anderen Gruppen.

Wenn beispielsweise ein Mobilfunkunternehmen die Standorte für den Bau von Mobilfunkmasten optimieren möchte, kann man mithilfe des Machine Learning die Anzahl der Personencluster abschätzen, die auf diese Masten angewiesen sind. Ein Telefon kann immer nur mit einem einzigen Sendemast kommunizieren. Daher verwendet das Team Clustering-Algorithmen, um die bestmögliche Standortwahl für Mobilfunkmasten zu treffen und den Signalempfang für Gruppen oder Cluster von Kunden zu optimieren.

Ein Diagramm mit nicht gekennzeichneten Punkten wird einer Clusteranalyse unterzogen, einer Art unüberwachtem Lernen, das zu drei farbcodierten Clustern von Datenpunkten führt. — Mithilfe von Clustering lassen sich versteckte Muster in Ihren Daten finden.

Beim Clustering werden zwei Hauptkategorien unterschieden:

hartes oder exklusives Clustering, bei dem jeder Datenpunkt nur zu einem Cluster gehört, wie bei der gängigen k-means-Methode.
weiches oder überlappendes Clustering, bei dem jeder Datenpunkt zu mehr als einem Cluster gehören kann, wie z. B. bei der Gaußschen Verteilungskurve.

Zu den gängigen Clustering-Algorithmen gehören:

Beim hierarchischen Clustering wird eine mehrstufige Hierarchie von Clustern durch die Erstellung eines Cluster-Baums aufgebaut.
Beim k-means werden Daten auf Grundlage des Abstands zum Schwerpunkt eines Clusters in k verschiedene Cluster unterteilt.
Gaußsche Mischmodelle bilden Cluster als eine Mischung multivariater Normaldichtekomponenten.
Das dichtebasierte räumliche Clustering von Anwendungen mit Rauschen (DBSCAN) gruppiert Punkte, die nahe beieinanderliegen, in Bereichen mit hoher Dichte, und behält Ausreißer in Regionen mit geringer Dichte im Auge. Es kann beliebige nicht konvexe Formen verarbeiten.
Selbstorganisierende Karten verwenden neuronale Netze, die die Topologie und Verteilung der Daten lernen.
Beim spektralen Clustering werden die Eingabedaten in eine grafische Darstellung umgewandelt, in der die Cluster besser voneinander getrennt sind als im ursprünglichen Merkmalsraum. Die Anzahl der Cluster kann durch Untersuchung der Eigenwerte des Graphen geschätzt werden.
Versteckte Markov-Modelle können zur Entdeckung von Mustern in Sequenzen, wie z. B. Genen und Proteinen in der Bioinformatik, verwendet werden.
Fuzzy c-means (FCM) gruppiert Daten in N Cluster, wobei jeder Datenpunkt des Datensatzes zu einem bestimmten Grad zu jedem Cluster gehört.

Clustering wird in verschiedenen Anwendungen eingesetzt, z. B. bei der Bildsegmentierung, Anomalieerkennung und Mustererkennung.

Ein 2D-Diagramm, das die Messungen der Blütenblattbreite und -länge für drei Irisarten zeigt, und ein Diagramm, das die drei sich ergebenden Cluster mithilfe des GMM-Clusters darstellt. — Links: MATLAB-Streudiagramm von Blütenblattmessungen mehrerer Exemplare von drei Irisarten. Rechts: Die Blütenblattmessungen wurden mithilfe des Gaußschen Mischmodells (GMM) in drei Cluster unterteilt.

Reduzierung der Dimensionalität

Multivariate Daten enthalten oft eine große Anzahl von Variablen oder Merkmalen. Dies kann sich auf die Laufzeit und den Speicherbedarf auswirken. Durch Techniken zur Reduzierung der Dimensionalität wird die Anzahl der Merkmale (Dimensionen) verringert, während die erforderlichen Informationen der Originaldaten erhalten bleiben. Mithilfe der Dimensionsreduktion beim unüberwachten Lernen kann die Rechenlast gesenkt und die Geschwindigkeit und Effizienz von Machine-Learning-Algorithmen erhöht werden.

Eine weitere Schwierigkeit bei Daten mit vielen Variablen ist die Visualisierung. Durch die Vereinfachung der Daten, bei der keine wesentlichen Informationen verloren gehen, erleichtern Methoden zur Dimensionsreduktion die Visualisierung und Analyse.

Nehmen wir als Beispiel Daten zu menschlichen Aktivitäten, die 60 Dimensionen umfassen und mithilfe von Beschleunigungssensoren in Smartphones bei fünf verschiedenen Aktivitäten (Sitzen, Stehen, Gehen, Laufen und Tanzen) erfasst wurden. Aufgrund der hohen Dimensionalität lassen sich diese Daten nur schwer visualisieren und analysieren. Mithilfe der Dimensionsreduktion können Sie diese Dimensionen auf nur zwei oder drei reduzieren, ohne dabei wichtige Informationen zu verlieren.

Einige weitverbreitete Methoden des unüberwachten Lernens zur Reduzierung der Dimensionalität sind:

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) wandelt Daten in eine Reihe orthogonaler Komponenten um, die die maximale Varianz mit weniger Variablen erfassen. Die neuen Variablen werden als Hauptkomponenten bezeichnet. Jede Hauptkomponente ist eine lineare Kombination der ursprünglichen Variablen. Die erste Hauptkomponente ist eine einzelne Achse im Raum. Wenn Sie jede Beobachtung auf diese Achse projizieren, bilden die resultierenden Werte eine neue Variable, und die Varianz dieser Variablen ist das Maximum unter allen möglichen Auswahlmöglichkeiten der ersten Achse. Die zweite Hauptkomponente ist eine weitere Achse im Raum, die senkrecht zur ersten steht. Die Projektion der Beobachtungen auf diese Achse erzeugt eine weitere neue Variable. Die Varianz dieser Variablen ist das Maximum unter allen möglichen Auswahlmöglichkeiten dieser zweiten Achse. Der vollständige Satz der Hauptkomponenten ist genauso groß wie der ursprüngliche Satz der Variablen, aber oft erfassen die ersten paar Komponenten schon über 80% der Gesamtvarianz der ursprünglichen Daten.
Die t-verteilte stochastische Nachbarschaftseinbettung (t-SNE) eignet sich hervorragend für die Visualisierung hochdimensionaler Daten. Dabei werden hochdimensionale Datenpunkte in niedrigdimensionale Datenpunkte eingebettet, wobei Ähnlichkeiten zwischen den Punkten berücksichtigt werden. In der Regel können Sie die niedrigdimensionalen Punkte darstellen, um natürliche Cluster in den ursprünglichen hochdimensionalen Daten zu sehen.
Die Faktorenanalyse ist eine Methode, um ein Modell an multivariate Daten anzupassen und die Interdependenz zwischen den Variablen zu schätzen, indem zugrunde liegende Faktoren identifiziert werden, die die beobachteten Korrelationen zwischen den Variablen erklären. Bei dieser Methode des unüberwachten Lernens hängen die gemessenen Variablen von einer geringeren Anzahl nicht beobachteter (latenter) Faktoren ab. Da jeder Faktor mehrere Variablen gemeinsam beeinflussen kann, werden sie als gemeinsame Faktoren bezeichnet. Es wird angenommen, dass jede Variable von einer linearen Kombination der gemeinsamen Faktoren abhängt, und die Koeffizienten werden als Faktorladungen bezeichnet. Jede gemessene Variable enthält auch eine Komponente aufgrund unabhängiger Zufallsvariabilität, die als spezifische Varianz bezeichnet wird, da sie nur für eine Variable gilt.
Autoencoder sind neuronale Netze, die darauf trainiert sind, ihre Eingabedaten zu replizieren. Autoencoder können für verschiedene Datentypen verwendet werden, darunter Bilder, Zeitreihen und Text. Ihre Einsatzmöglichkeiten sind vielfältig, beispielsweise in den Bereichen Anomalieerkennung, Textgenerierung, Bildgenerierung, Bildrauschunterdrückung und digitale Kommunikation. Oft werden Autoencoder auch zur Dimensionsreduktion eingesetzt. Diese Autoencoder bestehen dabei aus zwei kleineren Netzwerken: einem Encoder und einem Decoder. Im Zuge des Trainings erlernt der Encoder eine Reihe von Merkmalen aus den Eingangsdaten. Diese werden als latente Repräsentation bezeichnet. Gleichzeitig wird der Decoder darauf trainiert, die Daten auf Grundlage dieser Merkmale zu rekonstruieren.

Ein Autoencoder erkennt eine Anomalie (rotes r) in einem Bild (weißer Hintergrund mit schwarzem Punktmuster und rotem r). — Bildbasierte Anomalieerkennung mithilfe eines Autoencoders.

Assoziationsregeln

Das Lernen von Assoziationsregeln identifiziert relevante Zusammenhänge zwischen Variablen in großen Datenbanken. Bei Transaktionsdaten können beispielsweise Assoziationsregeln verwendet werden, um zu ermitteln, welche Artikel von den Benutzern am ehesten zusammen gekauft werden. Zu den Algorithmen, die beim Mining von Assoziationsregeln verwendet werden, gehören:

Apriori-Algorithmen identifizieren häufige vorkommende Sätze von Elementen in Daten durch eine Breitensuche und leiten aus diesen Elementsätzen dann Assoziationsregeln ab.
Algorithmen zur Äquivalenzklassenbildung und Bottom-up-Gitterdurchquerung (ECLAT) verwenden eine Tiefensuche, um häufige Elementmengen zu finden.

Assoziationsregeln finden ihre häufigsten Anwendungsfälle in der Warenkorbanalyse, können aber auch für die Predictive Maintenance eingesetzt werden. So können beispielsweise anhand der Daten verschiedener Sensoren Algorithmen verwendet werden, um ein Ausfallmuster zu identifizieren und Regeln zur Vorhersage von Komponentenausfällen zu erstellen.

Andere Methoden, die sich des unüberwachten Lernens bedienen, sind das teilüberwachte Lernen und das unüberwachte Feature Ranking. Beim teilüberwachten Lernen wird der Bedarf an gekennzeichneten Daten für das überwachte Lernen reduziert. Die Anwendung von Clustering auf den gesamten Datensatz stellt Ähnlichkeiten zwischen gekennzeichneten und nicht gekennzeichneten Daten fest, woraufhin die Kennzeichnungen auf zuvor nicht gekennzeichnete und ähnliche Clustermitglieder übertragen werden. Beim unüberwachten Feature Ranking werden Merkmalen ohne vorgegebenes Vorhersageziel oder ohne entsprechende Rückmeldung bestimmte Punktzahlen zugewiesen.

Dieses Thema vertiefen

Unüberwachtes Lernen im Machine Learning (4:15)

Clustering-Methoden zum unüberwachten Lernen

Unüberwachtes Lernen zur Erkennung von Anomalien

Die Bedeutung des unüberwachten Lernens

Das unüberwachte Lernen ist ein wichtiger Bereich des Machine Learning und der künstlichen Intelligenz, der eine entscheidende Rolle bei der Erforschung und dem Verständnis von Daten spielt. Im Gegensatz zum überwachten Lernen, bei dem Modelle anhand von gekennzeichneten Daten trainiert werden, arbeitet das unüberwachte Lernen mit nicht gekennzeichneten Daten, was es besonders wertvoll für reale Szenarien macht, in denen das Kennzeichnen von Daten oft teuer, zeitaufwendig oder unpraktisch ist.

Durch die Identifizierung verborgener Muster, Strukturen und Zusammenhänge in Daten ermöglicht das unüberwachte Lernen Unternehmen und Wissenschaftlern, aussagekräftige Erkenntnisse zu gewinnen, die zuvor nicht zugänglich waren. Zu den häufigsten Aufgaben beim unüberwachten Lernen gehören die Mustererkennung, explorative Datenanalyse, Segmentierung, Erkennung von Anomalien und Merkmalsreduktion.

Der Unterschied zwischen überwachtem und unüberwachtem Lernen

Beim überwachten Lernen wird ein Modell anhand eines gekennzeichneten Datensatzes trainiert, um eine Klassifizierung oder Regression durchzuführen. Das bedeutet, dass jedes Trainingsbeispiel mit einer Ausgabe-Kennzeichnung gekoppelt ist. Das Modell wird mithilfe eines bekannten Datensatzes (dem Trainingsdatensatz) mit einem bekannten Satz von Eingabedaten (den Merkmalen) und bekannten Antworten trainiert, um Vorhersagen zu treffen. Ein Beispiel für das überwachte Lernen ist die Vorhersage von Immobilienpreisen basierend auf Merkmalen wie Größe und Anzahl der Zimmer. Zu den gängigen Machine-Learning-Modellen gehören die lineare Regression, die logistische Regression, die k-Nearest-Neighbors-Methode (KNN) und die Support-Vector-Maschinen. Deep-Learning-Modelle werden ebenfalls mit großen Mengen an gekennzeichneten Daten trainiert und können häufig Merkmale direkt anhand dieser Daten lernen, ohne dass eine manuelle Merkmalsextraktion erforderlich ist.

Im Gegensatz dazu befasst sich das unüberwachte Lernen mit nicht gekennzeichneten Daten. Der Algorithmus für unüberwachtes Lernen versucht, die zugrunde liegende Struktur der Daten ohne Vorwissen zu erlernen. Das Hauptziel beim unüberwachten Lernen besteht darin, verborgene Muster oder intrinsische Strukturen in den Eingabedaten zu finden. Ein Beispiel für das unüberwachte Lernen ist das Gruppieren von Obst nach Ähnlichkeit in Farbe, Größe und Geschmack, ohne zu wissen, um welches Obst es sich handelt. Zu den gängigen Algorithmen für das unüberwachte Lernen gehören Clustering-Methoden wie k-means, hierarchisches Clustering und Techniken zur Dimensionsreduktion wie Hauptkomponentenanalyse (PCA).

Die Ergebnisse des unüberwachten Lernens sind in der Regel ungenauer als die Ergebnisse des überwachten Lernens, da keine gekennzeichneten Daten vorliegen. Die Beschaffung gekennzeichneter Daten erfordert jedoch menschliches Eingreifen und kann zeitaufwendig sein und in manchen Fällen sogar unmöglich sein, wie z. B. bei biologischen Daten. Die Ground-Truth-Kennzeichnung könnte zudem spezifisches Fachwissen erfordern; insbesondere bei der Kennzeichnung komplexer Signale, anders als bei Bildern von häufig vorkommenden Objekten.

Machine-Learning-Techniken: unbeaufsichtigtes Lernen (Clustering) und beaufsichtigtes Lernen (Klassifizierung und Regression). — Das überwachte und unüberwachte Lernen sind zwei Arten des Machine Learning.

Beispiele des unüberwachten Lernens

Die Fähigkeit des unüberwachten Lernens, verborgene Muster und Zusammenhänge zu erkennen, ohne dass vorab definierte Kennzeichnungen erforderlich sind, macht es zu einem unverzichtbaren Hilfsmittel in verschiedenen Anwendungen, darunter:

Explorative Datenanalyse: Es werden häufig Methoden des unüberwachten Lernens eingesetzt, um Daten zu untersuchen, verborgene inhärente Strukturen aufzudecken und daraus Erkenntnisse zu gewinnen. So kann beispielsweise mithilfe der Faktorenanalyse untersucht werden, ob Unternehmen innerhalb desselben Sektors von Woche zu Woche ähnliche Veränderungen des Aktienkurses erfahren.
Detektion von Anomalien: Für die Erkennung von Anomalien werden unüberwachte Lernmethoden wie Isolationswälder und Gaußsche Mischmodelle (GMM) eingesetzt.
Medizinische Bildgebung: Clustering, eine Form des unüberwachten Lernens, erweist sich als äußerst nützlich für die Bildsegmentierung. Clustering-Algorithmen können auf medizinische Bilder angewendet werden und diese anhand von Pixeldichte, Farbe oder anderen Merkmalen segmentieren. Ärzte können diese Informationen nutzen, um relevante Bereiche zu identifizieren, z. B. die Unterscheidung zwischen gesundem Gewebe und Tumoren oder die Segmentierung des Gehirns in weiße und graue Substanz sowie in Liquor.
Genomik und Bioinformatik: Das genetische Clustering und die Sequenzanalyse werden in der Bioinformatik eingesetzt. Zum Beispiel kann das Clustering verwendet werden, um Zusammenhänge zwischen Genexpressionsprofilen zu ermitteln.
Empfehlungssysteme: Unüberwachte Lerntechniken wie die Singulärwertzerlegung (SVD) werden beim kollaborativen Filtern verwendet, um die Interaktionsmatrix zwischen Benutzer und Artikel zu zerlegen. Dieser Ansatz wird von beliebten Videostreaming-Plattformen verwendet, um Nutzern individuelle Inhalte zu empfehlen.
Verarbeitung natürlicher Sprache (NLP): Bei der Verarbeitung natürlicher Sprache werden unüberwachte Lerntechniken für Aufgaben wie die Themenmodellierung, das Clustering von Dokumenten und die Erstellung von KI-Sprachmodellen eingesetzt.

Das unüberwachte Lernen findet in verschiedenen Bereichen zahlreiche Anwendungen. Durch die Identifizierung verborgener Muster und Zusammenhänge ermöglicht es das unüberwachte Lernen Ingenieuren und Wissenschaftlern, fundierte Entscheidungen zu treffen. Da die Datenmenge immer weiter exponentiell ansteigt, werden die Bedeutung und der Einfluss des unüberwachten Lernens weiter zunehmen.

Dieses Thema vertiefen

Segmentierung von Hirntumoren mithilfe von Fuzzy c-Means Clustering

Analyse der Lebensqualität in US-amerikanischen Städten mit PCA

Bildklassifizierung mithilfe von Autoencodern

Unüberwachtes Lernen mit MATLAB

MATLAB^® ermöglicht es Ihnen, Pipelines für unüberwachtes Lernen von der Datenvorbereitung bis zur Modellbewertung und -bereitstellung zu erstellen:

Mit der Statistics and Machine Learning Toolbox™ können Sie unüberwachte Lernmethoden wie Clustering und Dimensionsreduktion auf Ihre Daten anwenden und die Modellleistung evaluieren.
Die Deep Learning Toolbox™ ermöglicht das unüberwachte Lernen mit neuronalen Autoencoder-Netzen.
Über den MATLAB Coder™ können Sie C/C++ Code generieren, um unüberwachte Lernmethoden auf einer Vielzahl von Hardwareplattformen bereitzustellen.

Greifen Sie auf Daten zu, untersuchen Sie sie, nehmen Sie eine Vorverarbeitung vor, wenden Sie einen unüberwachten Lernalgorithmus an, werten Sie die Ergebnisse aus, um daraus Erkenntnisse zu gewinnen, und teilen Sie diese dann mithilfe von MATLAB. — Erweiterter Workflow für unüberwachtes Lernen in MATLAB.

Datenaufbereitung

Sie können Ihre Daten programmgesteuert bereinigen oder die Low-Code-App Data Cleaner und den Live-Editor-Task Preprocess Text Data für die interaktive Datenaufbereitung und automatische Codegenerierung verwenden.

Clustering

MATLAB unterstützt alle gängigen Clustering-Algorithmen, wie k-means, hierarchisch, DBSCAN und GMM. Mithilfe der Fuzzy Logic Toolbox™ können Sie auch ein Fuzzy-Clustering nach dem c-means-Verfahren auf Ihrem Datensatz durchführen.

Es ist auch möglich, k-means und hierarchisches Clustering interaktiv mithilfe des Live-Editor-Task Cluster Data durchzuführen. Spezifizieren Sie den Clustering-Algorithmus, die Anzahl der Cluster und die Distanzmetrik. Der Task berechnet die Clusterindizes und zeigt eine Visualisierung der geclusterten Daten an.

Die Benutzeroberfläche für den Task „Cluster Data“ im Live Editor mit dem resultierenden 2D-Streudiagramm (PCA). — k-means-Clustering mit dem Live-Editor-Task „Cluster Data“. (Siehe MATLAB-Dokumentation.)

Reduzierung der Dimensionalität

MATLAB unterstützt alle gängigen Techniken zur Reduzierung der Dimensionalität, einschließlich PCA, t-SNE und Faktorenanalyse. Sie können integrierte Funktionen verwenden, um diese Techniken auf Ihre Daten anzuwenden. Für PCA können Sie auch den Live-Editor-Task Reduce Dimensionality verwenden, um die Schritte interaktiv auszuführen.

Die Benutzeroberfläche für den Task "Reduce Dimensionality" im Live Editor mit dem resultierenden Scree-Test. — Reduzierung der Dimensionalität mithilfe eines Live-Editor-Task. (Siehe MATLAB-Dokumentation.)

Darüber hinaus können Sie mit MATLAB mithilfe von Laplace-Scores auch Merkmale für das unüberwachte Lernen gewichten.

Ergebnisauswertung

Sie können Cluster visualisieren, um die Clustering-Ergebnisse mithilfe von Streudiagrammen, Dendrogrammen und Silhouetten auszuwerten. Ebenso ist es möglich, die Ergebnisse der Clusterbildung zu bewerten, indem Sie die evalclusters-Funktion verwenden, um die optimale Anzahl von Datenclustern zu ermitteln. Damit Sie feststellen können, wie geeignet Ihre Daten für eine bestimmte Anzahl von Clustern sind, können Sie Indexwerte anhand verschiedener Bewertungskriterien wie Lücken oder Silhouette berechnen.

Zur Reduzierung der Dimensionalität können Sie Streudiagramme, Scree-Diagramme und Biplots verwenden, um die Ergebnisse zu überprüfen. Mit dem Live-Editor-Task Reduce Dimensionality lässt sich die Anzahl der Komponenten bestimmen, die erforderlich sind, um die Varianz eines festgelegten Prozentsatzes der Daten zu erklären, z. B. 95% oder 99%.