Überwachtes Lernen

Was ist überwachtes Lernen?

Überwachtes Lernen ist eine Methode des Machine Learning, die Modelle mit gekennzeichneten Daten trainiert, um Vorhersagen zu treffen. Beim überwachten Lernen erlernt ein Modell mithilfe eines Satzes bekannter Eingabedaten und Antworten, wie es eine Klassifikations- oder Regressionsaufgabe ausführt.

Die Funktionsweise des überwachten Lernens

Überwachtes Lernen ist die gängigste Methode des Machine Learning. Mit einem bekannten Datensatz (dem Trainingsdatensatz) wird ein Algorithmus mit einem bekannten Satz von Eingabedaten (den Merkmalen) und bekannten Antworten trainiert. Der Trainingsdatensatz beinhaltet gekennzeichnete Eingabedaten, die mit den gewünschten Ausgaben oder Antwortwerten gekoppelt sind. Aus diesem Datensatz versucht der Algorithmus zum überwachten Lernen ein Modell zu erstellen, indem er Beziehungen zwischen den Merkmalen und Ausgabedaten findet und dann Vorhersagen über die Antwortwerte für einen neuen Datensatz trifft.

Überwachtes Lernen lässt sich in verschiedenen technischen und wissenschaftlichen Bereichen einsetzen, um Modelle zu entwickeln, die reale Probleme lösen. Ein Beispiel wären medizinische Fachkräfte, die Daten zu früheren Patienten haben, darunter Alter, Gewicht, Größe und Blutdruck. Sie wissen, ob die früheren Patienten einen Herzinfarkt hatten, und möchten für einen neuen Patienten prognostizieren, ob bei ihm ein Herzinfarktrisiko besteht. Hier kann aus den vorhandenen Daten mithilfe des überwachten Lernens ein Modell erstellt werden.

Ein vereinfachter Workflow des überwachten Lernens mit Daten und Kennzeichnungen als Eingaben in die Trainingsphase und neuen Daten mit einer prognostizierten Antwort in der Inferenzphase. — Trainings- und Inferenzphase beim überwachten Lernen.

Ein typischer Workflow des überwachten Lernens umfasst Schritte wie die Datenaufbereitung, Algorithmenauswahl, Modelltraining und Modellauswertung. Da überwachtes Lernen zum Modelltraining auf gekennzeichnete Daten angewiesen ist, müssen die Trainingsdaten unbedingt realistisch sein. Soll das Modell beispielsweise in einer rauschintensiven Umgebung verwendet werden, müssen auch die Trainingsdaten ein realistisches Rauschniveau aufweisen. Die Validierung ist ein weiterer wichtiger Schritt beim überwachten Lernen, um sicherzustellen, dass das Modell auch bei unbekannten Daten gut generalisiert und keine Überanpassungen vornimmt.

Verbessern eines Modells zum überwachten Lernen

Ein Modell zum überwachten Lernen zu verbessern – also seine Genauigkeit und Vorhersagekraft zu erhöhen – beinhaltet häufig Feature Engineering (Merkmalserkundung und -transformation) und Anpassung der Hyperparameter. Beim Feature Engineering werden Rohdaten in Merkmale verwandelt, die als Eingaben in ein Machine-Learning-Modell verwendet werden. Das Anpassen der Hyperparameter beinhaltet das Ermitteln der Parametersätze, die das beste Modell liefern.

Feature Engineering umfasst Schritte wie die Merkmalauswahl und die Merkmaltransformation. Bei der Merkmalauswahl werden die relevantesten Merkmale oder Variablen ermittelt, die beim Modellieren Ihrer Daten die beste Vorhersagekraft liefern. Während der Merkmaltransformation werden vorhandene Merkmale in neue verwandelt, und zwar mithilfe der Hauptkomponentenanalyse, nicht negativen Matrix-Faktorisierung, Faktoranalyse und anderen Methoden.

Beim Anpassen der Hyperparameter wird versucht, die besten Einstellungen für die Parameter zu finden, die den Lernprozess steuern, also Lernrate, Chargengröße und Anzahl von Epochen.

Überwachtes Lernen im Vergleich mit nicht überwachtem Lernen

Das überwachte und nicht überwachte Lernen sind zwei Arten des Machine Learning.

Methoden des überwachten Lernens umfassen Klassifikation und Regression, die des nicht überwachten Lernens das Clustering. — Zwei Arten des Machine Learning: überwachtes und nicht überwachtes Lernen.

Der Hauptunterschied zwischen überwachtem und nicht überwachtem Lernen liegt darin, dass Ersteres gekennzeichnete Trainingsdaten benötigt, um ein Machine-Learning-Modell zu trainieren. Im Gegensatz dazu verwendet das nicht überwachte Lernen nicht gekennzeichnete Daten, um ohne menschliches Eingreifen verborgene Beziehungen in den Daten zu finden. Die Ergebnisse des überwachten Lernens können durch das Vorhandensein gekennzeichneter Daten genauer als die des nicht überwachten sein. Das Erfassen gekennzeichneter Daten erfordert jedoch häufig menschliche Tätigkeit und kann zeitaufwendig, teuer und in gewissen Fällen auch unpraktisch sein.

Vor dem Anwenden des überwachten Lernens wird manchmal das nicht überwachte verwendet, um Muster in den Eingabedaten zu erkennen und Merkmale für das überwachte Lernen zu ermitteln. Zusätzlich zu den Merkmalen muss für alle Beobachtungen im Trainingssatz auch die richtige Kategorie oder Antwort identifiziert werden. Halb überwachtes Lernen, eine weitere Machine-Learning-Methode, ermöglicht das Trainieren von Modellen mit weniger gekennzeichneten Daten, verringert also den Kennzeichnungsaufwand.

Dieses Thema vertiefen

Einführung in das überwachte Lernen beim Machine Learning (4:35)

Workflow und Algorithmen zum überwachten Lernen

Die Grundlagen | Machine Learning leicht gemacht (7:07)

Arten des überwachten Lernens

Die Grundarten der Machine-Learning-Modelle, die von Algorithmen zum überwachten Lernen erstellt werden, sind Klassifikations- und Regressionsmodelle. Für jede Art von Aufgabe, ob Klassifikation oder Regression, können verschiedene Algorithmen zur Datenmodellierung verwendet werden.

Algorithmen zum überwachten Lernen, die für Klassifikationsmodelle verwendet werden, sind u. a. Naïve Bayes, nächster Nachbar und Diskriminanzanalyse. Algorithmen für Regressionsmodelle umfassen lineare Regression, generalisierte lineare Modelle und gaußscher Prozess. Support Vector Machines, Entscheidungsbäume, Ensemble-Methoden und neuronale Netze werden sowohl für Klassifikation und Regression verwendet. — Arten von Algorithmen zum überwachten Lernen.

Überwachtes Lernen zur Klassifikation

Beim überwachten Lernen bezieht sich Klassifikation auf das Trennen der Daten in spezifische Klassen oder Kategorien. Das Ziel ist es, einer Beobachtung eine Klasse (oder eine Kennzeichnung) aus einem finiten Satz von Klassen zuzuweisen. Die Antworten eines Klassifikationsmodells sind also kategorische Variablen.

Zu den häufigsten Anwendungsmöglichkeiten gehören beispielsweise die medizinische Bildgebung, Spracherkennung und Bonitätsprüfungen. Es kann u. a. bestimmt werden, ob eine E-Mail echt oder Spam ist oder ob Ausrüstungsteile defekt oder in Ordnung sind.

Beliebte Modelle zum überwachten Lernen für Klassifikationsaufgaben
Logistische Regression passt ein Modell an, das die Wahrscheinlichkeit vorhersagen kann, ob eine binäre Antwort zu der einen oder anderen Klasse gehört.	Diskriminanzanalyse klassifiziert Daten dadurch, dass lineare Kombinationen aus Merkmalen durch die Annahme gefunden werden, dass verschiedene Klassen Daten auf Basis gaußscher Verteilungen generieren.	k-Nächster Nachbar (kNN) kategorisiert Objekte auf der Grundlage der Klassen ihrer nächsten Nachbarn im Datensatz. kNN-Vorhersagen gehen davon aus, dass nahe beieinanderliegende Objekte einander ähneln.	Naïve Bayes-Klassifizierer nehmen an, dass das Vorhandensein eines Merkmals in einer Klasse unabhängig von anderen Merkmalen ist. Dabei werden neue Daten auf der Grundlage der höchsten Wahrscheinlichkeit ihrer Zugehörigkeit zu einer bestimmten Klasse klassifiziert.

Überwachtes Lernen zur Regression

Mit Regressionsmethoden beim überwachten Lernen kann die Beziehung zwischen Antwort und Eingabevariablen nachvollzogen werden. Sie sind nützlich für Datensätze mit einer Bereich von Werten oder wenn die Antwort eine reelle Zahl ist, wie Temperatur oder Zeit bis zum Geräteausfall. Regressionsmodelle prognostizieren also kontinuierliche Antworten. Typische Anwendungen sind Prognosen des Stromverbrauchs, die Vorhersage der verbleibenden Zykluslebensdauer von Batterien, algorithmischer Handel, Krankheitsgeschehen, Prognose von Aktienpreisen und die Verarbeitung akustischer Signale.

Beliebte Algorithmen zum überwachten Lernen für Regressionsaufgaben
Lineare Regression ist eine statistische Modellierungstechnik, mit der eine kontinuierliche Antwortvariable als lineare Funktion einer oder mehrerer Vorhersagevariablen beschrieben werden kann. Da lineare Regressionsmodelle einfach zu interpretieren und leicht zu trainieren sind, sind sie oft das erste Modell, das an einen neuen Datensatz angepasst wird.	Nichtlineare Regression ist eine statistische Modellierungstechnik, mit der sich nichtlineare Beziehungen in experimentellen Daten beschreiben lassen. Bei nichtlinearen Regressionsmodellen wird in der Regel davon ausgegangen, dass sie parametrisch sind, d. h., das Modell wird als nichtlineare Gleichung beschrieben.	Eine besondere Klasse nichtlinearer Modelle, die generalisierten linearen Modelle, verwenden lineare Methoden. Dabei wird eine lineare Kombination der Eingaben an eine nichtlineare Funktion (die Verknüpfungsfunktion) der Ausgaben angepasst.

Überwachtes Lernen zur Klassifikation oder Regression

Mehrere Algorithmen zum überwachten Lernen können sowohl für Klassifikations- als auch Regressionsaufgaben verwendet werden.

Beliebte Algorithmen zum überwachten Lernen sowohl für Klassifikations- als auch Regressionsaufgaben
Mit Entscheidungsbäumen lassen sich Antworten auf Daten vorhersagen, indem man die Entscheidungen im Baum von der Wurzel (dem Anfang) bis hinunter zu einem Blattknoten verfolgt. Ein Baum besteht aus mehreren Verzweigungsbedingungen, bei denen der Wert eines Prädiktors mit einem trainierten Gewicht verglichen wird. Die Zweignummer und die Gewichtungswerte werden beim Trainieren ermittelt.	Support Vector Machines (SVMs) klassifizieren Daten, indem sie die Hyperebene finden, die am besten alle Datenpunkte einer Klasse von denen einer anderen trennt. Anstatt eine Hyperebene zu finden, die die Daten trennt, finden SVM-Regressionsalgorithmen ein Modell, das von den gemessenen Daten nur um einen kleinen Wert abweicht, wobei die Parameterwerte möglichst klein sind (um die Fehleranfälligkeit zu minimieren).	Neuronale Netze sind ein lernfähiges System, die mithilfe miteinander verbundener Knoten oder Neuronen in einer geschichteten Struktur, die dem menschlichen Gehirn ähnelt, Lernprozesse durchführen. Ein neuronales Netz kann aus Daten lernen und lässt sich so darauf trainieren, Muster zu erkennen, Daten zu klassifizieren und zukünftige Ereignisse vorherzusagen. Sein Verhalten wird durch die Art und Weise, wie die einzelnen Elemente miteinander verbunden sind, sowie durch die Stärke, also die Gewichtung, dieser Verbindungen bestimmt. Diese Gewichtungen werden beim Trainieren automatisch angepasst.

Deep Learning, eine spezialisierte Form des Machine Learning, verarbeitet mit tiefen neuronalen Netzen komplexere Aufgaben und größere Datensätze. Beliebte Algorithmen zum Deep Learning, wie Convolutional Neural Networks (CNNs), rekurrente neuronale Netze (RNNs) und Long Short-Term Memory (LSTM)-Netze sind in der Regel überwacht.

Auswählen des passenden Algorithmus zum überwachten Lernen

Beim Auswählen eines Algorithmus zum überwachten Lernen für Ihre Daten sind Kompromisse bei den verschiedenen Algorithmen zu beachten, wie ihr Bedarf an Rechen- oder Speicherressourcen, prädiktive Genauigkeit und Interpretierbarkeit. Dieser Prozess kann ein gewisses Maß an Trial and Error (wiederholtem Ausprobieren) umfassen und mit automatisiertem Machine Learning (AutoML) vereinfacht werden.

Grafische Darstellung von Algorithmen zum überwachten Lernen, bei denen die Interpretierbarkeit auf der x-Achse und ihre Vorhersagekraft auf der y-Achse aufgetragen sind. — Der Kompromiss zwischen Vorhersagekraft und Interpretierbarkeit für mehrere Algorithmen zum überwachten Lernen.

Dieses Thema vertiefen

Der Weg zur automatischen Modellauswahl beim überwachten Lernen mithilfe der Bayes‘schen Optimierung

Zeitreihenanalyse und Prognose mit Deep Learning

Überwachtes und nicht überwachtes Machine Learning in MATLAB

Die Bedeutung des überwachten Lernens

Überwachtes Lernen ist ein großer Bereich des Machine Learning und der künstlichen Intelligenz. Technik- und Wissenschaftsteams verwenden überwachtes Lernen, um KI-Modelle zum Lösen realer Probleme zu erstellen. Beim Modellieren virtueller Sensoren werden die zur Entwicklung dieser Sensoren verwendeten KI-Modelle beispielsweise mit Algorithmen zum überwachten Lernen trainiert. Einige der Anwendungsbereiche für überwachtes Lernen sind Folgende:

Bioinformatik und Medizinprodukte: Methoden des überwachten Lernens finden breite Verwendung im Gesundheitswesen bei der medizinischen Bildgebung, der Tumorerkennung und der Wirkstoffentdeckung. Überwachtes Lernen kann auch für signalbasierte Aufgaben wie das Klassifizieren von EKG-Daten zur Unterscheidung zwischen Herzrhythmusstörung, Herzinsuffizienz und normalem Sinusrhythmus verwendet werden.
Energieerzeugung: Mit überwachtem Lernen zur Regression ist es möglich, Energiepreise vorherzusagen, den Stromverbrauch zu prognostizieren und Modelle für verschiedene Anwendungen mit erneuerbaren Energien zu erstellen.
Industrieautomation: Mit überwachtem Lernen können prädiktive Modelle zur Anomalieerkennung, Fehlererkennung und Diagnostik entwickelt werden.
Quantitative Finanz- und Risikobeurteilung: Algorithmen zum überwachten Lernen werden bei der Bonitätsprüfung, beim algorithmischen Handel, bei Vorhersagen des Aktienpreises und bei der Klassifizierung von Anleihen eingesetzt.

Beispiel für reales überwachtes Lernen

Der Akkuladezustand ist das Ladeniveau eines Akkus bezogen auf seine Gesamtkapazität, ausgedrückt in Prozent. Der Ladezustand muss in vielen Anwendungen, beispielsweise Elektrofahrzeugen, genau geschätzt werden. Die Schätzung des Lithium-Ionen-Ladezustands mithilfe eines auf Physik basierenden Modellierungsansatzes ist aufgrund der wechselhaften Betriebsbedingungen und erheblicher Gerätevariabilität auch bei Akkus desselben Herstellers sehr komplex.

Das Nutzen des überwachten Lernens zum Erstellen eines prädiktiven Modells zur Ladezustandsschätzung ist ein datenbasiertes Vorgehen, mit dem diese Herausforderungen gemeistert werden können. Das Modell kann den Ladezustand des Lithium-Ionen-Akkus eines Fahrzeugs aus Zeitreihendaten prognostizieren, die verschiedene Akkumessungen wie Spannung, Stromstärke und Temperatur sowie abgeleitete Merkmale wie durchschnittliche Spannung und Stromstärke darstellen. Erfahren Sie mehr über dieses Beispiel.

Fünf Liniendiagramme mit echten und mithilfe des überwachten Lernens prognostizierten Ladezuständen. Das erste zeigt die Trainingsdaten und in den anderen vier sind Testdaten zu sehen, die bei verschiedenen Temperaturen geplottet wurden. — Wahre im Vergleich zu mithilfe eines gaußschen Prozessregressionsmodell prognostizierten Ladezuständen in der Statistics and Machine Learning Toolbox. (Siehe Code.)

Dieses Thema vertiefen

Aufbau eines Bedingungsmodells für Industriemaschinen und Produktionsabläufe

So erstellen Sie mit Entscheidungsbäumen ein Tool zur automatischen Bonitätsprüfung

Nokia erstellt Machine-Learning-System zur Optimierung von Hardware-Entwurfstests

Überwachtes Lernen mit MATLAB

Mit MATLAB^® können Sie überwachtes Lernen anwenden und prädiktive Modelle erstellen. Sie können Modelle zum überwachten Lernen mit der Statistics and Machine Learning Toolbox^™ und der Deep Learning Toolbox^™ trainieren, validieren und anpassen. Machine-Learning- und Deep-Learning-Tools lassen sich mit anderen MATLAB-Toolboxes kombinieren, um branchenspezifische Workflows auszuführen. Mithilfe integrierter Funktionen und interaktiver Apps können Sie Daten verarbeiten und kennzeichnen, Modelle trainieren, die Modellleistung visualisieren und Hyperparameter zur Verbesserung der Modellleistung anpassen.

Datenaufbereitung

MATLAB unterstützt Signal-, Text- und visuelle Daten. Sie können Ihre Daten auf der Befehlszeile oder interaktiv mit Low-Code-Apps öffnen und erkunden:

Wählen Sie eine App zur Kennzeichnung von Ground-Truth-Daten, um Algorithmen zum überwachten Lernen zu validieren oder zu trainieren, beispielsweise Bildklassifizierer, Objektdetektoren, semantische Segmentierungsnetze und Deep-Learning-Anwendungen.
Verwenden Sie die Data Cleaner-App und den Live Editor-Task Datenvorverarbeitung, um Daten aufzubereiten.

Screenshot der Data Cleaner-App für den Schritt zur Bearbeitung von Ausreißern beim überwachten Lernen. — Anwenden der Daten-Vorverarbeitungsschritte mithilfe der Data Cleaner-App in MATLAB. (Siehe Dokumentation.)

Zum Feature Engineering verfügt MATLAB über integrierte Tools für die Mehrzahl der Methoden zur Merkmalsextraktion und der Merkmalauswahl.

KI-Modellierung mit Low-Code-Apps

Die Classification Learner-App und die Regression Learner-App unterstützen Sie beim Anwenden des überwachten Lernens, um Machine-Learning-Modelle zur Klassifikation und Regression zu entwerfen, anzupassen, zu beurteilen und zu optimieren. Mit diesen Machine-Learning-Apps können Sie Folgendes tun:

Modelle an verschiedenen Machine-Learning-Algorithmen trainieren
Ergebnisse visualisieren und die Modellleistung auswerten
die Leistung mehrerer Modelle vergleichen
automatisch Code für ein trainiertes Modell generieren
ein trainiertes Modell in den Workspace, Simulink^® und MATLAB Production Server™ exportieren

Classification Learner-App

Regression Learner-App

Mit der Deep Network Designer-App können Sie Deep-Learning-Netze interaktiv entwerfen, analysieren und modifizieren. Außerdem können Sie aus PyTorch^® und TensorFlow^™ vortrainierte Netze laden oder Netze importieren.

Screenshot eines tiefen neuronalen Netzes zum überwachten Lernen, erstellt in MATLAB. — Entwerfen eines tiefen neuronalen Netzes mithilfe der Deep Network Designer-App in MATLAB. (Siehe Dokumentation.)

Abgesehen von der KI-Modellierung können Sie mit der Experiment Manager-App mehrere Machine-Learning- und Deep-Learning-Experimente importieren und verwalten, Trainingsparameter nachverfolgen, Hyperparameter anpassen, Ergebnisse analysieren und Code von verschiedenen Experimenten vergleichen.

Überwachtes Lernen und Embedded KI

Mit MATLAB und Simulink können Sie mit überwachtem Lernen erstellte KI-Modelle entwickeln, simulieren, testen, verifizieren und bereitstellen und damit die Leistung und Funktionalität komplexer Embedded Systems verbessern. Nutzen Sie dedizierte Simulink-Blöcke zum Simulieren und Testen der Integration von KI-Modellen in komplexe Systeme. Generieren Sie automatisch Code, der zur Bereitstellung bei eingeschränkten Ressourcen optimiert wurde.

Dieses Thema vertiefen

Klassifizieren von Daten mithilfe der Classification Learner-App (4:34)

Erstellen eines Simulink-Modells zur Erkennung menschlicher Aktivität für die Smartphone-Bereitstellung

Erkennen von Übersteuern bei BMW-Automobilen mittels Machine Learning

Ressourcen

Erweitern Sie Ihre Kenntnisse durch Dokumentation, Beispiele, Videos und vieles mehr.

Überwachtes Lernen

Was ist überwachtes Lernen?

Die Funktionsweise des überwachten Lernens

Verbessern eines Modells zum überwachten Lernen

Überwachtes Lernen im Vergleich mit nicht überwachtem Lernen

Dieses Thema vertiefen

Arten des überwachten Lernens

Überwachtes Lernen zur Klassifikation

Überwachtes Lernen zur Regression

Überwachtes Lernen zur Klassifikation oder Regression

Auswählen des passenden Algorithmus zum überwachten Lernen

Dieses Thema vertiefen

Die Bedeutung des überwachten Lernens

Beispiel für reales überwachtes Lernen

Dieses Thema vertiefen

Überwachtes Lernen mit MATLAB

Datenaufbereitung

KI-Modellierung mit Low-Code-Apps

Classification Learner-App

Regression Learner-App

Überwachtes Lernen und Embedded KI

Dieses Thema vertiefen

Ressourcen

Dokumentation

Mehr entdecken

Ähnliche Themen