Überwachtes Lernen ist eine Methode des Machine Learning, die Modelle mit gekennzeichneten Daten trainiert, um Vorhersagen zu treffen. Beim überwachten Lernen erlernt ein Modell mithilfe eines Satzes bekannter Eingabedaten und Antworten, wie es eine Klassifikations- oder Regressionsaufgabe ausführt.
Die Funktionsweise des überwachten Lernens
Überwachtes Lernen ist die gängigste Methode des Machine Learning. Mit einem bekannten Datensatz (dem Trainingsdatensatz) wird ein Algorithmus mit einem bekannten Satz von Eingabedaten (den Merkmalen) und bekannten Antworten trainiert. Der Trainingsdatensatz beinhaltet gekennzeichnete Eingabedaten, die mit den gewünschten Ausgaben oder Antwortwerten gekoppelt sind. Aus diesem Datensatz versucht der Algorithmus zum überwachten Lernen ein Modell zu erstellen, indem er Beziehungen zwischen den Merkmalen und Ausgabedaten findet und dann Vorhersagen über die Antwortwerte für einen neuen Datensatz trifft.
Überwachtes Lernen lässt sich in verschiedenen technischen und wissenschaftlichen Bereichen einsetzen, um Modelle zu entwickeln, die reale Probleme lösen. Ein Beispiel wären medizinische Fachkräfte, die Daten zu früheren Patienten haben, darunter Alter, Gewicht, Größe und Blutdruck. Sie wissen, ob die früheren Patienten einen Herzinfarkt hatten, und möchten für einen neuen Patienten prognostizieren, ob bei ihm ein Herzinfarktrisiko besteht. Hier kann aus den vorhandenen Daten mithilfe des überwachten Lernens ein Modell erstellt werden.
Trainings- und Inferenzphase beim überwachten Lernen.
Ein typischer Workflow des überwachten Lernens umfasst Schritte wie die Datenaufbereitung, Algorithmenauswahl, Modelltraining und Modellauswertung. Da überwachtes Lernen zum Modelltraining auf gekennzeichnete Daten angewiesen ist, müssen die Trainingsdaten unbedingt realistisch sein. Soll das Modell beispielsweise in einer rauschintensiven Umgebung verwendet werden, müssen auch die Trainingsdaten ein realistisches Rauschniveau aufweisen. Die Validierung ist ein weiterer wichtiger Schritt beim überwachten Lernen, um sicherzustellen, dass das Modell auch bei unbekannten Daten gut generalisiert und keine Überanpassungen vornimmt.
Verbessern eines Modells zum überwachten Lernen
Ein Modell zum überwachten Lernen zu verbessern – also seine Genauigkeit und Vorhersagekraft zu erhöhen – beinhaltet häufig Feature Engineering (Merkmalserkundung und -transformation) und Anpassung der Hyperparameter. Beim Feature Engineering werden Rohdaten in Merkmale verwandelt, die als Eingaben in ein Machine-Learning-Modell verwendet werden. Das Anpassen der Hyperparameter beinhaltet das Ermitteln der Parametersätze, die das beste Modell liefern.
Anwenden von Feature Engineering und Anpassung der Hyperparameter, um die Leistung eines Modells zum überwachten Lernen zu verbessern.
Feature Engineering umfasst Schritte wie die Merkmalauswahl und die Merkmaltransformation. Bei der Merkmalauswahl werden die relevantesten Merkmale oder Variablen ermittelt, die beim Modellieren Ihrer Daten die beste Vorhersagekraft liefern. Während der Merkmaltransformation werden vorhandene Merkmale in neue verwandelt, und zwar mithilfe der Hauptkomponentenanalyse, nicht negativen Matrix-Faktorisierung, Faktoranalyse und anderen Methoden.
Beim Anpassen der Hyperparameter wird versucht, die besten Einstellungen für die Parameter zu finden, die den Lernprozess steuern, also Lernrate, Chargengröße und Anzahl von Epochen.
Überwachtes Lernen im Vergleich mit nicht überwachtem Lernen
Das überwachte und nicht überwachte Lernen sind zwei Arten des Machine Learning.
Zwei Arten des Machine Learning: überwachtes und nicht überwachtes Lernen.
Der Hauptunterschied zwischen überwachtem und nicht überwachtem Lernen liegt darin, dass Ersteres gekennzeichnete Trainingsdaten benötigt, um ein Machine-Learning-Modell zu trainieren. Im Gegensatz dazu verwendet das nicht überwachte Lernen nicht gekennzeichnete Daten, um ohne menschliches Eingreifen verborgene Beziehungen in den Daten zu finden. Die Ergebnisse des überwachten Lernens können durch das Vorhandensein gekennzeichneter Daten genauer als die des nicht überwachten sein. Das Erfassen gekennzeichneter Daten erfordert jedoch häufig menschliche Tätigkeit und kann zeitaufwendig, teuer und in gewissen Fällen auch unpraktisch sein.
Vor dem Anwenden des überwachten Lernens wird manchmal das nicht überwachte verwendet, um Muster in den Eingabedaten zu erkennen und Merkmale für das überwachte Lernen zu ermitteln. Zusätzlich zu den Merkmalen muss für alle Beobachtungen im Trainingssatz auch die richtige Kategorie oder Antwort identifiziert werden. Halb überwachtes Lernen, eine weitere Machine-Learning-Methode, ermöglicht das Trainieren von Modellen mit weniger gekennzeichneten Daten, verringert also den Kennzeichnungsaufwand.
Arten des überwachten Lernens
Die Grundarten der Machine-Learning-Modelle, die von Algorithmen zum überwachten Lernen erstellt werden, sind Klassifikations- und Regressionsmodelle. Für jede Art von Aufgabe, ob Klassifikation oder Regression, können verschiedene Algorithmen zur Datenmodellierung verwendet werden.
Arten von Algorithmen zum überwachten Lernen.
Überwachtes Lernen zur Klassifikation
Beim überwachten Lernen bezieht sich Klassifikation auf das Trennen der Daten in spezifische Klassen oder Kategorien. Das Ziel ist es, einer Beobachtung eine Klasse (oder eine Kennzeichnung) aus einem finiten Satz von Klassen zuzuweisen. Die Antworten eines Klassifikationsmodells sind also kategorische Variablen.
Zu den häufigsten Anwendungsmöglichkeiten gehören beispielsweise die medizinische Bildgebung, Spracherkennung und Bonitätsprüfungen. Es kann u. a. bestimmt werden, ob eine E-Mail echt oder Spam ist oder ob Ausrüstungsteile defekt oder in Ordnung sind.
| Logistische Regression passt ein Modell an, das die Wahrscheinlichkeit vorhersagen kann, ob eine binäre Antwort zu der einen oder anderen Klasse gehört. | Diskriminanzanalyse klassifiziert Daten dadurch, dass lineare Kombinationen aus Merkmalen durch die Annahme gefunden werden, dass verschiedene Klassen Daten auf Basis gaußscher Verteilungen generieren. | k-Nächster Nachbar (kNN) kategorisiert Objekte auf der Grundlage der Klassen ihrer nächsten Nachbarn im Datensatz. kNN-Vorhersagen gehen davon aus, dass nahe beieinanderliegende Objekte einander ähneln. | Naïve Bayes-Klassifizierer nehmen an, dass das Vorhandensein eines Merkmals in einer Klasse unabhängig von anderen Merkmalen ist. Dabei werden neue Daten auf der Grundlage der höchsten Wahrscheinlichkeit ihrer Zugehörigkeit zu einer bestimmten Klasse klassifiziert. |
|
|
|
|
|
Überwachtes Lernen zur Regression
Mit Regressionsmethoden beim überwachten Lernen kann die Beziehung zwischen Antwort und Eingabevariablen nachvollzogen werden. Sie sind nützlich für Datensätze mit einer Bereich von Werten oder wenn die Antwort eine reelle Zahl ist, wie Temperatur oder Zeit bis zum Geräteausfall. Regressionsmodelle prognostizieren also kontinuierliche Antworten. Typische Anwendungen sind Prognosen des Stromverbrauchs, die Vorhersage der verbleibenden Zykluslebensdauer von Batterien, algorithmischer Handel, Krankheitsgeschehen, Prognose von Aktienpreisen und die Verarbeitung akustischer Signale.
| Lineare Regression ist eine statistische Modellierungstechnik, mit der eine kontinuierliche Antwortvariable als lineare Funktion einer oder mehrerer Vorhersagevariablen beschrieben werden kann. Da lineare Regressionsmodelle einfach zu interpretieren und leicht zu trainieren sind, sind sie oft das erste Modell, das an einen neuen Datensatz angepasst wird. | Nichtlineare Regression ist eine statistische Modellierungstechnik, mit der sich nichtlineare Beziehungen in experimentellen Daten beschreiben lassen. Bei nichtlinearen Regressionsmodellen wird in der Regel davon ausgegangen, dass sie parametrisch sind, d. h., das Modell wird als nichtlineare Gleichung beschrieben. | Eine besondere Klasse nichtlinearer Modelle, die generalisierten linearen Modelle, verwenden lineare Methoden. Dabei wird eine lineare Kombination der Eingaben an eine nichtlineare Funktion (die Verknüpfungsfunktion) der Ausgaben angepasst. |
|
|
|
Überwachtes Lernen zur Klassifikation oder Regression
Mehrere Algorithmen zum überwachten Lernen können sowohl für Klassifikations- als auch Regressionsaufgaben verwendet werden.
| Mit Entscheidungsbäumen lassen sich Antworten auf Daten vorhersagen, indem man die Entscheidungen im Baum von der Wurzel (dem Anfang) bis hinunter zu einem Blattknoten verfolgt. Ein Baum besteht aus mehreren Verzweigungsbedingungen, bei denen der Wert eines Prädiktors mit einem trainierten Gewicht verglichen wird. Die Zweignummer und die Gewichtungswerte werden beim Trainieren ermittelt. | Support Vector Machines (SVMs) klassifizieren Daten, indem sie die Hyperebene finden, die am besten alle Datenpunkte einer Klasse von denen einer anderen trennt. Anstatt eine Hyperebene zu finden, die die Daten trennt, finden SVM-Regressionsalgorithmen ein Modell, das von den gemessenen Daten nur um einen kleinen Wert abweicht, wobei die Parameterwerte möglichst klein sind (um die Fehleranfälligkeit zu minimieren). | Neuronale Netze sind ein lernfähiges System, die mithilfe miteinander verbundener Knoten oder Neuronen in einer geschichteten Struktur, die dem menschlichen Gehirn ähnelt, Lernprozesse durchführen. Ein neuronales Netz kann aus Daten lernen und lässt sich so darauf trainieren, Muster zu erkennen, Daten zu klassifizieren und zukünftige Ereignisse vorherzusagen. Sein Verhalten wird durch die Art und Weise, wie die einzelnen Elemente miteinander verbunden sind, sowie durch die Stärke, also die Gewichtung, dieser Verbindungen bestimmt. Diese Gewichtungen werden beim Trainieren automatisch angepasst. |
|
|
|
Deep Learning, eine spezialisierte Form des Machine Learning, verarbeitet mit tiefen neuronalen Netzen komplexere Aufgaben und größere Datensätze. Beliebte Algorithmen zum Deep Learning, wie Convolutional Neural Networks (CNNs), rekurrente neuronale Netze (RNNs) und Long Short-Term Memory (LSTM)-Netze sind in der Regel überwacht.
Auswählen des passenden Algorithmus zum überwachten Lernen
Beim Auswählen eines Algorithmus zum überwachten Lernen für Ihre Daten sind Kompromisse bei den verschiedenen Algorithmen zu beachten, wie ihr Bedarf an Rechen- oder Speicherressourcen, prädiktive Genauigkeit und Interpretierbarkeit. Dieser Prozess kann ein gewisses Maß an Trial and Error (wiederholtem Ausprobieren) umfassen und mit automatisiertem Machine Learning (AutoML) vereinfacht werden.
Der Kompromiss zwischen Vorhersagekraft und Interpretierbarkeit für mehrere Algorithmen zum überwachten Lernen.
Die Bedeutung des überwachten Lernens
Überwachtes Lernen ist ein großer Bereich des Machine Learning und der künstlichen Intelligenz. Technik- und Wissenschaftsteams verwenden überwachtes Lernen, um KI-Modelle zum Lösen realer Probleme zu erstellen. Beim Modellieren virtueller Sensoren werden die zur Entwicklung dieser Sensoren verwendeten KI-Modelle beispielsweise mit Algorithmen zum überwachten Lernen trainiert. Einige der Anwendungsbereiche für überwachtes Lernen sind Folgende:
- Bioinformatik und Medizinprodukte: Methoden des überwachten Lernens finden breite Verwendung im Gesundheitswesen bei der medizinischen Bildgebung, der Tumorerkennung und der Wirkstoffentdeckung. Überwachtes Lernen kann auch für signalbasierte Aufgaben wie das Klassifizieren von EKG-Daten zur Unterscheidung zwischen Herzrhythmusstörung, Herzinsuffizienz und normalem Sinusrhythmus verwendet werden.
- Energieerzeugung: Mit überwachtem Lernen zur Regression ist es möglich, Energiepreise vorherzusagen, den Stromverbrauch zu prognostizieren und Modelle für verschiedene Anwendungen mit erneuerbaren Energien zu erstellen.
- Industrieautomation: Mit überwachtem Lernen können prädiktive Modelle zur Anomalieerkennung, Fehlererkennung und Diagnostik entwickelt werden.
- Quantitative Finanz- und Risikobeurteilung: Algorithmen zum überwachten Lernen werden bei der Bonitätsprüfung, beim algorithmischen Handel, bei Vorhersagen des Aktienpreises und bei der Klassifizierung von Anleihen eingesetzt.
Beispiel für reales überwachtes Lernen
Der Akkuladezustand ist das Ladeniveau eines Akkus bezogen auf seine Gesamtkapazität, ausgedrückt in Prozent. Der Ladezustand muss in vielen Anwendungen, beispielsweise Elektrofahrzeugen, genau geschätzt werden. Die Schätzung des Lithium-Ionen-Ladezustands mithilfe eines auf Physik basierenden Modellierungsansatzes ist aufgrund der wechselhaften Betriebsbedingungen und erheblicher Gerätevariabilität auch bei Akkus desselben Herstellers sehr komplex.
Das Nutzen des überwachten Lernens zum Erstellen eines prädiktiven Modells zur Ladezustandsschätzung ist ein datenbasiertes Vorgehen, mit dem diese Herausforderungen gemeistert werden können. Das Modell kann den Ladezustand des Lithium-Ionen-Akkus eines Fahrzeugs aus Zeitreihendaten prognostizieren, die verschiedene Akkumessungen wie Spannung, Stromstärke und Temperatur sowie abgeleitete Merkmale wie durchschnittliche Spannung und Stromstärke darstellen. Erfahren Sie mehr über dieses Beispiel.
Wahre im Vergleich zu mithilfe eines gaußschen Prozessregressionsmodell prognostizierten Ladezuständen in der Statistics and Machine Learning Toolbox. (Siehe Code.)
Überwachtes Lernen mit MATLAB
Mit MATLAB® können Sie überwachtes Lernen anwenden und prädiktive Modelle erstellen. Sie können Modelle zum überwachten Lernen mit der Statistics and Machine Learning Toolbox™ und der Deep Learning Toolbox™ trainieren, validieren und anpassen. Machine-Learning- und Deep-Learning-Tools lassen sich mit anderen MATLAB-Toolboxes kombinieren, um branchenspezifische Workflows auszuführen. Mithilfe integrierter Funktionen und interaktiver Apps können Sie Daten verarbeiten und kennzeichnen, Modelle trainieren, die Modellleistung visualisieren und Hyperparameter zur Verbesserung der Modellleistung anpassen.
Datenaufbereitung
MATLAB unterstützt Signal-, Text- und visuelle Daten. Sie können Ihre Daten auf der Befehlszeile oder interaktiv mit Low-Code-Apps öffnen und erkunden:
- Wählen Sie eine App zur Kennzeichnung von Ground-Truth-Daten, um Algorithmen zum überwachten Lernen zu validieren oder zu trainieren, beispielsweise Bildklassifizierer, Objektdetektoren, semantische Segmentierungsnetze und Deep-Learning-Anwendungen.
- Verwenden Sie die Data Cleaner-App und den Live Editor-Task Datenvorverarbeitung, um Daten aufzubereiten.
Anwenden der Daten-Vorverarbeitungsschritte mithilfe der Data Cleaner-App in MATLAB. (Siehe Dokumentation.)
Zum Feature Engineering verfügt MATLAB über integrierte Tools für die Mehrzahl der Methoden zur Merkmalsextraktion und der Merkmalauswahl.
KI-Modellierung mit Low-Code-Apps
Die Classification Learner-App und die Regression Learner-App unterstützen Sie beim Anwenden des überwachten Lernens, um Machine-Learning-Modelle zur Klassifikation und Regression zu entwerfen, anzupassen, zu beurteilen und zu optimieren. Mit diesen Machine-Learning-Apps können Sie Folgendes tun:
- Modelle an verschiedenen Machine-Learning-Algorithmen trainieren
- Ergebnisse visualisieren und die Modellleistung auswerten
- die Leistung mehrerer Modelle vergleichen
- automatisch Code für ein trainiertes Modell generieren
- ein trainiertes Modell in den Workspace, Simulink® und MATLAB Production Server™ exportieren
Classification Learner-App
Regression Learner-App
Mit der Deep Network Designer-App können Sie Deep-Learning-Netze interaktiv entwerfen, analysieren und modifizieren. Außerdem können Sie aus PyTorch® und TensorFlow™ vortrainierte Netze laden oder Netze importieren.
Entwerfen eines tiefen neuronalen Netzes mithilfe der Deep Network Designer-App in MATLAB. (Siehe Dokumentation.)
Abgesehen von der KI-Modellierung können Sie mit der Experiment Manager-App mehrere Machine-Learning- und Deep-Learning-Experimente importieren und verwalten, Trainingsparameter nachverfolgen, Hyperparameter anpassen, Ergebnisse analysieren und Code von verschiedenen Experimenten vergleichen.
Überwachtes Lernen und Embedded KI
Mit MATLAB und Simulink können Sie mit überwachtem Lernen erstellte KI-Modelle entwickeln, simulieren, testen, verifizieren und bereitstellen und damit die Leistung und Funktionalität komplexer Embedded Systems verbessern. Nutzen Sie dedizierte Simulink-Blöcke zum Simulieren und Testen der Integration von KI-Modellen in komplexe Systeme. Generieren Sie automatisch Code, der zur Bereitstellung bei eingeschränkten Ressourcen optimiert wurde.
Ressourcen
Erweitern Sie Ihre Kenntnisse durch Dokumentation, Beispiele, Videos und vieles mehr.
Dokumentation
- Verwendung von Wavelet-Zeitstreuung und SVM-Klassifizierern zur EKG-Signalklassifikation
- Prognose der verbleibenden Zykluslebensdauer von Batterien mithilfe der linearen Regression
- Bereitstellung von Signalklassifizierern auf NVIDIA Jetson mithilfe von Deep Learning
- Gestenerkennung mithilfe von Videos und Deep Learning
Mehr entdecken
- KI mit MATLAB: Tutorials und Beispiele
- KI-Kurse zum Selbststudium
- KI für die Signalverarbeitung
- KI für Computer Vision
- Vorausschauende Instandhaltung: Unüberwachtes und überwachtes Machine Learning (57:25) - Video
- Deep Learning für Ingenieure (5 Videos) - Videoreihe
- Was ist Zeitreihenprognose? (6:41) - Video
Ähnliche Themen
Sehen Sie sich weitere Themengebiete an, für die MATLAB- und Simulink-Produkte häufig zum Einsatz kommen.
Gratis testen
Jetzt startenWebsite auswählen
Wählen Sie eine Website aus, um übersetzte Inhalte (sofern verfügbar) sowie lokale Veranstaltungen und Angebote anzuzeigen. Auf der Grundlage Ihres Standorts empfehlen wir Ihnen die folgende Auswahl: .
Sie können auch eine Website aus der folgenden Liste auswählen:
So erhalten Sie die bestmögliche Leistung auf der Website
Wählen Sie für die bestmögliche Website-Leistung die Website für China (auf Chinesisch oder Englisch). Andere landesspezifische Websites von MathWorks sind für Besuche von Ihrem Standort aus nicht optimiert.
Amerika
- América Latina (Español)
- Canada (English)
- United States (English)
Europa
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)