Hauptmerkmale

Learn how machine learning tools in MATLAB® can be used to solve regression, clustering, and classification problems.

Explorative Datenanalyse

Die Statistics and Machine Learning Toolbox™ bietet verschiedene Möglichkeiten zur Untersuchung von Daten: statistische Visualisierungen mit interaktiven Grafiken, Algorithmen zur Clusteranalyse und deskriptive Statistik für große Datensätze.


Statistische Darstellung mit interaktiver Virtualisierung

Die Statistics and Machine Learning Toolbox enthält Graphen und Diagramme, um Daten visuell zu untersuchen. Die Toolbox ergänzt die MATLAB® Plot-Funktionen mit Wahrscheinlichkeitsplots, Boxplots, Histogrammen, Scatter-Histogrammen, 3D-Histogrammen, Regelkarten und Quantil-Quantil-Diagrammen. Die Toolbox bietet auch spezielle Plots für multivariate Analysen, darunter Dendrogramme, Biplots, parallelle Koordinaten und Andrews-Diagramme.

Darstellung multivariater Daten mithilfe statistischer Diagramme.

Deskriptive Statistik

Mithilfe deskriptiver Statistik können Sie potenziell große Datenmengen mit wenigen hoch relevanten Zahlen schnell verstehen und beschreiben. Die Statistics and Machine Learning Toolbox umfasst Funktionen zur Berechnung von:

These functions help you summarize values in a data sample using a few highly relevant numbers.

Boxplot der Fahrzeugbeschleunigungsdaten, nach Ursprungsland gruppiert.

Resampling-Techniken

In einigen Fällen ist ein Rückschluss auf zusammenfassende Statistiken mithilfe parametrischer Methoden nicht möglich. Für solche Fälle bietet die Statistics and Machine Learning Toolbox Resampling-Techniken an, wie:

  • Zufälliges Sampling aus einem Datensatz mit oder ohne Ersetzung
  • Eine nichtparametrische Bootstrap-Funktion zur Untersuchung der Verteilung der Sample-Statistiken mithilfe von Resampling
  • Eine Jackknife-Funktion zur Untersuchung der Verteilung der Sample-Statistiken mithilfe von Jackknife-Resampling
  • Eine Bootci-Funktion zur Abschätzung von Konfidenzintervallen mithilfe von nichtparametrischem Bootstrapping
Resampling von LSAT-Werten und Durchschnittsnoten von Jurafakultäten zur Untersuchung der Korrelation.

Verringerung der Dimensionalität

Die Statistics and Machine Learning Toolbox stellt Algorithmen und Funktionen zur Verringerung der Dimensionalität Ihrer Datensätze bereit Verringerung der Dimensionalität ist ein wichtiger Schritt bei der Analyse Ihrer Daten, weil dadurch Modellgenauigkeit, -leistung und -interpretierbarkeit verbessert werden können und eine Überanpassung vermieden wird. Sie können eine Merkmalstransformation bzw. -selektion und die Zusammenhänge zwischen den Variablen untersuchen mithilfe von Visualisierungstechniken wie Streudiagramm-Matrizen und klassischer multidimensionaler Skalierung.


Merkmalstransformation

Die Merkmalstransformation (manchmal auch als Merkmalsextraktion bezeichnet) ist eine Technik zur Verringerung der Dimensionalität, mit der bestehende Merkmale in neue Merkmale (Prädiktorvariablen) umgewandelt werden, wobei weniger aussagekräftige Merkmale weggelassen werden können. Beispiele für in der Statistics and Machine Learning Toolbox verfügbare Merkmalstransformationsmethoden:

Durchführung gewichteter Hauptkomponentenanalyse und Interpretation der Ergebnisse.

Merkmalsauswahl

Die Merkmalsauswahl ist eine Technik zur Verringerung der Dimensionalität, bei der nur die Teilmenge der gemessenen Merkmale (Prädiktorvariablen) ausgewählt wird, die bei der Modellierung der Daten die beste Vorhersage liefert. Sie ist nützlich, wenn Sie mit hochdimensionalen Daten arbeiten oder das Erfassen der Daten für alle Merkmale zu aufwändig ist. Beispiele für in der Statistics and Machine Learning Toolbox verfügbare Merkmalsauswahlmethoden:

  • Schrittweise Regression: Fügt Merkmale schrittweise hinzu oder entfernt sie, bis sich die Prognosegenauigkeit nicht mehr verbessert. Sie kann mit linearer Regression oder generalisierten linearen Regressionsalgorithmen verwendet werden.
  • Sequenzielle Merkmalsauswahl: Ist der schrittweisen Regression ähnlich und kann zusammen mit jedem Algorithmus für überwachtes Machine Learning und einem benutzerdefinierten Leistungsmaß verwendet werden.
  • Entscheidungsbäume mit Boosting und Bagging: Ensemblemethoden, die die variable Bedeutung von Out-of-Bag-Schätzungen berechnen
  • Regularisierung (Lasso und elastische Netze): Verwendung von Shrinkage-Schätzfunktionen zur Entfernung von redundanten Merkmalen, indem ihre Gewichtungen (Koeffizienten) auf null reduziert werden.

Multivariate Visualisierung

Die Statistics and Machine Learning Toolbox bietet Graphen und Diagramme, um multivariate Daten visuell untersuchen zu können, darunter:

  • Streudiagramm-Matrizen
  • Dendrogramme
  • Biplots
  • Parallele Koordinaten
  • Andrews-Diagramme
  • Glyph-Diagramme
Gruppen-Streudiagramm-Matrix, die zeigt, wie das Modelljahr unterschiedliche Parameter bei Autos beeinflusst.

Machine Learning

Algorithmen für Machine Learning verwenden Berechnungsmethoden, um Informationen direkt aus Daten zu „lernen“, ohne vorher eine bestimmte Gleichung als Modell anzunehmen. Statistics and Machine Learning Toolbox bietet Methoden für die Durchführung von überwachtem und unüberwachtem maschinellem Lernen.

In diesem Webinar lernen Sie die ersten Schritte bei der Verwendung von Machine-Learning-Tools kennen, um in Ihren Datensätzen Muster zu erkennen und Prognosemodelle zu erstellen.

Klassifikation

Mithilfe von Klassifikationsalgorithmen können Sie eine kategorische Antwortvariable als Funktion von einem oder mehreren Prädiktoren modellieren. Die Statistics and Machine Learning Toolbox bietet eine App und Funktionen, die eine Vielzahl parametrischer und nichtparametrischer Klassifikationsalgorithmen abdecken, wie:

Lernen Sie, wie Sie optimale Parameter eines kreuzvalidierten SVM-Klassifizierers mithilfe der Bayes'schen Optimierung finden.

Classification Learner-App

Sie können die Classification Learner-App zur Durchführung von typischen Aufgabenstellungen wie der interaktiven Datenanalyse, Auswahl von Prädiktoren, Festlegung von Schemata zur Kreuzvalidierung, Training von Modellen und Bewertung der Ergebnisse einsetzen. Mit der Classification Learner-App können Sie mittels Methoden des überwachten maschinellen Lernens Modelle trainieren, welche Daten klassifizieren. Sie können die App zur Durchführung typischer Aufgabenstellungen verwenden, z. B.

  • Datenimport und Festlegen von Schemata zur Kreuzvalidierung
  • Untersuchung der Daten und Auswahl von Prädiktoren
  • Trainieren von Modellen mit verschiedenen Klassifizierungsalgorithmen
  • Vergleich und Bewertung von Modellen
  • Weitergabe von trainierten Modellen zur Verwendung in Anwendungen wie z. B. Maschinelles Sehen und Signalverarbeitung
The Classification Learner app lets you train models to classify data using supervised machine learning.

Clusteranalyse

Die Statistics and Machine Learning Toolbox umfasst Algorithmen für die Durchführung von Clusteranalysen zur Erkennung von Mustern in Ihrem Datensatz durch Gruppieren der Daten anhand von Ähnlichkeitsmaßen. Die verfügbaren Algorithmen umfassen k-means, k-medoidshierarchisches ClusteringGauß‘sche Mischverteilungsmodelle und Hidden-Markov-Modelle. Wenn die Clusteranzahl unbekannt ist, können Sie Techniken zur Clusterbewertung verwenden, um die Anzahl der in den Daten vorhandenen Cluster basierend auf einer spezifizierten Metrik zu bestimmen.

Erfahren Sie, wie Muster in Genexpressionsprofilen durch Untersuchung der Daten entdeckt werden können.

Nichtparametrische Regression

Die Statistics and Machine Learning Toolbox unterstützt auch nichtparametrische Regressionstechniken zur Erzeugung eines präzisen Fits, ohne ein explizites Modell, das die Beziehung zwischen Prädiktor und Antwort beschreibt, vorzugeben. Nichtparametrische Regressionstechniken können im überwachten maschinellen Lernen zur Regression noch breiter eingeordnet werden. Dazu gehören Entscheidungsbäume, Regressionsbäume mit Boosting oder Bagging sowie Support Vector Machine-Regression.

Prognose des Versicherungsrisikos mittels Trainings eines Ensembles von Regressionsbäumen mithilfe von TreeBagger.

Regression und ANOVA


Regression

Mithilfe von Regressionstechniken können Sie eine kontinuierliche Ausgangsvariable als Funktion von einem oder mehreren Prädiktoren modellieren. Die Statistics and Machine Learning Toolbox bietet verschiedene Regressionsalgorithmen, darunter lineare Regression, generalisierte lineare Modelle, nichtlineare Regression und Mixed-Effects-Modelle.


Lineare Regression

Die lineare Regression ist eine statistische Modellierungsmethode, um eine kontinuierliche Ausgangsvariable als Funktion von einer oder mehreren Prädiktorvariablen zu beschreiben. Sie kann helfen, das Verhalten von komplexen Systemen zu verstehen und vorherzusagen oder experimentelle, finanzielle und biologische Daten zu analysieren. Die Statistics and Machine Learning Toolbox bietet mehrere Arten linearer Regressionsmodelle und Fit-Methoden, darunter:

  • Einfach: Modell mit nur einem Prädiktor
  • Mehrfach: Modell mit mehreren Prädiktoren
  • Multivariat: Modell mit mehreren Ausgangsvariablen
  • Robust: Modell in Gegenwart von Ausreißern
  • Schrittweise: Modell mit automatischer Variablenauswahl
  • Regularisiert: Modell, das mit redundanten Prädiktoren umgehen und Überanpassung durch Verwendung von Ridge-, Lasso- und elastischen Netz-Algorithmen vermeiden kann

Nichtlineare Regression

Die nichtlineare Regression ist eine statistische Modellierungsmethode, mit der nichtlineare Beziehungen in experimentellen Daten beschrieben werden können. Nichtlineare Regressionsmodelle gelten im Allgemeinen als parametrisch, wobei das Modell als nichtlineare Gleichung beschrieben wird. Die Statistics and Machine Learning Toolbox bietet außerdem robuste nichtlineare Fit-Methoden an, um mit Ausreißern im Datensatz umzugehen.

Verwendung von Diagnosediagrammen zur Untersuchung eines angepassten nichtlinearen Modells mithilfe von Diagnose-, Rest- und Slicediagrammen.

Generalisierte lineare Modelle

Generalisierte lineare Modelle sind ein Sonderfall von nichtlinearen Modellen, die lineare Methoden nutzen. Mit ihnen können abhängige Variablen Nicht-Normalverteilungen aufweisen und über eine Verbindungsfunktion wird beschrieben, wie der erwartete Antwortwert mit den linearen Prädiktoren zusammenhängt. Die Statistics and Machine Learning Toolbox unterstützt das Fitten generalisierter linearer Modelle mit den folgenden Antwortverteilungen:

  • Normal
  • Binomial (logistische oder Probit-Regression)
  • Poisson
  • Gamma
  • Inverse Gauß-Verteilung
Generalisierter lineare Modelle werden mit glmfit und glmval angepasst und ausgewertet.

Mixed-Effects-Modelle

Lineare und nichtlineare Mixed-Effects-Modelle sind Verallgemeinerungen von linearen und nichtlinearen Modellen für Daten, die erfasst und in Gruppen zusammengefasst werden. Diese Modelle beschreiben die Beziehung zwischen einer Ausgangsvariable und unabhängigen Eingangsvariablen mit Koeffizienten, die hinsichtlich einer oder mehrerer Gruppenvariablen variieren können. Die Statistics and Machine Learning Toolbox unterstützt das Fitten von mehrstufigen oder hierarchischen, linearen, nichtlinearen und generalisierten Mixed-Effects-Modellen mit eingebetteten und/oder crossed Random Effects, die zur Durchführung einer Vielzahl von Studien genutzt werden können, wie z. B.

Generalisierte lineare Modelle werden mit nlmefit und nlmefitsa angepasst und ausgewertet.

Modellbewertung

Mit der Statistics and Machine Learning Toolbox können Sie eine Modellbewertung für Regressionsalgorithmen unter Verwendung von Tests zur statistischen Signifikanz und Maßen der Anpassungsgüte vornehmen. Beispiele sind:

  • F-Test und T-Test
  • R2 und angepasster R2
  • Kreuzvalidiertes mittleres Fehlerquadrat
  • Akaike Informationskriterium (AIC) und Bayes‘sches Informationskriterium (BIC)

Sie können Konfidenzintervalle sowohl für Regressionskoeffizienten als auch für vorhergesagte Werte berechnen.


ANOVA

Bei der Varianzanalyse (Analysis of Variance, ANOVA) können Sie Stichprobenvarianzen verschiedenen Quellen zuordnen und bestimmen, ob die Abweichung innerhalb oder zwischen verschiedenen Populationsgruppen entsteht. Die Statistics and Machine Learning Toolbox umfasst diese ANOVA Algorithmen und damit verbundene Techniken:

Ausführung von N-Weg-ANOVA an Automobildaten mit Kilometerstand- und anderen Informationen an 406 von 1970 bis 1982 hergestellten Wagen.

Wahrscheinlichkeitsverteilungen

Die Statistics and Machine Learning Toolbox umfasst Funktionen und eine App zur Arbeit mit parametrischen und nichtparametrischen Wahrscheinlichkeitsverteilungen. Mit diesen Werkzeugen können Sie kontinuierliche und diskrete Verteilungen anpassen, statistische Diagramme zur Bewertung der Anpassung verwenden, Wahrscheinlichkeitsdichtefunktionen und kumulative Verteilungsfunktionen berechnen und Zufalls- und Quasi-Zufallszahlen aus Wahrscheinlichkeitsverteilungen generieren.

Sie können mit der Toolbox zufällige und pseudo-zufällige Zahlenreihen und Stichproben und Anpassungsbewertungen für über 40 verschiedenen Verteilungen berechnen, anpassen und erzeugen, darunter:


Fitten von Verteilungen an Daten

Mit der Distribution Fitting App können Sie Daten mithilfe vordefinierter univariater Wahrscheinlichkeitsverteilungen, einer nichtparametrischen (Kernel-glättenden) Schätzfunktion oder einer benutzerdefinierten Verteilung anpassen. Diese App unterstützt sowohl vollständige Datensätze als auch zensierte (Zuverlässigkeit) Daten. Sie können Daten ausschließen, Sitzungen speichern und laden und MATLAB Code erzeugen. Sie können auch in der Kommandozeile Verteilungsparameter abschätzen oder Wahrscheinlichkeitsverteilungen konstruieren, die den gegebenen Parametern entsprechen.

Mit der Distribution Fitting App können Sie eine Wahrscheinlichkeitsverteilung interaktiv an Daten anpassen.

Bewerten der Anpassungsgüte

Die Statistics and Machine Learning Toolbox bietet statistische Plots zur Beurteilung, wie gut ein Datensatz zu einer bestimmten Verteilung passt Die Toolbox enthält Wahrscheinlichkeitsplots für eine Vielzahl von Standardverteilungen, darunter Normal-, Exponential-, Extremwert-, lognormal-, Rayleigh- und Weibull-Verteilung. Sie können Wahrscheinlichkeitsplots aus vollständigen und zensierten Datensätzen generieren. Zusätzlich haben Sie die Möglichkeit, mithilfe von Quantil-Quantil-Plots zu bewerten, wie gut eine gegebene Verteilung mit einer Standard-Normalverteilung übereinstimmt.

Die Statistics and Machine Learning Toolbox stellt auch Hypothesentests zur Verfügung, um zu beurteilen, ob ein Datensatz mit verschiedenen Wahrscheinlichkeitsverteilungen konsistent ist. Zu den Tests spezifischer Verteilungen zählen:

  • Anderson-Darling-Tests
  • Einseitige und zweiseitige Kolmogorov-Smirnov-Tests
  • Chi-Quadrat-Anpassungstests
  • Lillefros-Tests
  • Ansari-Bradley-Tests
  • Jarque-Bera-Tests
  • Durbin-Watson-Tests
Maximum Likelihood-Schätzung für gestutzte, gewichtete oder bimodale Daten.

Erzeugung von Zufallszahlen

Die Toolbox bietet Funktionen zur Erzeugung pseudo-zufälliger und quasi-zufälliger Zahlenreihen aus Wahrscheinlichkeitsverteilungen. Sie können Zufallszahlen aus einer gefitteten oder konstruierten Wahrscheinlichkeitsverteilung generieren, indem Sie die Methode random nutzen. Die Statistics and Machine Learning Toolbox bietet außerdem Funktionen für:

  • Die Erzeugung von zufälligen Stichproben aus multivariaten Verteilungen, wie t, Normal, Copulas und Wishart
  • Das Sampling aus endlichen Populationen
  • Die Durchführung von Latin-Hypercube-Sampling
  • Die Erzeugung von Stichproben aus Pearson- und Johnson-Verteilungssystemen

Sie können auch quasi-zufällige Zahlenreihen generieren. Quasi-zufällige Zahlenreihen erzeugen in hohem Maße uniforme Stichproben aus dem Einheits-Hypercube. Quasi-zufällige Zahlenreihen können Monte-Carlo-Simulationen häufig beschleunigen, da weniger Proben erforderlich sind, um eine volle Abdeckung zu erreichen.

Nutzen Sie Copulas zur Generierung von Daten aus multivariaten Verteilungen, wenn komplizierte Beziehungen zwischen den Variablen vorliegen oder einzelne Variablen aus unterschiedlichen Verteilungen stammen.

Hypothesentests, statistische Versuchsplanung (DOE) und statistische Verfahrenskontrolle


Hypothesentests

Zufällige Variationen können es erschweren festzustellen, ob Stichproben, die unter unterschiedlichen Bedingungen erhoben wurden, sich tatsächlich unterscheiden. Hypothesentests stellen ein effektives Werkzeug dar, um zu analysieren, ob Unterschiede zwischen Stichproben signifikant sind und weiterer Auswertung bedürfen oder mit zufälligen und erwarteten Datenabweichungen konsistent sind.

Die Statistics and Machine Learning Toolbox unterstützt häufig verwendete parametrische und nichtparametrische Hypothesentestverfahren, darunter:

  • t-tests mit einer oder zwei Stichproben
  • Nicht-parametrische Tests für eine Stichprobe, gepaarte Stichproben und zwei unabhängige Stichproben
  • Verteilungstests (Chi-Quadrat, Jarque-Bera, Lilliefors und Kolmogorov-Smirnov)
  • Vergleich von Verteilungen (Zwei-Stichproben Kolmogorov-Smirnov)
  • Tests auf Autokorrelation und Zufälligkeit
  • Lineare Hypothesentests von Regressionskoeffizienten
Berechnung der für einen Hypothesentest erforderlichen Stichprobengröße.

Statistische Versuchsplanung (DOE)

Sie können die Statistics and Machine Learning Toolbox verwenden, um eine individuelle statistische Versuchsplanung (Design of Experiments, DOE) zu definieren, zu analysieren und zu visualisieren. Mit Funktionen für die DOE können Sie Pläne zur Erhebung von Daten für die statistische Modellierung erstellen und testen. Die Pläne zeigen, wie Eingangsdaten variiert werden müssen, um Informationen über ihre Wirkung auf die Datenausgaben zu erhalten. Unterstützte Entwurfstypen sind u. a.

  • Voll faktoriell
  • Teilfaktoriell
  • Response Surface (central composite und Box-Behnken)
  • D-optimal
  • Latin-Hypercube

Es ist beispielsweise möglich, Inputeffekte und -interaktionen durch ANOVA, lineare Regression und Response Surface Modellierung abzuschätzen und sich dann die Ergebnisse in Haupteffektplots, Interaktionsplots und multivariaten Charts anzusehen.

Generierung von Central-Composite- und Box-Behnken-Designs.

Statistische Verfahrenskontrolle

Die Statistics and Machine Learning Toolbox stellt eine Reihe von Funktionen zur Verfügung, die die statistische Prozesssteuerung (SPC) unterstützen. Mit diesen Funktionen können Sie Produkte oder Prozesse durch Auswertung der Prozessvariabilität überwachen und verbessern. Mit SPC-Funktionen können Sie:

  • Wiederholbarkeits- und Reproduzierbarkeitsstudien durchführen
  • Prozessfähigkeiten abschätzen
  • Kontrolldiagramme erstellen
  • Westen Electric- und Nelson-Steuerregeln auf Kontrolldiagrammdaten anwenden
Visualisieren der Kontrollgrenzen des Motorgebläsekühlprozesses mithilfe von Regelkarten.

Big Data, Parallel Computing und Codeerstellung

Nutzen Sie MATLAB-Tools mit der Statistics and Machine Learning Toolbox, um rechenaufwändige und datenintensive statistische Analysen durchzuführen.


Big Data

Sie können viele der Toolbox-Funktionen mit Tall Arrays und Tall Tables verwenden, um statistische und Funktionen des maschinellen Lernens auf Out-of-Memory-Daten mit einer beliebigen Anzahl von Zeilen anzuwenden. Dadurch können Sie den vertrauten MATLAB-Code nutzen, um auf lokalen Datenträgern mit großen Datensätzen zu arbeiten. Sie können auch mit dem MATLAB Compiler™ den gleichen MATLAB-Code verwenden, um in Big-Data-Umgebungen wie z. B. Hadoop® zu arbeiten.

In der Toolbox-Dokumentation finden Sie eine vollständige Liste der unterstützten Funktionen.

Prognose von Abflugverzögerungen basierend auf einer Reihe von Variablen.

Parallel Computing

Sie können die Statistics and Machine Learning Toolbox zusammen mit der Parallel Computing Toolbox™ verwenden, um statistische Berechnungen zu beschleunigen, darunter:

In der Toolbox-Dokumentation finden Sie eine vollständige Liste der unterstützten Funktionen.

Ausführung der Regression der Versicherungsrisikoeinstufungen für Importfahrzeuge parallel mit TreeBagger.

C-Codegenerierung

Sie können die Toolbox zusammen mit MATLAB Coder™ verwenden, um portierbaren und lesbaren C-Code für ausgewählte Funktionen für Klassifikation, Regression, Clustering, deskriptive Statistik und Wahrscheinlichkeitsverteilungen zu generieren. Mit dem erzeugten Code können Sie Statistik und Machine Learning für Folgendes anwenden für die:

  • Entwicklung von Embedded Systems
  • Integration in andere Softwareumgebungen
  • Beschleunigung von berechnungsintensivem MATLAB-Code

Weitere Einzelheiten finden Sie in der vollständigen Liste der unterstützten Funktionen zur C-Codegenerierung.

Generierung von C-Code für eine MATLAB-Funktion zur Schätzung der Position eines bewegten Objekts basierend auf vorhergehenden verrauschten Messungen.