Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analyse und Modellierung von Daten mithilfe von Statistik und Machine Learning

Jetzt beginnen:

Explorative Datenanalyse

Untersuchung von Daten mithilfe statistischer Diagramme mit interaktiver Grafik und deskriptiven Statistiken. Identifizierung von Mustern und Merkmalen mit Clustering.

Visualisierungen

Visuelle Untersuchung von Daten mit Wahrscheinlichkeitsdiagrammen, Boxplot-Diagrammen, Histogrammen und Quantil-Quantil-Diagrammen sowie erweiterten Diagrammen für die multivariate Analyse wie Dendrogrammen, Biplot- und Andrews-Diagrammen.

Visuelle Identifizierung der Auswirkungen verschiedener Fahrzeugeigenschaften auf die Verbrauchswerte.

Mit einer mehrdimensionalen Punktwolke lassen sich die Beziehungen zwischen den Variablen untersuchen.

Deskriptive Statistik

Potenziell umfangreiche Datensätze mit wenigen, hoch relevanten Zahlen werden schnell verstanden und beschrieben.

Sie erkennen den Wertebereich der potenziellen Prädiktorvariablen mithilfe von Mittelwerten und Boxplot-Diagrammen.

Sie können Ihre Daten mithilfe gruppierter Mittelwerte und Varianzen untersuchen.

Clusteranalyse

Erkennen Sie die Muster durch die Gruppierung der Daten mit k-Mittelwerten, k-Medoiden, DBSCAN, hierarchischem und spektralem Clustering sowie mit Gaußschen Mischverteilungs- und Hidden-Markov-Modellen.

DBSCAN kann Cluster separieren, wenn andere Clustering-Methoden fehlschlagen.

Anwendung von DBSCAN auf zwei konzentrische Gruppen.

Merkmalsextraktion und Dimensionalitätsreduktion

Umwandlung von Rohdaten in Merkmale, die für Machine Learning geeignet sind. Iterative Untersuchung und Entwicklung neuer Merkmale sowie Auswahl der Merkmale, mit denen die Leistung optimiert werden kann.

Merkmalsextraktion

Merkmalsextraktion aus Daten mithilfe nicht überwachter Lerntechniken wie Grobfilterung und Rekonstruktions-ICA. Verwendung spezialisierter Verfahren zur Extraktion von Merkmalen aus Bildern, Signalen, Text und numerischen Daten. Automatische Generierung neuer Merkmale aus tabellarischen Daten für Klassifizierung und Regression.

Signale aus Mobilgeräten eines Beschleunigungsmessers und Gyroskops werden zur Klasseneinteilung der aktuellen Tätigkeit (stehen, gehen, sitzen etc.) genutzt.

Merkmalsextraktion aus Signalen, die von Mobilgeräten bereitgestellt werden. 

Merkmalsauswahl

Die Teilmenge der Merkmale, die die beste Prognosefähigkeit bei der Datenmodellierung liefert, wird automatisch identifiziert. Die Methoden zur Merkmalsauswahl umfassen die schrittweise Regression, sequentielle Merkmalsauswahl, Regularisierung und Ensemble-Methoden.

Mit der NCA wird die Bedeutung der einzelnen Merkmale für die Vorhersage geschätzt. Merkmale mit geringer Bedeutung können ausgeschlossen werden.

Die NCA unterstützt die Auswahl der Merkmale, mit denen die Genauigkeit des Modells weitgehend erhalten bleibt.

Merkmalsumwandlung und Dimensionalitätsreduktion

Reduzieren Sie die Dimensionalität durch die Umwandlung der vorhandenen (nicht kategorischen) Merkmale in neue Prädiktorvariablen, wobei weniger deskriptive Merkmale ausgelassen werden können. Die Methoden für die Merkmalsumwandlung umfassen PCA, Faktoranalyse und nicht-negative Matrix-Faktorisierung.

Die Länge der Vektoren, die den Beitrag der einzelnen Variablen zu den Hauptkomponenten abbildet, zeigt deren Bedeutung: in diesem Beispiel neun sozioökonomische Variablen für die Lebensqualität in den USA.

Mit PCA können zwei hochdimensionale Vektoren auf ein orthogonales Koordinatensystem gelegt werden, wobei ihre Informationen weitgehend erhalten bleiben.

Machine Learning

Entwicklung prädiktiver Klasseneinteilungs- und Regressionsmodelle mithilfe interaktiver Apps oder automatisiertem Machine Learning (AutoML). Automatische Auswahl der Merkmale, Identifizierung des besten Modells und Feinabstimmung der Hyperparameter. Erklärung des Modellverhaltens mit interpretierbaren Algorithmen.

Trainieren, Validieren und Feinabstimmen von Vorhersagemodellen

Vergleich von verschiedenen Algorithmen des Machine Learning — einschließlich flacher neuronaler Netze, Merkmalsauswahl, Einstellung der Hyperparameter und Evaluierung der Leistung vieler populärer Klassifikations- und Regressionsalgorithmen. Entwicklung und automatische Optimierung von Vorhersagemodellen mit interaktiven Apps und inkrementelle Verbesserung der Modelle mit Streaming-Daten. Reduzierung des Bedarfs an gelabelten Daten durch die Anwendung des teilüberwachten Lernens.

Interpretierbarkeit des Modells

Verbesserung der Interpretierbarkeit von Black-Box Machine Learning mithilfe von inhärent interpretierbaren Modellen wie generativen additiven Modellen (GAM) oder durch die Anwendung etablierter Interpretierbarkeitsmethoden wie partieller Abhängigkeitsplots, individueller bedingter Erwartungen (ICE), lokal interpretierbarer modellagnostischer Erklärungen (LIME) und Shapley-Werten.

LIME erstellt einfache Näherungen komplexer Modelle in einem lokalen Gebiet.

LIME erstellt einfache Näherungen komplexer Modelle in einem lokalen Gebiet.

Automatisiertes Machine Learning (AutoML)

Steigern Sie die Leistung des Modells durch die automatische Abstimmung von Hyperparametern, die Generierung und Auswahl von Merkmalen und Modellen sowie die Bearbeitung von Datensatz-Ungleichgewichten mit Kostenmatrizen.

Die Optimierung der Hyperparameter visualisiert den geschätzten Parameterraum und seinen Fortschritt bei der Minimierung der Fehlerfunktion.

Effiziente Optimierung der Hyperparameter mit der Bayes‘schen Optimierung.

Regression und ANOVA

Sie können eine kontinuierliche Reaktionsvariable als eine Funktion eines oder mehrerer Prädiktoren mithilfe linearer und nichtlinearer Regression oder mithilfe von Modellen mit gemischten Effekten, verallgemeinerten linearen Modellen und nicht-parametrischer Regression modellieren. Zuordnung von Varianzen zu verschiedenen Quellen mit ANOVA.

Lineare und nichtlineare Regression

Modellverhalten komplexer Systeme mit mehreren Prädiktoren oder Reaktionsvariablen, ausgewählt aus vielen linearen und nichtlinearen Regressionsalgorithmen. Passen Sie mehrstufige oder hierarchische, lineare, nichtlineare und verallgemeinerte lineare Modelle mit gemischten Effekten mit verschachtelten und/oder gekreuzten Zufallseffekten zur Durchführung von Längsschnitt- oder Paneldatenanalysen, wiederholten Messungen und Wachstumsmodellierung an.

Die Regression Learner App ermöglicht die Evaluierung vieler Regressionsmethoden, ohne Code schreiben zu müssen.

Interaktive Anpassung der Regressionsmodell mit der Regression Learner App.

Nichtparametrische Regression

Erzeugen Sie eine genaue Anpassung ohne Spezifizierung eines Modells, das die Beziehung zwischen Prädiktoren und Reaktion mithilfe von SVMs, Random Forests, flachen neuronalen Netzwerken, gaußschen Prozessen und gaußschen Kernen beschreibt.

Modellierung erwarteter Abweichungen mithilfe quantiler Regression und damit Identifizierung der Ausreißer.

 Identifizierung von Ausreißern mit quantiler Regression.

Varianzanalyse (ANOVA)

Die Mustervarianz kann verschiedenen Quellen zugeordnet und Sie können bestimmen, ob die Variation innerhalb oder unter verschiedenen Bevölkerungsgruppen entsteht. Einsatz von Einweg-, Zweiweg-, Mehrweg-, multivarianter und nichtparametrischer ANOVA sowie Analyse der Kovarianz (ANOCOVA) und wiederholte Analyse der Varianzmessungen (RANOVA).

Die Mehrvergleichs-Tools ermöglichen, mehrere Gruppen interaktiv mithilfe von Mehrweg-ANOVA zu testen.

Testgruppen mithilfe Mehrweg-ANOVA.

Wahrscheinlichkeitsverteilungen und Hypothesentests

Anpassung der Verteilungen an die Daten. Mit einer Analyse stellen Sie fest, ob die Muster-zu-Muster-Differenzen signifikant sind oder mit der zufälligen Datenvariation übereinstimmen. Sie können Zufallszahlen aus verschiedenen Verteilungen erzeugen.

Wahrscheinlichkeitsverteilungen

Anpassung kontinuierlicher und diskreter Verteilungen, Nutzung von Statistikblöcken zur Evaluierung der Anpassungsgüte, zur Berechnung der Wahrscheinlichkeitsdichtefunktionen und der kumulativen Verteilungsfunktionen für mehr als 40 verschiedene Verteilungen.

Erfahren Sie, wie gut verschiedene Verteilungen interaktiv zusammenpassen.

Passen Sie die Verteilungen mithilfe der Distribution Fitter App interaktiv an.

Erzeugung von Zufallszahlen

Pseudo- oder quasi-zufällige Zahlenströme lassen sich aus einer angepassten oder konstruierten Wahrscheinlichkeitsverteilung erzeugen.

Nach der Auswahl der geeigneten Wahrscheinlichkeitsverteilung geben Sie die wichtigsten Parameter an und exportieren Sie die erzeugten Zufallszahlen.

Erzeugen Sie Zufallszahlen interaktiv.

Hypothesentests

t-Tests, Verteilungstest (Chiquadrat, Jarque-Bera, Lilliefors und Kolmogorov-Smirnov) und nichtparametrische Tests für einzelne, gepaarte oder selbständige Muster ausführen. Testen Sie Autokorrektur und Zufälligkeit und vergleichen Sie die Verteilungen (Zwei-Muster Kolmogorov-Smirnov).

Die Wahrscheinlichkeit der Ablehnung der Null im Vergleich zur alternativen Hypothese kann visualisiert werden.

Ablehnungsgebiet im einseitigen t-Test.

Industrielle Statistik

Auswirkungen und Datentrends können statistisch analysiert werden. Industrielle Statistikverfahren wie benutzerdefinierte Versuchsplanung und statistische Prozesskontrolle können angewendet werden.

Versuchsplanung

Definieren, analysieren und visualisieren Sie eine benutzerdefinierte Versuchsplanung. Erstellen und testen Sie praktische Pläne zur Manipulation der Dateneingaben in Reihen, mit denen sie Informationen über ihre Auswirkungen auf Datenausgaben generieren können.

Erfahren Sie, wo Box-Behnken die Probenbildung Ihrer drei Variablen empfiehlt, damit eine gute Darstellung des Merkmalsraums gegeben ist.

Wenden Sie einen Box-Behnken-Aufbau zur Generierung von Reaktionsoberflächen einer höheren Ordnung an.

Statistische Prozess-Kontrolle (SPC)

Überwachen und verbessern Sie Produkte oder Prozesse durch die Evaluierung der Prozessvariabilität. Sie können Kontrolldiagramme erstellen, die Prozesskapazität schätzen und Untersuchungen zur Wiederholbarkeit und Reproduzierbarkeit der Messung durchführen.

Das Kontrolldiagramm verdeutlicht visuell, wenn ein Messwert die Kontrollgrenzen eines Prozesses nicht einhält.

Die Überwachung von Herstellungsprozessen mit Kontrolldiagrammen.

Zuverlässigkeits- und Ereigniszeitanalyse

Visualisierung und Analyse der Zeit-bis-zum-Ausfall-Daten mit und ohne Zensur nach Durchführung einer Proportional-Hazard-Regression nach Cox und Anpassungsverteilungen. Berechnen Sie die empirische Gefahr, Ereigniszeit und die kumulativen Verteilungsfunktionen sowie Kerndichteschätzungen.

Stellen Sie dar, wo tatsächliche Daten die Ereigniszeiträume nicht abdecken.

Ausfalldaten als Beispiel für „zensierte“ Werte.

Big Data, Parallelisierung und Cloud Computing

Sie können Statistik- und Machine-Learning-Verfahren für Datenvolumen anwenden, die die Speicherkapazität überschreiten. Beschleunigen Sie statistische Berechnungen und das Training des Machine-Learning-Modells mit der Parallelisierung auf Clustern und Cloud-Instanzen.

Analyse von Big Data mit Tall Array

Verwenden Sie Tall Arrays und Tabellen mit zahlreichen Klassifikations-, Regressions- und Cluster-Algorithmen, um Modelle anhand von Datensätzen zu trainieren, die ohne Anpassung des Codes nicht in den Arbeitsspeicher passen.

Beschleunigung der Berechnungen mit der Parallel Computing Toolbox oder MATLAB Parallel Server.

Beschleunigung der Berechnungen mit der Parallel Computing Toolbox oder MATLAB Parallel Server.

Cloud und Distributed Computing

Einsatz von Cloud-Instanzen zur Beschleunigung von statistischen und Machine-Learning-Berechnungen. Durchführung des vollständigen Machine-Learning-Workflows in MATLAB Online™.

Referenzarchitekturen, MATLAB Parallel Server und NVIDIA GPU Cloud ermöglichen Ihnen, statistische und Machine-Learning-Berechnungen auf Cloud-Instanzen durchzuführen.

Führen Sie Ihre Berechnungen auf Cloud-Instanzen von Amazon oder Azure durch.

Einsatz, Codegenerierung und die Integration von Simulink

Nutzen Sie Statistiken und Machine Learning auf integrierten Systemen, beschleunigen Sie die rechenintensive Berechnungen mithilfe von C Code und integrieren Sie sie in Unternehmenssysteme und Simulink-Modelle.

Codegenerierung

Erzeugung portablen und lesbaren C oder C++ Codes für die Klasseneinteilungsfolgerung und Regressionsalgorithmen, deskriptive Statistiken und Wahrscheinlichkeitsverteilungen mithilfe von MATLAB Coder™. Erzeugung von C/C++ Prognose-Codes mit reduzierter Präzision mit dem Fixed Point Designer™ und Aktualisierung der Parameter eingesetzter Modelle ohne erneute Erzeugung des Prognose-Codes.

Erzeugung von C Code oder Kompilierung von MATLAB Programmcode für den Einsatz auf integrierter Hardware und Integration in Unternehmenssysteme.

Zwei mögliche Einsatzarten: Erzeugung von C Code oder Kompilierung von MATLAB Programmcode.

Integration in Simulink

Integration von Machine-Learning-Modellen in Simulink-Modelle für den Einsatz auf integrierter Hardware oder für die Systemsimulation, -verifizierung und -validierung.

Integration in Anwendungen und Unternehmenssysteme

Einsatz von statistischen und Machine-Learning-Modellen als Standalone-, MapReduce- oder Spark™-Anwendungen, als Web-Apps oder als Microsoft® Excel® Add-Ins mit MATLAB Compiler™. Entwicklung gemeinsamer C/C++ Bibliotheken, Microsoft .NET-Assemblies, Java®-Klassen und Python®-Paketen mit MATLAB Compiler SDK™.

Mit dem MATLAB Compiler können Machine-Learning-Modelle in Unternehmenssysteme und andere Anwendungen integriert werden.

Verwenden Sie den MATLAB Compiler zur Integration eines Klasseneinteilungsmodells für die Luftqualität.

Code generation and model update workflow

Code generation and model update workflow

Machine Learning Onramp

An interactive introduction to practical machine learning methods for classification problems.