Statistics and Machine Learning Toolbox
Analyse und Modellierung von Daten mithilfe von Statistik und Machine Learning
Die Statistics and Machine Learning Toolbox™ enthält Funktionen und Apps zur Beschreibung, Analyse und Modellierung von Daten. Für die explorative Datenanalyse stehen deskriptive Statistiken, Visualisierungen und Clustering zur Verfügung. Wahrscheinlichkeitsverteilungen können an Daten angepasst, Zufallszahlen für Monte-Carlo-Simulationen erzeugt und Hypothesentests durchgeführt werden. Regressions- und Klasseneinteilungsalgorithmen ermöglichen die Ableitung von Interferenzen aus den Daten und die Erstellung von Vorhersagemodellen. Sie können entweder interaktiv mithilfe der Classification und Regression Learner Apps oder programmgesteuert mit AutoML entwickelt werden.
Die Toolbox umfasst die Primärkomponentenanalyse (PCA), Regularisierung, Dimensionalitätsreduktion und Methoden für die Merkmalsauswahl für mehrdimensionale Datenanalysen und Merkmalsextraktionen, mit denen Variablen wie die beste Prognosefähigkeit identifiziert werden können.
Außerdem stehen überwachte, halb überwachte und nicht überwachte Machine-Learning-Algorithmen, einschließlich Support Vector Machines (SVMs), verstärkte Entscheidungsbäume und andere Clustering-Methoden zur Verfügung. Interpretationstechniken wie ein partielles Abhängigkeitsdiagramme und LIME können angewendet werden und C/C++ Code kann für den integrierten Einsatz automatisch generiert werden. Viele Toolbox-Algorithmen können auf Datensätze angewendet werden, die für den Speicher zu umfangreich sind.
Jetzt beginnen:
MATLAB EXPO 2021
May 4–5 | Online
Visualisierungen
Visuelle Untersuchung von Daten mit Wahrscheinlichkeitsdiagrammen, Boxplot-Diagrammen, Histogrammen und Quantil-Quantil-Diagrammen sowie erweiterten Diagrammen für die multivariate Analyse wie Dendrogrammen, Biplot- und Andrews-Diagrammen.
Deskriptive Statistik
Potenziell umfangreiche Datensätze mit wenigen, hoch relevanten Zahlen werden schnell verstanden und beschrieben.
Clusteranalyse
Erkennen Sie die Muster durch die Gruppierung der Daten mit k-Mittelwerten, k-Medoiden, DBSCAN, hierarchischem und spektralem Clustering sowie mit Gaußschen Mischverteilungs- und Hidden-Markov-Modellen.
Merkmalsextraktion
Merkmalsextraktion aus Daten mithilfe nicht überwachter Lerntechniken wie Grobfilterung und Rekonstruktions-ICA. Verwendung spezialisierter Verfahren zur Extraktion von Merkmalen aus Bildern, Signalen, Text und numerischen Daten.
Merkmalsauswahl
Die Teilmenge der Merkmale, die die beste Prognosefähigkeit bei der Datenmodellierung liefert, wird automatisch identifiziert. Die Methoden zur Merkmalsauswahl umfassen die schrittweise Regression, sequentielle Merkmalsauswahl, Regularisierung und Ensemble-Methoden.
Merkmalsumwandlung und Dimensionalitätsreduktion
Reduzieren Sie die Dimensionalität durch die Umwandlung der vorhandenen (nicht kategorischen) Merkmale in neue Prädiktorvariablen, wobei weniger deskriptive Merkmale ausgelassen werden können. Die Methoden für die Merkmalsumwandlung umfassen PCA, Faktoranalyse und nicht-negative Matrix-Faktorisierung.
Trainieren, Validieren und Feinabstimmen von Vorhersagemodellen
Vergleich von verschiedenen Algorithmen des Machine Learning — einschließlich flacher neuronaler Netze, Merkmalsauswahl, Einstellung der Hyperparameter und Evaluierung der Leistung vieler populärer Klassifikations- und Regressionsalgorithmen. Entwicklung und automatische Optimierung von Vorhersagemodellen mit interaktiven Apps und inkrementelle Verbesserung der Modelle mit Streaming-Daten. Reduzierung des Bedarfs an gelabelten Daten durch die Anwendung des teilüberwachten Lernens.
Interpretierbarkeit des Modells
Verbesserung der Interpretierbarkeit von Black-Box Machine Learning mithilfe von inhärent interpretierbaren Modellen wie generativen additiven Modellen (GAM) oder durch die Anwendung etablierter Interpretierbarkeitsmethoden wie partieller Abhängigkeitsplots, individueller bedingter Erwartungen (ICE), lokal interpretierbarer modellagnostischer Erklärungen (LIME) und Shapley-Werten.
Automatisiertes Machine Learning (AutoML)
Steigern Sie die Leistung des Modells durch die automatische Abstimmung von Hyperparametern, die Generierung und Auswahl von Merkmalen und Modellen sowie die Bearbeitung von Datensatz-Ungleichgewichten mit Kostenmatrizen.
Regression und ANOVA
Sie können eine kontinuierliche Reaktionsvariable als eine Funktion eines oder mehrerer Prädiktoren mithilfe linearer und nichtlinearer Regression oder mithilfe von Modellen mit gemischten Effekten, verallgemeinerten linearen Modellen und nicht-parametrischer Regression modellieren. Zuordnung von Varianzen zu verschiedenen Quellen mit ANOVA.
Lineare und nichtlineare Regression
Modellverhalten komplexer Systeme mit mehreren Prädiktoren oder Reaktionsvariablen, ausgewählt aus vielen linearen und nichtlinearen Regressionsalgorithmen. Passen Sie mehrstufige oder hierarchische, lineare, nichtlineare und verallgemeinerte lineare Modelle mit gemischten Effekten mit verschachtelten und/oder gekreuzten Zufallseffekten zur Durchführung von Längsschnitt- oder Paneldatenanalysen, wiederholten Messungen und Wachstumsmodellierung an.
Nichtparametrische Regression
Erzeugen Sie eine genaue Anpassung ohne Spezifizierung eines Modells, das die Beziehung zwischen Prädiktoren und Reaktion mithilfe von SVMs, Random Forests, flachen neuronalen Netzwerken, gaußschen Prozessen und gaußschen Kernen beschreibt.
Varianzanalyse (ANOVA)
Die Mustervarianz kann verschiedenen Quellen zugeordnet und Sie können bestimmen, ob die Variation innerhalb oder unter verschiedenen Bevölkerungsgruppen entsteht. Einsatz von Einweg-, Zweiweg-, Mehrweg-, multivarianter und nichtparametrischer ANOVA sowie Analyse der Kovarianz (ANOCOVA) und wiederholte Analyse der Varianzmessungen (RANOVA).
Wahrscheinlichkeitsverteilungen und Hypothesentests
Anpassung der Verteilungen an die Daten. Mit einer Analyse stellen Sie fest, ob die Muster-zu-Muster-Differenzen signifikant sind oder mit der zufälligen Datenvariation übereinstimmen. Sie können Zufallszahlen aus verschiedenen Verteilungen erzeugen.
Wahrscheinlichkeitsverteilungen
Anpassung kontinuierlicher und diskreter Verteilungen, Nutzung von Statistikblöcken zur Evaluierung der Anpassungsgüte, zur Berechnung der Wahrscheinlichkeitsdichtefunktionen und der kumulativen Verteilungsfunktionen für mehr als 40 verschiedene Verteilungen.
Erzeugung von Zufallszahlen
Pseudo- oder quasi-zufällige Zahlenströme lassen sich aus einer angepassten oder konstruierten Wahrscheinlichkeitsverteilung erzeugen.
Hypothesentests
t-Tests, Verteilungstest (Chiquadrat, Jarque-Bera, Lilliefors und Kolmogorov-Smirnov) und nichtparametrische Tests für einzelne, gepaarte oder selbständige Muster ausführen. Testen Sie Autokorrektur und Zufälligkeit und vergleichen Sie die Verteilungen (Zwei-Muster Kolmogorov-Smirnov).
Versuchsplanung
Definieren, analysieren und visualisieren Sie eine benutzerdefinierte Versuchsplanung. Erstellen und testen Sie praktische Pläne zur Manipulation der Dateneingaben in Reihen, mit denen sie Informationen über ihre Auswirkungen auf Datenausgaben generieren können.
Statistische Prozess-Kontrolle (SPC)
Überwachen und verbessern Sie Produkte oder Prozesse durch die Evaluierung der Prozessvariabilität. Sie können Kontrolldiagramme erstellen, die Prozesskapazität schätzen und Untersuchungen zur Wiederholbarkeit und Reproduzierbarkeit der Messung durchführen.
Zuverlässigkeits- und Ereigniszeitanalyse
Visualisierung und Analyse der Zeit-bis-zum-Ausfall-Daten mit und ohne Zensur nach Durchführung einer Proportional-Hazard-Regression nach Cox und Anpassungsverteilungen. Berechnen Sie die empirische Gefahr, Ereigniszeit und die kumulativen Verteilungsfunktionen sowie Kerndichteschätzungen.
Big Data, Parallelisierung und Cloud Computing
Sie können Statistik- und Machine-Learning-Verfahren für Datenvolumen anwenden, die die Speicherkapazität überschreiten. Beschleunigen Sie statistische Berechnungen und das Training des Machine-Learning-Modells mit der Parallelisierung auf Clustern und Cloud-Instanzen.
Analyse von Big Data mit Tall Array
Verwenden Sie Tall Arrays und Tabellen mit zahlreichen Klassifikations-, Regressions- und Cluster-Algorithmen, um Modelle anhand von Datensätzen zu trainieren, die ohne Anpassung des Codes nicht in den Arbeitsspeicher passen.
Parallele Berechnung
Beschleunigen Sie statistische Berechnungen und das Trainieren Ihres Modells mithilfe von Parallelisierung.
Cloud und Distributed Computing
Einsatz von Cloud-Instanzen zur Beschleunigung von statistischen und Machine-Learning-Berechnungen. Durchführung des vollständigen Machine-Learning-Workflows in MATLAB Online™.
Codegenerierung
Erzeugung portablen und lesbaren C oder C++ Codes für die Klasseneinteilungsfolgerung und Regressionsalgorithmen, deskriptive Statistiken und Wahrscheinlichkeitsverteilungen mithilfe von MATLAB Coder™. Erzeugung von C/C++ Prognose-Codes mit reduzierter Präzision mit dem Fixed Point Designer™ und Aktualisierung der Parameter eingesetzter Modelle ohne erneute Erzeugung des Prognose-Codes.
Integration in Simulink
Integration von Machine-Learning-Modellen in Simulink-Modelle für den Einsatz auf integrierter Hardware oder für die Systemsimulation, -verifizierung und -validierung.
Integration in Anwendungen und Unternehmenssysteme
Einsatz von statistischen und Machine-Learning-Modellen als Standalone-, MapReduce- oder Spark™-Anwendungen, als Web-Apps oder als Microsoft® Excel® Add-Ins mit MATLAB Compiler™. Entwicklung gemeinsamer C/C++ Bibliotheken, Microsoft .NET-Assemblies, Java®-Klassen und Python®-Paketen mit MATLAB Compiler SDK™.