Die Text Analytics Toolbox™ bietet Algorithmen und Visualisierungen für die Vorverarbeitung, Analyse und Modellierung von Textdaten. Mit der Toolbox erstellte Modelle können in Anwendungen wie Stimmungsanalyse, vorausschauende Instandhaltung und Topic-Modelling verwendet werden.
Die Text Analytics Toolbox umfasst Tools für die Verarbeitung von Rohtext aus Quellen wie Geräteprotokollen, Nachrichten-Feeds, Umfragen, Bedienerberichten und Social Media. Sie können Text aus weit verbreiteten Dateiformaten extrahieren, Rohtext vorverarbeiten, einzelne Wörter extrahieren, Text in numerische Darstellungen überführen und statistische Modelle erstellen.
Mithilfe von Machine-Learning-Konzepten wie LSA, LDA und Word Embeddings können Sie Cluster identifizieren und Funktionen aus hochdimensionalen Textdatensätzen erstellen. Mit der Text Analytics Toolbox erstellte Funktionen lassen sich mit Funktionen aus anderen Datenquellen kombinieren. Auf diese Weise können Sie Machine-Learning-Modelle entwickeln, die textuelle, numerische sowie andere Datentypen integriert nutzbar machen.
Jetzt beginnen:
Extrahieren von Textdaten
Importieren Sie Textdaten in MATLAB® aus Einzeldateien oder großen Dateisammlungen, einschließlich PDF-, HTML- und Microsoft® Word®- und Excel®-Dateien.
Visualisieren von Text
Untersuchen Sie Textdatensätze mittels Wortwolken und Textstreudiagrammen.
Sprachunterstützung
Die Text Analytics Toolbox bietet sprachspezifische Vorverarbeitungsfunktionen für Englisch, Japanisch, Deutsch und Koreanisch. Die meisten Funktionen können auch für Text in anderen Sprachen genutzt werden.
Bereinigen von Textdaten
Wenden Sie Filterfunktionen auf hoher Abstraktionsebene an, um irrelevante Inhalte wie URLs, HTML-Tags und Interpunktion zu entfernen, und korrigieren Sie Rechtschreibfehler.
Herausfiltern von Stoppwörtern und Normalisieren von Wörtern zu ihrem Wortstamm
Priorisieren Sie sinntragende Textdaten in Ihren Analysen, indem Sie allgemeinsprachliche-, zu häufig oder zu selten vorkommende- sowie sehr lange oder sehr kurze Wörter herausfiltern. Reduzieren Sie das Vokabular, und konzentrieren Sie sich auf die allgemeinere Bedeutung oder Stimmung eines Dokuments, indem Sie den Wortstamm oder die Grundform (Lemma) von Wörtern ermitteln.
Extrahieren linguistischer Merkmale
Teilen Sie Rohtexte mithilfe eines Tokenisierungs-Algorithmus automatisch in eine Auflistung von Wörtern auf. Fügen Sie Satzgrenzen, Wortartdetails und andere relevante Informationen als Kontext hinzu.
Zählen von Wörtern und N-Grammen
Berechnen Sie Worthäufigkeitsstatistiken, um Textdaten numerisch darzustellen.
Worteinbettung und -codierung
Trainieren Sie Word-Embedding-Modelle wie die Word2vec-Modelle Continuous Bag-of-Words (CBOW) und Skip-Gram. Importieren Sie vortrainierte Modelle wie fastText und GloVe.
Topic Modelling
Erkennen und visualisieren Sie zugrunde liegende Muster, Trends und komplexe Beziehungen in großen Textdatensätzen mithilfe von Machine Learning-Algorithmen wie der latenten Dirichlet Allokation (LDA) und der latenten semantischen Analyse (LSA).
Dokumentenzusammenfassung und Schlüsselwort-Extraktion
Automatisches Extrahieren einer Zusammenfassung und relevanter Schlüsselwörter aus einem oder mehreren Dokumenten und Bewerten der Ähnlichkeit und Bedeutung von Dokumenten.
Stimmungsanalyse
Ermitteln Sie die in Textdaten ausgedrückten Haltungen und Meinungen, um Aussagen als positiv, neutral oder negativ zu kategorisieren. Erstellen Sie Modelle, mit denen Sie eine Stimmung in Echtzeit vorhersagen können.
Deep Learning mit Textdaten
Führen Sie eine Stimmungsanalyse, -klassifikation, -zusammenfassung und Textgenerierung mithilfe von Deep-Learning-Algorithmen durch.
Transformer-Modelle
Nutzen Sie Transformer-Modelle wie BERT, FinBERT, und GPT-2, um Transfer Learning mit Textdaten für Aufgaben wie Stimmungsanalyse, -klassifikation und -zusammenfassung durchzuführen.
Textklassifikation
Klassifizieren Sie Textbeschreibungen mithilfe von Word Embeddings, die Textkategorien durch Deep Learning identifizieren können.
Texterzeugung
Verwenden Sie Deep Learning, um neuen Text auf der Grundlage von betrachtetem Text zu erzeugen.