Text Analytics Toolbox

 

Text Analytics Toolbox

Analyse und Modellierung von Textdaten

 

Die Text Analytics Toolbox™ bietet Algorithmen und Visualisierungen für die Vorverarbeitung, Analyse und Modellierung von Textdaten. Mit der Toolbox erstellte Modelle können in Anwendungen wie Stimmungsanalysen, Predictive Maintenance /Vorausschauende Wartung und Topic Modeling verwendet werden.

Die Text Analytics Toolbox umfasst Tools für die Verarbeitung von Rohtext aus Quellen wie Geräteprotokollen, Nachrichten-Feeds, Umfragen, Bedienerberichten und Social Media. Sie können Text aus verbreiteten Dateiformaten extrahieren, Rohtext vorverarbeiten, einzelne Wörter extrahieren, Text in numerische Darstellungen konvertieren und statistische Modelle erstellen.

Mit Machine-Learning-Techniken wie LSA, LDA und Word Embeddings können Sie Cluster finden und Funktionen aus hochdimensionalen Textdatensätzen erstellen. Mit der Text Analytics Toolbox erstellte Funktionen können mit Funktionen aus anderen Datenquellen kombiniert werden, um Machine-Learning-Modelle zu erstellen, die textuelle, numerische und andere Arten von Daten nutzen.

 

Importieren und Visualisieren von Textdaten

Extrahieren Sie Textdaten aus Quellen wie Social Media, Nachrichten-Feeds, Geräteprotokollen, Berichten und Umfragen.

Extrahieren von Textdaten

Importieren Sie Textdaten aus einzelnen Dateien oder großen Sammlungen von Dateien, einschließlich PDF-, HTML- und Microsoft® Word®- und Excel®-Dateien, in MATLAB®.

Textextraktion aus einer Sammlung von Microsoft Word-Dokumenten.

Visualisieren von Text

Untersuchen Sie Textdatensätze visuell mithilfe von Wortwolken und Textstreudiagrammen.

Textstreudiagramm, das die relative Häufigkeit von Wörtern mithilfe von Größe und Farbe zeigt.

Sprachunterstützung

Die Text Analytics Toolbox bietet sprachspezifische Vorverarbeitungsfunktionen für Englisch, Japanisch und Deutsch. Die meisten Funktionen können auch für Text in anderen Sprachen genutzt werden.

Importieren, Vorbereiten und Analysieren von japanischem Text.

Vorverarbeiten von Textdaten

Extrahieren Sie sinntragende Wörter aus Rohtext.

Bereinigen von Textdaten

Wenden Sie Filterfunktionen auf hoher Abstraktionsebene an, um irrelevante Inhalte wie URLs, HTML-Tags und Interpunktion zu entfernen.

Vereinfachen von Rohtext (links), um mit den am stärksten sinntragenden Wörtern arbeiten zu können (rechts).

Herausfiltern von Stoppwörtern und Normalisieren von Wörtern zu ihrem Wortstamm

Priorisieren Sie sinntragende Textdaten in Ihren Analysen, indem Sie Allerweltswörter, zu häufig oder zu selten vorkommende Wörter sowie sehr lange oder sehr kurze Wörter herausfiltern. Reduzieren Sie das Vokabular, und konzentrieren Sie sich auf die allgemeinere Bedeutung oder Stimmung eines Dokuments, indem Sie den Wortstamm oder die Grundform (Lemma) von Wörtern ermitteln.

Entfernen von Stoppwörtern wie „ein“ und „von“ aus Dokumenten.

Identifizieren von Token, Sätzen und Wortarten

Teilen Sie Rohtext mithilfe eines Tokenisierungs-Algorithmus automatisch in eine Auflistung von Wörtern auf. Fügen Sie Satzgrenzen, Wortartdetails und andere relevante Informationen als Kontext hinzu.

Finanzdiagramme und technische Indikatoren.

Konvertieren von Text in numerische Formate

Konvertieren Sie Textdaten in eine numerische Form, die Sie für Machine Learning und Deep Learning verwenden können.

Identifikation und Visualisierung der am häufigsten vorkommenden Wörter in einem Modell.

Worteinbettung und -codierung

Trainieren Sie Word-Embedding-Modelle wie die Word2vec-Modelle Continuous Bag-of-Words (CBOW) und Skip-Gram. Importieren Sie vortrainierte Modelle wie fastText und GloVe.

Visualisieren von Clustern in einem Textstreudiagramm mithilfe eines Word-Embeddings. 

Machine Learning mit Textdaten

Führen Sie die Topic-Modelling, die Klassifikation und die Verringerung der Dimensionalität mit Machine-Learning-Algorithmen wie der Latent Dirichlet Allocation (LDA) und Latent Semantic Analysis (LSA) durch.

Topic Modelling

Erkennen und visualisieren Sie zugrunde liegende Muster, Trends und komplexe Beziehungen in großen Textdatensätzen.

Identifizieren von Themen in Sturmberichtsdaten.

Deep Learning mit Textdaten

Führen Sie Stimmungsanalysen und Klassifikationen mit Deep-Learning-Netzen wie beispielsweise LSTMs (Long Short-Term Memory-Netzen) durch.

Stimmungsanalysen

Identifizieren Sie die in Textdaten ausgedrückten Haltungen und Meinungen, um Aussagen als positiv, neutral oder negativ zu kategorisieren. Erstellen Sie Modelle, die Stimmungen in Echtzeit vorhersagen können.

Identifikation von Wörtern, die eine positive bzw. negative Stimmung vorhersagen. 

Trainieren eines tiefen neuronalen Netzes für die Klassifikation von Textdaten.

Texterzeugung

Verwenden Sie Deep Learning, um neuen Text auf der Grundlage von beobachtetem Text zu erzeugen.

Texterzeugung mit Jane Austens Pride and Prejudice und einem Deep-Learning-LSTM-Netz. 

Neue Funktionen

Unterstützung der deutschen Sprache

Führen Sie Textanalysen an Texten in deutscher Sprache durch einschließlich Tokenisierung, Entfernung von Stoppwörtern, Wortstammermittlung und Wortarten-Tagging.

Edit-Distanz

Finden Sie Ähnlichkeiten zwischen Strings und Dokumenten mithilfe der Levensthein-Distanz und anderer Distanzmessungen.

Erkennung von Eigennamen

Erkennen Sie Orte, Organisationen, Personen und andere Entitäten mit Eigennamen in Texten.

Tokenisierung und Vorverarbeitung

Geben Sie Muster benutzerdefinierter Token an und erkennen Sie sie. Ersetzen Sie Wörter oder Phrasen in tokenisierten Dokumenten.

Deep-Learning-Beispiele

Erfahren Sie, wie Sie Textdaten mithilfe von Faltungsnetzwerken klassifizieren könnten (erfordert die Deep Learning Toolbox).

Details zu diesen Merkmalen und den zugehörigen Funktionen finden Sie in den Versionshinweisen.

Stimmungsanalysen mit Deep Learning

Analysieren Sie die Stimmung in Live-Daten von Twitter, um zu verstehen, wie ein bestimmter Begriff wahrgenommen wird.

Haben Sie Fragen?

Kontaktieren Sie Bernhard Suhm, technische Expertin für die Text Analytics Toolbox

Kostenlose Testversion anfordern

Eine 30-tägige Erkundungsreise in greifbarer Nähe.

Jetzt downloaden

Bereit zum Kauf?

Angebot anfordern und entdecken Sie Erweiterungsprodukte.

Studieren Sie?

Fordern Sie die MATLAB und Simulink Student Software an.

Weitere Informationen