Clusteranalyse

Maschinelle Lernmethode zur Suche und Visualisierung von natürlichen Gruppierungen und Mustern in Daten

Zur Clusteranalyse zählt die Anwendung von einem oder mehreren Clustering-Algorithmen, um verborgene Muster oder Gruppierungen in einem Datensatz zu finden. Clustering-Algorithmen bilden Gruppierungen oder Cluster so, dass Daten in einem Cluster sich ähnlicher sind als Daten in anderen Clustern. Das Ähnlichkeitsmaß, nach dem die Cluster geformt werden, kann durch den euklidischen Abstand, den probabilistischen Abstand oder eine andere Metrik definiert werden.

Bei der Clusteranalyse handelt es sich um eine unüberwachte Lernmethode und eine wichtige Aufgabe in der explorativen Datenanalyse. Zu den häufigen Clustering-Algorithmen zählen:

  • Hierarchisches Clustering: formt eine mehrstufige Hierarchie von Clustern durch Erstellung eines Clusterbaums
  • k-Means-Clustering: teilt Daten in k unterschiedliche Cluster auf Grundlage des Abstands zum Schwerpunkt eines Clusters auf
  • Gaussian Mixture Models: modelliert Cluster als eine Mischung aus multivariaten normaldichten Komponenten
  • Selbstorganisierende Karten: verwendet neurale Netzwerke, die die Topologie und die Verteilung der Daten lernen

Die genannten Algorithmen unterscheiden sich in der Metrik, die zur Messung der Ähnlichkeit verwendet wird.

Die Clusteranalyse wird in der Bioinformatik zur Sequenzanalyse und zum genetischen Clustering verwendet; im Data-Mining zum Auswerten von Sequenzen und Mustern; in der medizinischen Bildgebung zur Bildsegmentierung und im maschinellen Sehen zur Objekterkennung.

Weitere Einzelheiten zu Algorithmen der Clusteranalyse finden Sie in Statistics Toolbox und Neural Network Toolbox.

Siehe auch: Statistics and Machine Learning Toolbox, Neural Network Toolbox, MATLAB, Machine Learning, unüberwachtes Lernen, adaboost, Datenanalyse, mathematische Modellierung