Main Content

Große Dateien und Big Data

Zugriff und Bearbeiten von Datei-Sammlungen und großen Datensätzen

Große Datensätze können in Form umfangreicher Dateien vorliegen, die nicht in den Arbeitsspeicher passen oder deren Bearbeitung zu zeitaufwendig ist. Ein großer Datensatz kann auch eine Sammlung von zahlreichen kleinen Dateien sein. Es gibt nicht nur einen einzigen Ansatz für das Arbeiten mit großen Datensätzen, weshalb MATLAB® mehrere Tools für den Zugriff und die Bearbeitung umfangreicher Daten bereitstellt.

Beginnen Sie damit, einen DataStore zu erstellen, der zugleich auf kleine Datenmengen zugreifen kann. Sie können den DataStore verwenden, um den inkrementellen Import der Daten zu verwalten. Für die Datenanalyse über gängige MATLAB-Funktionen, wie mean und histogram, erstellen Sie ein Tall-Array über dem DataStore. Bei komplexeren Problemen können Sie einen MapReduce-Algorithmus für Chunking und Reduktion der Daten schreiben.

Kategorien

  • DataStore
    Lesen großer Datensammlungen
  • Tall-Arrays
    Arrays mit mehr Zeilen als im Speicher vorhanden
  • MapReduce
    Programmiertechnik für die Analyse von Datensätzen, die nicht in den Speicher passen
  • Große MAT-Dateien
    Zugriff und Ändern der Variablen ohne Laden in den Arbeitsspeicher
  • Parquet-Dateien
    Lesen und Schreiben von Parquet-Dateien
  • Speicherzuordnung
    Zuordnen von Dateidaten zum Speicher für einen schnelleren Zugriff