Große Dateien und Big Data
Große Datensätze können in Form umfangreicher Dateien vorliegen, die nicht in den Arbeitsspeicher passen oder deren Bearbeitung zu zeitaufwendig ist. Ein großer Datensatz kann auch eine Sammlung von zahlreichen kleinen Dateien sein. Es gibt nicht nur einen einzigen Ansatz für das Arbeiten mit großen Datensätzen, weshalb MATLAB® mehrere Tools für den Zugriff und die Bearbeitung umfangreicher Daten bereitstellt.
Beginnen Sie damit, einen DataStore zu erstellen, der zugleich auf kleine Datenmengen zugreifen kann. Sie können den DataStore verwenden, um den inkrementellen Import der Daten zu verwalten. Für die Datenanalyse über gängige MATLAB-Funktionen, wie mean
und histogram
, erstellen Sie ein Tall-Array über dem DataStore. Bei komplexeren Problemen können Sie einen MapReduce-Algorithmus für Chunking und Reduktion der Daten schreiben.
Kategorien
- DataStore
Lesen großer Datensammlungen
- Tall-Arrays
Arrays mit mehr Zeilen als im Speicher vorhanden
- MapReduce
Programmiertechnik für die Analyse von Datensätzen, die nicht in den Speicher passen
- Große MAT-Dateien
Zugriff und Ändern der Variablen ohne Laden in den Arbeitsspeicher
- Parquet-Dateien
Lesen und Schreiben von Parquet-Dateien
- Speicherzuordnung
Zuordnen von Dateidaten zum Speicher für einen schnelleren Zugriff