Main Content

DataStore

Lesen großer Datensammlungen

Mit der Funktion datastore kann ein DataStore erstellt werden, der ein Repository für Datensammlungen beinhaltet, die zu groß für den Speicher sind. Ein DataStore ermöglicht das Lesen und Bearbeiten von Daten, die in mehreren Dateien auf einer Festplatte, an einem Remote-Standort oder in einer Datenbank gespeichert sind, als einzelne Entität. Wenn die Daten zu groß für den Speicher sind, können Sie den inkrementellen Datenimport verwalten, ein tall-Array für das Arbeiten mit den Daten erstellen oder das DataStore als Eingabe in mapreduce für die weitere Bearbeitung verwenden. Weitere Informationen finden Sie unter Getting Started with Datastore.

Funktionen

alle erweitern

datastoreCreate datastore for large collections of data
tabularTextDatastoreDatastore for tabular text files
spreadsheetDatastoreDatastore for spreadsheet files
imageDatastoreDatastore for image data
parquetDatastoreDatastore for collection of Parquet files
fileDatastoreDatastore with custom file reader
arrayDatastoreDatastore for in-memory data (Seit R2020b)
readRead data in datastore
readallRead all data in datastore
previewPreview subset of data in datastore
hasdataDetermine if data is available to read
resetReset datastore to initial state
writeallWrite datastore to files (Seit R2020a)
subsetCreate subset of datastore or FileSet
isSubsettableDetermine whether datastore is subsettable (Seit R2022b)
shuffleShuffle all data in datastore
isShuffleableDetermine whether datastore is shuffleable (Seit R2020a)
numpartitionsNumber of datastore partitions
partitionPartition a datastore
isPartitionableDetermine whether datastore is partitionable (Seit R2020a)

Funktionen

combineCombine data from multiple datastores
transformTransform datastore

Objekte

CombinedDatastoreDatastore to combine data read from multiple underlying datastores
SequentialDatastoreSequentially read data from multiple underlying datastores (Seit R2022b)
TransformedDatastoreDatastore to transform underlying datastore
KeyValueDatastoreDatastore for key-value pair data for use with mapreduce
TallDatastoreDatastore for checkpointing tall arrays

Klassen

alle erweitern

matlab.io.Datastore Base datastore class
matlab.io.datastore.PartitionableAdd parallelization support to datastore
matlab.io.datastore.SubsettableAdd subset and fine-grained parallelization support to datastore (Seit R2022b)
matlab.io.datastore.HadoopLocationBased Add Hadoop support to datastore
matlab.io.datastore.ShuffleableAdd shuffling support to datastore
matlab.io.datastore.DsFileSet File-set object for collection of files in datastore
matlab.io.datastore.DsFileReader File-reader object for files in a datastore
matlab.io.datastore.FileWritableAdd file writing support to datastore (Seit R2020a)
matlab.io.datastore.FoldersPropertyProviderAdd Folder property support to datastore (Seit R2020a)
matlab.io.datastore.FileSet File-set for collection of files in datastore (Seit R2020a)
matlab.io.datastore.BlockedFileSet Blocked file-set for collection of blocks within file (Seit R2020a)

Themen