Bioinformatics Toolbox

Lesen, analysieren und visualisieren Sie Genom- und Proteomdaten

 

Die Bioinformatics Toolbox™ bietet Algorithmen und Anwendungen für Next Generation Sequencing (NGS), Microarray-Analyse, Massenspektrometrie und Gen-Ontologie. Mithilfe von Toolbox-Funktionen können Sie genomische und proteomische Daten aus Standarddateiformaten wie SAM, FASTA, CEL und CDF sowie aus Online-Datenbanken wie dem NCBI Gene Expression Omnibus und GenBank® lesen. Sie können diese Daten mit Sequenzbrowsern, räumlichen Heatmaps und Clusterprogrammen untersuchen und visualisieren. Die Toolbox bietet auch statistische Techniken zur Erkennung von Spitzenwerten, zur Unterstellung von Werten für fehlende Daten und zur Auswahl von Merkmalen.

Sie können Toolbox-Funktionen zur Unterstützung gängiger bioinformatischer Arbeitsabläufe kombinieren. Sie können ChIP-Seq-Daten verwenden, um Transkriptionsfaktoren zu identifizieren; RNA-Seq-Daten analysieren, um differentiell exprimierte Gene zu identifizieren; Varianten der Kopienzahl und SNPs in Microarray-Daten identifizieren; und Proteinprofile mit Hilfe von Massenspektrometrie-Daten klassifizieren.

Erfahren Sie mehr über Bioinformatik.

Erste Schritte:

Sequenzanalyse der nächsten Generation

Die Bioinformatics Toolbox enthält Algorithmen und Visualisierungstechniken für die Sequenzanalyse der nächsten Generation. Die Toolbox ermöglicht es Ihnen, ganze Genome zu analysieren, während Sie Berechnungen auf einer Basispaar-Auflösungsebene durchführen. Sie können den NGS-Browser zur Visualisierung und Untersuchung von Short-Read-Ausrichtungen verwenden, wobei Sie entweder Single-End- oder Paired-End-Short Reads verwenden können. Sie können auch benutzerdefinierte Analyseroutinen erstellen, wie in den folgenden Beispielen gezeigt wird.

Visualisierung und Untersuchung des Short-Read-Alignments

Mithilfe des NGS-Browsers können Sie die Ausrichtung von Short-Read-Sequenzen überprüfen und untersuchen, um Analysen zur Messung der genetischen Variation und Genexpression zu unterstützen. Mit dem NGS-Browser können Sie:

  • Short-Read-Daten an einer Nukleotid-Referenzsequenz ausgerichtet visualisieren
  • Mehrere Datensätze vergleichen, die an einer gemeinsamen Referenzsequenz ausgerichtet sind
  • Die Abdeckung verschiedener Basisstationen und Regionen der Referenzsequenz anzeigen
  • Die Qualität und andere Details ausgerichteter Lesevorgänge untersuchen
  • Diskrepanzen aufgrund von Basisaufruffehlern oder Polymorphismen identifizieren
  • Einfügungen und Löschungen visualisieren
  • Merkmalsanmerkungen relativ zu einer bestimmten Region der Referenzsequenz abrufen

NGS-Browser, der Einzel-Nukleotid-Polymorphismen (SNPs) fettgedruckt anzeigt. Sie können mehrere Datenspuren anzeigen, Spitzenwerte untersuchen, Einfügungen und Löschungen identifizieren und die Lesequalität überprüfen.

Speichern und Verwalten von Short-Read-Sequenzdaten

Die bei der Sequenzanalyse der nächsten Generation verwendeten Datensätze sind für bestehende Speicherkapazitäten häufig zu umfangreich. Die Bioinformatics Toolbox bietet spezialisierte Datencontainer, mit denen Sie ganze Genome analysieren können.

Mit dem BioIndexedFile-Objekt können Sie auf den Inhalt von Textdateien zugreifen, die nicht einheitlich große Einträge wie Sequenzen, Anmerkungen und Querverweise auf den Datensatz enthalten. Sie können diese Objekte aus Tabellen, flachen Dateien oder anwendungsspezifischen Formaten wie SAM, FASTA und FASTQ erzeugen.

Die BioMap-Klasse speichert Informationen aus Short-Read-Sequenzen, einschließlich Sequenz-Header, Lesesequenzen, Qualitätsbewertungen und Daten über Ausrichtung und Mapping auf eine einzige Referenzsequenz. Sie können Objekteigenschaften und Methoden verwenden, um die in einem BioMap-Objekt enthaltenen Daten zu untersuchen, auf sie zuzugreifen, sie zu filtern und zu manipulieren.

Datenanalyse und -visualisierung eines Microarrays

Verwenden Sie Apps und Funktionen zum Erfassen, Visualisieren, Analysieren und Verarbeiten von Bildern in vielen Datentypen.

Normalisierung eines Microarrays

Sie können mehrere Methoden zur Normalisierung von Microarray-Daten verwenden, einschließlich Lowess, globaler Mittelwert, mediane absolute Abweichung (MAD) und Quantilnormalisierung. Sie können diese Methoden auf den gesamten Microarray-Chip oder auf bestimmte Regionen oder Blöcke anwenden. Mit Filter- und Unterstellungsfunktionen können Sie Rohdaten vor der Ausführung von Analyse- und Visualisierungsroutinen bereinigen.

Datenanalyse und -visualisierung

Mit der Bioinformatics Toolbox können Sie Hintergrundanpassungen vornehmen und die Expressionswerte von Genen (Sondensatz) aus Affymetrix® Microarray-Daten auf Sondenebene mit den Verfahren Robust Multi-Array Average (RMA) und GC Robust Multi-Array Average (GCRMA) berechnen. Sie können zirkuläre Binärsegmentierung auf Array-CGH-Daten anwenden und die Falschfindungsrate von Mehrfachhypothesen bei der Prüfung von Genexpressionsdaten aus einem Microarray-Experiment schätzen. Sie können auch eine rank-invariante Set-Normalisierung entweder für Sondenintensitäten für mehrere Affymetrix CEL-Dateien oder für Genexpressionswerte aus zwei verschiedenen Versuchsbedingungen durchführen.

Spezialisierte Routinen zur Visualisierung von Microarray-Daten umfassen Vulkan-Plots, Box-Plots, Loglog-Plots, I-R-Plots und räumliche Wärmekarten des Microarrays. Sie können auch Ideogramme mit G-Banding-Mustern visualisieren.

Mithilfe von Routinen aus der Statistics und Machine Learning Toolbox können Sie Ihre Ergebnisse klassifizieren, hierarchische und K-Mittel-Clustering durchführen und Ihre Microarray-Daten in statistischen Visualisierungen darstellen, z. B. 2D-Clustergramme mit optimaler Blattanordnung, Heatmaps, Principal Component Plots und Klassifizierungsbäume.

Vulkan-Plot von Microarray-Daten, die Signifikanz versus Genexpressionsverhältnis zeigen.

Massenspektrometrie-Datenanalyse

Die Bioinformatics Toolbox bietet eine Reihe von Funktionen für die Analyse von Massenspektrometrie-Daten. Diese Funktionen ermöglichen die Vorverarbeitung, Klassifizierung und Markeridentifizierung aus SELDI-, MALDI-, LC/MS- und GC/MS-Daten. Zu den Vorverarbeitungsfunktionen gehören Basislinienkorrektur, Glättung, Kalibrierung und Resampling. Sie können Rohspektrendaten mithilfe der M/Z-Achse ausrichten und die Ausrichtung der Retentionszeit auf LC/MS- und GC/MS-Daten durchführen. Mehrere Spektren können gleichzeitig dargestellt werden.

Sie können Spektren glätten, ausrichten und normalisieren und dann Klassifikations- und statistische Lernwerkzeuge verwenden, um Klassifikatoren zu erstellen und potenzielle Biomarker zu identifizieren.

Kennzeichnungsfreie Differential-Proteomik und Metabolomik-Analyse mit der Bioinformatics Toolbox.

Graphentheorie, stastisches Lernen und Gen-Ontologie

Graphentheorie und Visualisierung

Mit der Bioinformatics Toolbox können Sie die grundlegende Graphentheorie auf dünn besetzte Matrizen anwenden. Sie können Diagramme wie Interaktionskarten, Hierarchiediagramme und Pfade erstellen, anzeigen und bearbeiten. Sie können kürzeste Wege in Diagrammen bestimmen und anzeigen, in gerichteten Diagrammen auf Zyklen testen und Isomorphie zwischen zwei Diagrammen finden.

Statistisches Lernen und Visualisierung

Die Bioinformatics Toolbox bietet Funktionen, die auf den Klassifizierungs- und statistischen Lernalgorithmen in der Statistics und Machine Learning Toolbox aufbauen, wie beispielsweise:

  • Support Vector Machines (SVM) und k-Nearest-Neighbor-Klassifikatoren
  • Funktionen zur Einrichtung von Kreuzvalidierungsexperimenten und zur Messung der Leistung verschiedener Klassifizierungsmethoden
  • Interaktive Tools zur Merkmalsauswahl, Mapping und Anzeige von Hierarchieplots und Pfaden

Statistisches Lernen und Visualisierung.

Gen-Ontologie

Die Bioinformatics Toolbox ermöglicht es Ihnen, aus MATLAB® heraus auf die Gen-Ontologie-Datenbank zuzugreifen, Ontologie-kommentierte Dateien zu parsen und Untermengen der Ontologie wie Vorfahren, Nachkommen oder Verwandte zu erhalten.

Sequenzanalyse

Die Bioinformatics Toolbox bietet Sequenzanalyse- und Visualisierungswerkzeuge für genomische und proteomische Sequenzdaten. Sie können eine Vielzahl von Analysen durchführen, einschließlich mehrfacher Sequenzausrichtungen und des Aufbaus und der interaktiven Anzeige und Manipulation von phylogenetischen Bäumen.

Sequenzausrichtung

Die Toolbox bietet Funktionen, Objekte und Methoden für die Sequenzanalyse, einschließlich paarweiser Sequenz, Sequenzprofil und Ausrichtung mehrerer Sequenzen. Dazu gehören:

  • MATLAB -Implementierungen von Standardalgorithmen für die lokale und globale Sequenzausrichtung, wie z. B. Needleman-Wunsch-, Smith-Waterman- und profilversteckte Markov-Modell-Algorithmen
  • Progressive Ausrichtung mehrerer Sequenzen
  • Grafische Darstellungen von Ausrichtungsergebnis-Matrizen
  • Standard-Scoring-Matrizen, wie z. B. die PAM- und BLOSUM-Matrixfamilien
  • Konsensus-Sequenzberechnung und Sequenzlogo-Anzeige

Galerie (3 Bilder)

Dienstprogramme und Statistiken für Sequenzen

Mit der Toolbox können Sie Ihre Sequenzen manipulieren und analysieren, um ein tieferes Verständnis Ihrer Daten zu erlangen. Sie können damit Folgendes tun:

  • DNA- oder RNA-Sequenzen unter Verwendung des genetischen Codes in Aminosäuresequenzen umwandeln
  • Eine statistische Analyse der Sequenzen durchführen und nach bestimmten Mustern innerhalb einer Sequenz suchen.
  • Restriktionsenzyme und Proteasen zur Durchführung von in-silico-Verdauung von Sequenzen oder zur Erstellung von Zufallssequenzen für Testfälle anwenden.
  • Sekundärstruktur der RNA-Sequenzen mit minimaler freier Energie prognostizieren.

Sequenz-Visualisierung

Die Toolbox ermöglicht es Ihnen, Sequenzen und Ausrichtungen zu visualisieren. Sie können lineare oder zirkuläre Karten von Sequenzen anzeigen, die mit GenBank-Features versehen sind. Sie können Sekundärstrukturdiagramme einer RNA-Sequenz visualisieren. Mit interaktiven Betrachtungsgeräten können Sie paarweise und mehrfache Sequenzausrichtungen untersuchen und modifizieren.

Phylogenetische Baum-Analyse

Mit der Toolbox können Sie phylogenetische Bäume erstellen und bearbeiten. Sie können paarweise Abstände zwischen ausgerichteten oder nicht ausgerichteten Nukleotid- oder Aminosäuresequenzen unter Verwendung einer breiten Palette von Ähnlichkeitsmetriken wie Jukes-Cantor, p-Abstand, Alignment-Wert oder einer benutzerdefinierten Abstandsmethode berechnen. Phylogenetische Bäume werden unter Verwendung hierarchischer Verknüpfungen mit einer Vielzahl von Techniken konstruiert, darunter Nachbarschaftsverknüpfungen, Einzel- und vollständige Verknüpfungen und UPGMA (Unweighted Pair Group Method Average).

Die Toolbox unterstützt die Gewichtung und das Umsetzen von Bäumen, die Berechnung von Teilbäumen und die Berechnung der kanonischen Form von Bäumen. Mit dem phylogenetischen Baumbetrachter können Sie Verzweigungen kürzen, neu ordnen und umbenennen, Entfernungen untersuchen und Dateien im Newick-Format lesen oder schreiben. Sie können auch die Anmerkungs-Tools in MATLAB verwenden, um Bäume in Präsentationsqualität zu erstellen.

Analyse von Proteinmerkmalen

Die Toolbox bietet Techniken zur Proteinsequenzanalyse, einschließlich Routinen zur Berechnung von Eigenschaften einer Peptidsequenz wie atomare Zusammensetzung, isoelektrischer Punkt und Molekulargewicht. Sie können die Aminosäurezusammensetzung von Proteinsequenzen bestimmen, ein Protein mit einem Enzym spalten und Backbone-Plots und Ramachandran-Plots von PDB-Daten erstellen. Sie können das Sequence Tool verwenden, um die Eigenschaften einer Aminosäuresequenz anzuzeigen, oder den Molecule Viewer verwenden, um 3D-Molekularstrukturen anzuzeigen und zu manipulieren.

Datenimport und Anwendungsbereitstellung

Dateiformate und Datenbankzugriff

Sie können auf Standarddateiformate für biologische Daten, Online-Datenbanken und Websites zugreifen. Mit der Bioinformatics Toolbox können Sie:

  • Sequenzdaten aus Standarddateiformaten, einschließlich FASTA, PDB und SCF lesen
  • Microarray-Daten aus Dateiformaten wie Affymetrix DAT-, EXP-, CEL-, CHP- und CDF-Dateien; Daten im ImaGene® -Ergebnisformat; Agilent® Feature Extraction Software-Dateien; und GenePix® GPR- und GAL-Dateien lesen
  • Daten aus Online-Datenbanken wie GenBank, EMBL, NCBI BLAST und PDB lesen
  • Daten direkt von der NCBI Gene Expression Omnibus Website mit einem einzigen Befehl importieren
  • Zytogenetische Bandeninformationen aus NCBI-Ideogrammen oder UCSC-Zytoband-Textdateien lesen
  • Massenspektrometrie-Daten aus MZXML- und JCAMP-DX-Dateien lesen

Gemeinsame Nutzung von Algorithmen und Bereitstellung von Anwendungen

MATLAB bietet Tools, mit denen Sie Ihr Datenanalyseprogramm in eine maßgeschneiderte Softwareanwendung verwandeln können. Dazu gehören Entwicklungstools zur Erstellung von Benutzeroberflächen, eine visuelle integrierte Entwicklungsumgebung und ein Profiler. MATLAB-Produkte zur Anwendungsbereitstellung ermöglichen Ihnen die Integration Ihrer MATLAB-Algorithmen in bestehende Anwendungen in C, C++ und Java, die Bereitstellung der entwickelten Algorithmen und benutzerdefinierten Schnittstellen als eigenständige Anwendungen, die Konvertierung von MATLAB-Algorithmen in Microsoft® .NET- oder COM-Komponenten, auf die von jeder COM-basierten Anwendung aus zugegriffen werden kann, sowie die Erstellung von Microsoft Excel® -Add-Ins.

Sie können MATLAB in gängige Bioinformatik-Tools wie BioPerl, SOAP-basierte Webdienste und COM-Plugins integrieren.

Gemeinsame Nutzung von Algorithmen und Bereitstellung von Anwendungen

Neueste Funktionen

Genomics-Viewer

Visualisieren Sie NGS-Daten mit einer eingebetteten Version des Integrative Genomics Viewer (IGV)

Cufflings

Führen Sie statistische und differentielle Expressionsanalysen von RNA-Sequenzdaten durch

Details zu diesen Features und den zugehörigen Funktionen finden Sie in den Release Notes.