MATLAB in der Bioinformatik
Von Kristen Amuzzini, MathWorks
Vor zwei Jahren haben die Wissenschaftler des Human Genome Project ein „Glossar“ vorgestellt, das den Bauplan des menschlichen Körpers enthält und bei seiner Fertigstellung sämtliche 3.000.000.000 Basenpaare der DNA-Sequenz des menschlichen Genoms auflisten wird.
Aktuelle Technologien zur DNA-Sequenzierung, wie sie im Human Genome Project eingesetzt werden, liefern Daten deutlich schneller, als andere Forscher deren therapeutisches Potential analysieren können. Dieser Herausforderung begegnen Forscher in der noch jungen Bioinformatik mit Hilfe mathematischer und statistischer Software, der Entwicklung von Computer-Modellen sowie weiterer technischer Methoden. Die Bioinformatik ist damit die derzeit jüngste ingenieurtechnische Disziplin.
Neben dem Screening und der Analyse riesiger Datensätze stellt die Integration verschiedener Spezialistenteams, unterschiedlicher Werkzeuge und fachspezifischer Kenntnisse in ihr Arbeitsumfeld die größte Herausforderung für Bioinformatiker dar. Bioinformatiker stammen typischerweise aus der Informatik, der Mathematik oder aus technischen Fachbereichen. Sie müssen eng mit Biowissenschaftlern zusammenarbeiten, die sich in der Molekularbiologie oder der Chemie auskennen, aber keine Experten für Mathematik oder die Programmierung sind.
Softwareauswahl
Um effizient arbeiten zu können, brauchen Bioinformatiker darum Software, die flexibel ist, möglichst viele Anwendungen unterstützt, skalierbar ist, die stetig wachsenden Datenmengen bewältigen kann und mit der sich Programme für die verschiedensten Anwendungsfelder erzeugen lassen. Es überrascht darum nicht, dass viele Bioinformatiker MATLAB für vielfältige Aufgaben einsetzen —von der statistischen Analyse über die pharmakokinetische Modellierung bis hin zur Anwendungsentwicklung.
Datenanalyse und -visualisierung
Forscher aus der Biotechnologie und Pharmakologie verwenden MATLAB und zugehörige Toolboxen für Datenanalysen, Bildverarbeitung, Statistik, Kurvenanpassung, Sequenzanalyse, Analyse und Normalisierung von Microarray-Daten, Analyse massenspektrometrischer Daten, für neuronale Netzwerke und viele weitere rechenintensive Aufgaben. Mit MATLAB entfällt der Aufwand für die Integration vieler verschiedener Werkzeuge in die Arbeitsumgebung.
Modellentwicklung
Simulink wird zum Aufbau pharmakokinetischer PBPK-Modelle genutzt, mit deren Hilfe sich die Wirksamkeit potenzieller Arzneimittel und deren beste therapeutische Dosierung schon im Vorfeld klinischer Studien einschätzen lassen. Solche Modelle enthalten in der Regel eine Reihe bekannter Parameter, wie das Gewebevolumen und die Durchblutungsrate, neben unbekannten Parametern, wie Absorptionsraten und Verteilungskoeffizienten. Da Simulink auf Blockdiagrammen basiert, können Organe in den Modellen nach physiologischen Kriterien organisiert werden, was die Vermittlung von Forschungserkenntnissen an Spezialisten aus anderen Fachgebieten erleichtert.
Lösung umfangreicher Probleme
Trotz effizienter numerischer Methoden und Algorithmen sind in den Biowissenschaften viele Berechnungen zu groß und komplex, um von einem Rechner allein bewältigt werden zu können. Bei der Stapelverarbeitung massenspektrometrischer Profile z.B. sind unter Umständen mehrere Terabytes an Daten zu bewältigen. Ein anderes besonders anspruchsvolles Rechenproblem ist der als „Bootstrapping“ bekannte iterative Test. Mit ihm werden phylogenetische Stammbäume erstellt und die Zuordnung der Verzweigungen analysiert.
MATLAB bietet den Forschern Werkzeuge für verteilte Berechnungen, mit denen solche Aufgaben auf kleinere Einheiten verteilt werden können. Die Algorithmen oder Modelle werden dazu in mehrere unabhängige Tasks aufgeteilt und auf mehreren Rechnern parallel abgearbeitet. Mit MATLAB können außer dem eigenständig lauffähige Anwendungen oder Plug-Ins für Excel erzeugt und anderen Kollegen zur Verfügung gestellt werden.
Ausblick
Derzeit arbeiten Bioinformatiker an der Nutzbarmachung von Analysemethoden wie der Microarray-Analyse und der Massenspektrometrie für die Medizin und die Biologie. Sie wollen damit neue Einblicke in Genom- und Proteom-Daten ermöglichen und das Verständnis von Krankheiten verbessern. Sie entwickeln neue Wege zur Sequenzierung des menschlichen Genoms, die es Ärzten in Zukunft ermöglichen sollen, Behandlungsmethoden auf die individuelle Genetik des Patienten abzustimmen. Ohne die enormen Fortschritte, die die Hardware und Software in den letzten Jahren gemacht hat, wären diese Vorhaben unmöglich.
Novartis nutzt MATLAB und Simulink zur Erzeugung PBPK-Modelle für klinische Studien, die den Verlauf der Aufnahme und Verteilung von Arzneimitteln im tierischen oder menschlichen Körper beschreiben. Die PBPK-Modelle basieren auf Systemen gewöhnlicher Differenzialgleichungen und einem Satz verknüpfter Variablen und Parameter.
„Unsere Modelle können durch einfache Veränderungen der Parameter schnell an spezifische chemische Verbindungen oder biologische Systeme angepasst werden“, so Brian Stoll von Novartis. „Die große Verbreitung von MATLAB in unserer Branche erleichtert die Zusammenarbeit mit anderen Forschergruppen.”
Forscher des Fachbereichs Biostatistik, Bioinformatik und Epidemiologie der Medizinischen Universität von South Carolina (MUSC) nutzen MATLAB, um Anwendungen für die Genom- und Proteomanalyse zu entwickeln, wie die Biomarker-Identifizierung, die 2D-Gelanalyse und künstliche neuronale Netzwerke. Diese Programmpakete sind im Internet für andere Forschergruppen frei verfügbar.
Untersuchungsmethoden
Biologische Daten sind sehr verschiedenartig. Entsprechend viele Analysemethoden wie Microarrays, die Massenspektrometrie, die Durchfluss-Zytometrie, die Mikroskopie oder die 2D-Gelelektrophorese sind zu ihrer Aufschlüsselung nötig.
Mit Microarrays ist es möglich, die enorme Informationsmenge eines Genoms zu analysieren, beispielsweise wie Gene miteinander interagieren. Vor der Einführung von Microarrays konnten Forscher immer nur ein isoliertes Gen studieren und entsprechende Experiment dauerten Tage oder Wochen. Mit Microarrays können sie Tausende von Genen gleichzeitig untersuchen. Zur Erzeugung eines Microarrays wird eine Probe geklonter DNA auf eine feste Matrix, etwa einen Objektträger, aufgebracht. Mit einem Rasterelektronenmikroskop wird dann der Anteil bestimmter DNA-Fragmente ausgezählt. Bei der Microarray-Analyse werden die Ergebnisse zunächst normalisiert, um ihre Vergleichbarkeit sicherzustellen. Anschließend werden Gruppen von Genen mit ähnlichem Verhalten identifiziert und dann die Daten visualisiert, um Muster, Trends und andere Charakteristika aufzufinden.
Die Massenspektrometrie ist eine mächtige Analysetechnik, um biologische und chemische Verbindungen zu identifizieren und quantitativ zu bestimmen. Ein Zielmolekül wird mit Elektronen beschossen, wodurch es ionisiert wird und zerfällt. Die Fragmente werden nach ihrem Masse/Ladungsverhältnis getrennt und erzeugen einen molekularen „Fingerabdruck“, der für jedes Protein einzigartig ist. Die Analyse besteht aus der Aufbereitung und Normalisierung der Daten, der Kalibrierung der Spektren und der Suche nach statistisch aussagekräftigen Peaks in den verschiedenen Proben.
Bei der Durchfluss-Zytometrie bestimmt man die DNA-Menge in Zellen mit Hilfe fluoreszierender Proteinmarker, die mit einem Laser angeregt werden. Diese Methode dient zur Bestimmung der Rückfallwahrscheinlichkeit bei bestimmten Krebsarten.
Wie die Durchfluss-Zytometrie hilft auch die Mikroskopie, die Proteinaktivität auf zellularer Ebene quantitativ zu bestimmen, da mit ihr viele Zellen gleichzeitig über einen längeren Zeitraum beobachtet werden können.
Die 2D-Gelelektrophorese ermöglicht die Trennung und Identifizierung von Molekülen anhand der Geschwindigkeit, mit der sie sich durch ein elektrisches Feld bewegen. Diese Technik wird, neben rein analytischen Zwecken, auch zur Reinigung von Molekülen genutzt, bevor weitere Methoden wie zum Beispiel Massenspektrometrie, PCR, Klonierung, DNA-Sequenzierung oder ‚Immuno-Blotting’ angewendet werden.
Veröffentlicht 2006