Technische Artikel

MATLAB in der Bioinformatik

Von Kristen Amuzzini, MathWorks


Vor zwei Jahren haben die Wissenschaftler des Human Genome Project ein „Glossar“ vor­gestellt, das den Bauplan des menschlichen Körpers enthält und bei seiner Fertigstellung sämtliche 3.000.000.000 Basenpaare der DNA-Sequenz des menschlichen Genoms auflisten wird.

Aktuelle Technologien zur DNA-Sequenzierung, wie sie im Human Genome Project eingesetzt werden, liefern Daten deutlich schneller, als andere Forscher deren therapeutisches Potential analysieren können. Dieser Herausforderung begegnen Forscher in der noch jungen Bioinformatik mit Hilfe mathematischer und statistischer Software, der Entwicklung von Computer-Modellen sowie weiterer technischer Methoden. Die Bioinformatik ist damit die derzeit jüngste ingenieurtechnische Disziplin.

Neben dem Screening und der Analyse riesiger Datensätze stellt die Integration verschiedener Spezialistenteams, unterschiedlicher Werkzeuge und fachspezifischer Kenntnisse in ihr Arbeitsumfeld die größte Herausforderung für Bioinformatiker dar. Bioinformatiker stammen typischerweise aus der Informatik, der Mathematik oder aus technischen Fachbereichen. Sie müssen eng mit Biowissenschaftlern zusammenarbeiten, die sich in der Molekularbiologie oder der Chemie auskennen, aber keine Experten für Mathematik oder die Programmierung sind.

Softwareauswahl

Um effizient arbeiten zu können, brauchen Bioinformatiker darum Software, die flexibel ist, möglichst viele Anwendungen unterstützt, skalierbar ist, die stetig wachsenden Datenmengen bewältigen kann und mit der sich Programme für die verschiedensten Anwendungsfelder erzeugen lassen. Es über­rascht darum nicht, dass viele Bioinformatiker MATLAB für vielfältige Aufgaben einsetzen —von der statistischen Analyse über die pharmakokinetische Modellierung bis hin zur Anwendungsentwicklung.

Datenanalyse und -visualisierung

Forscher aus der Biotechnologie und Pharmakologie verwenden MATLAB und zugehörige Toolboxen für Datenanalysen, Bildverarbeitung, Statistik, Kurvenanpassung, Sequenzanalyse, Analyse und Normalisie­rung von Microarray-Daten, Analyse massenspektrometrischer Daten, für neuronale Netzwerke und viele weitere rechenintensive Aufgaben. Mit MATLAB entfällt der Aufwand für die Integration vieler verschiedener Werkzeuge in die Arbeitsumgebung.

Modellentwicklung

Simulink wird zum Aufbau pharmakokinetischer PBPK-Modelle genutzt, mit deren Hilfe sich die Wirksamkeit potenzieller Arz­neimittel und deren beste therapeutische Dosierung schon im Vorfeld klinischer Studien einschätzen lassen. Solche Modelle enthalten in der Regel eine Reihe bekannter Parameter, wie das Gewebevolumen und die Durchblutungsrate, neben unbekannten Parametern, wie Absorptionsraten und Verteilungskoeffizienten. Da Simulink auf Blockdiagrammen basiert, können Organe in den Modellen nach physiologischen Kriterien organisiert werden, was die Vermittlung von Forschungserkenntnissen an Spezialisten aus anderen Fachgebieten erleichtert.

Lösung umfangreicher Probleme

Trotz effizienter numerischer Methoden und Algorithmen sind in den Biowissenschaften viele Berechnungen zu groß und komplex, um von einem Rechner allein bewältigt werden zu können. Bei der Stapelverarbeitung massenspektrometrischer Profile z.B. sind unter Umständen mehrere Terabytes an Daten zu bewältigen. Ein anderes besonders anspruchsvolles Rechenproblem ist der als „Bootstrapping“ bekannte iterative Test. Mit ihm werden phylogenetische Stammbäume erstellt und die Zuordnung der Verzweigungen analysiert.

MATLAB bietet den Forschern Werkzeuge für verteilte Berechnungen, mit denen solche Aufgaben auf kleinere Einheiten verteilt werden können. Die Algorithmen oder Modelle werden dazu in mehrere unabhängige Tasks aufgeteilt und auf mehreren Rechnern parallel abgearbeitet. Mit MATLAB können außer dem eigenständig lauffähige Anwen­dungen oder Plug-Ins für Excel erzeugt und anderen Kollegen zur Verfügung gestellt werden.

Ausblick

Derzeit arbeiten Bioinformatiker an der Nutzbarmachung von Analysemethoden wie der Microarray-Analyse und der Massen­spektrometrie für die Medizin und die Biologie. Sie wollen damit neue Einblicke in Genom- und Proteom-Daten ermöglichen und das Verständnis von Krankheiten verbessern. Sie entwickeln neue Wege zur Sequenzierung des menschlichen Genoms, die es Ärzten in Zukunft ermöglichen sollen, Behandlungsmethoden auf die individuelle Genetik des Patienten abzustimmen. Ohne die enormen Fortschritte, die die Hardware und Software in den letzten Jahren gemacht hat, wären diese Vorhaben unmöglich.

cb_fig1_w.gif
Vergleich der experimentellen und der vom Modell vorhergesagten Konzentration eines Medikaments von Novartis als Funktion der Zeit nach oraler Gabe. Zum Vergrößern auf das Bild klicken.

Novartis nutzt MATLAB und Simulink zur Erzeugung PBPK-Modelle für klinische Studien, die den Verlauf der Aufnahme und Verteilung von Arzneimitteln im tierischen oder menschlichen Körper beschreiben. Die PBPK-Mo­delle basieren auf Systemen gewöhnlicher Differenzialgleichungen und einem Satz verknüpfter Variablen und Parameter.

„Unsere Modelle können durch einfache Veränderungen der Parameter schnell an spezifische chemische Verbindungen oder biologische Systeme angepasst werden“, so Brian Stoll von Novartis. „Die große Verbreitung von MATLAB in unserer Branche erleichtert die Zusammenarbeit mit anderen Forschergruppen.”

2D-Gelelektrophorese
2D-Gelelektrophorese. Zum Vergrößern auf das Bild klicken.

Forscher des Fachbereichs Biostatistik, Bioinformatik und Epidemiologie der Medizinischen Universität von South Carolina (MUSC) nutzen MATLAB, um Anwendungen für die Genom- und Proteomanalyse zu entwickeln, wie die Biomarker-Identifi­zierung, die 2D-Gelanalyse und künst­liche neuronale Netzwerke. Diese Programmpakete sind im Internet für andere Forschergruppen frei verfügbar.

Untersuchungsmethoden

Biologische Daten sind sehr verschiedenartig. Entsprechend viele Analysemethoden wie Microarrays, die Massenspektrometrie, die Durchfluss-Zytometrie, die Mikroskopie oder die 2D-Gelelektrophorese sind zu ihrer Aufschlüsselung nötig.

cb_fig3_w.gif
Mit Microarrays (links) lässt sich die Genexpression schnell und an großen Mengen verschiedener Gene gleichzeitig untersuchen. Ein zweidimensionales Cluster-Diagramm (rechts) zeigt Verwandtschaften zwischen verschiedenen Gruppen von Genen auf.

Mit Microarrays ist es möglich, die enorme Informationsmenge eines Genoms zu analysieren, beispielsweise wie Gene miteinander interagieren. Vor der Einführung von Microarrays konnten Forscher immer nur ein isoliertes Gen studieren und entsprechende Experiment dauerten Tage oder Wochen. Mit Microarrays können sie Tausende von Genen gleichzeitig untersuchen. Zur Erzeugung eines Microarrays wird eine Probe geklonter DNA auf eine feste Matrix, etwa einen Objektträger, aufgebracht. Mit einem Rasterelektronenmikroskop wird dann der Anteil bestimmter DNA-Fragmente ausgezählt. Bei der Microarray-Analyse werden die Ergebnisse zunächst normalisiert, um ihre Vergleichbarkeit sicherzustellen. Anschließend werden Gruppen von Genen mit ähnlichem Verhalten identifiziert und dann die Daten visualisiert, um Muster, Trends und andere Charakteristika aufzufinden.

Die Massenspektrometrie ist eine mächtige Analysetechnik, um biologische und chemische Verbindungen zu identifizieren und quantitativ zu bestimmen. Ein Zielmolekül wird mit Elektronen be­schossen, wodurch es ionisiert wird und zerfällt. Die Fragmente werden nach ihrem Masse/Ladungsverhältnis getrennt und erzeugen einen molekularen „Fingerabdruck“, der für jedes Protein einzigartig ist. Die Analyse besteht aus der Aufbereitung und Normalisierung der Daten, der Kalibrierung der Spektren und der Suche nach statistisch aussagekräftigen Peaks in den verschiedenen Proben.

Bei der Durchfluss-Zytometrie bestimmt man die DNA-Menge in Zellen mit Hilfe fluoreszierender Proteinmarker, die mit einem Laser angeregt werden. Diese Methode ­dient zur Bestimmung der Rückfallwahrscheinlichkeit bei bestimmten Krebsarten.

Wie die Durchfluss-Zytometrie hilft auch die Mikroskopie, die Proteinaktivität auf zellularer Ebene quantitativ zu bestimmen, da mit ihr viele Zellen gleichzeitig über einen längeren Zeitraum beobachtet werden können.

Die 2D-Gelelektrophorese ermög­licht die Trennung und Identifizierung von Molekülen anhand der Geschwindigkeit, mit der sie sich durch ein elektrisches Feld bewegen. Diese Technik wird, neben rein analytischen Zwecken, auch zur Reinigung von Molekülen genutzt, bevor weitere Methoden wie zum Beispiel Massen­spektrometrie, PCR, Klonierung, DNA-Sequenzierung oder ‚Immuno-Blotting’ angewendet werden.

cb_fig4_w.jpg
Mit der zweidimensionalen Gelanalyse können die in einer Probe vorhandenen Proteine identifiziert werden. Bild mit freundlicher Genehmigung von Dr. med. Alan W. Partin, Johns Hopkins University School of Medicine. Zum Vergrößern auf das Bild klicken.

Veröffentlicht 2006

Artikel für ähnliche Einsatzgebiete anzeigen

Artikel für verwandte Branchen anzeigen