Technische Artikel

Datengestützte Steuerung für die zelluläre Reprogrammierung mit MATLAB

Von Dr. Indika Rajapakse


„MATLAB ist die beste Umgebung, die wir haben, um die Netzwerke zu erforschen, die definieren, wie zelluläre Reprogrammierung funktioniert – und wie wir sie nutzen können, um die Krebsbehandlung und die regenerative Medizin zu verändern.“

Die Chemotherapie ist eine unserer wirksamsten Waffen im Kampf gegen Leukämie und andere Krebsarten, aber sie kann auch ein zweischneidiges Schwert sein. Im Zuge der Zerstörung von Krebszellen wird häufig auch das Immunsystem vernichtet. Nach der Verabreichung dieser Therapie müssen Ärzte oft eine „Behandlung der Behandlung“ durchführen, indem sie eine Knochenmarktransplantation vornehmen, um den Patienten bei der Genesung zu helfen, indem sie das Immunsystem wieder aufbauen. Diese Transplantationen bringen ihre eigenen Herausforderungen mit sich, da es nicht einfach ist, einen passenden Spender zu finden, und selbst wenn ein passender Spender gefunden wird, können schwerwiegende Komplikationen wie die Graft-versus-Host-Reaktion auftreten. 

Stellen Sie sich nun einen anderen Weg vor. Was wäre, wenn wir einige der körpereigenen Hautzellen des Patienten in die benötigten Knochenmarkzellen umwandeln könnten? Die beiden Herausforderungen, einen Spender zu finden und das Spendergewebe abzustoßen, würden auf einen Schlag beseitigt. Das ist das Versprechen der zellulären Reprogrammierung, und sie steht im Mittelpunkt der Arbeit meiner Forschungsgruppe an der Universität von Michigan. Wir entwickeln Methoden zur direkten Umwandlung eines Zelltyps in einen anderen mithilfe von Molekülen, die wir „Transkriptionsfaktoren“ nennen (Proteine, die dabei helfen, Gene ein- oder auszuschalten), um die Identität einer Zelle zurückzusetzen. 

Aus ingenieurtechnischer Sicht lässt sich dies als klassisches Regelungsproblem formulieren. Wenn der aktuelle Zustand des Systems einer Hautzelle entspricht und das Ziel eine Knochenmarkzelle ist, wie können wir das System zum Ziel führen? Wir modellieren es als ẋ = f(x, u), wobei x der Zustand der Zelle ist und u die Menge und den Zeitpunkt der von uns angewendeten Transkriptionsfaktoren darstellt. Um die richtigen Faktoren zu finden – und wann man sie anwenden sollte – führen wir Experimente durch, die erhebliche Mengen an Rohdaten erzeugen, darunter RNA-Sequenzierungsdaten (RNA-Seq), Daten zur 3D-Genomorganisation und Daten zur Bindung von Transkriptionsfaktoren. 

Der Erfolg unserer Forschung hängt von unserer Fähigkeit ab, die komplexen biologischen Datensätze, die wir sammeln – oft umfangreich, matrixbasiert und hochdimensional – zu verarbeiten und zu analysieren. Es hängt auch von unserer Fähigkeit ab, die Netzwerke zu verstehen, die der Genregulation und der Genomorganisation zugrunde liegen. In unserer Arbeit sind Gene und genomische Regionen die Knotenpunkte des Netzwerks; ihre Interaktionen – physikalische Kontakte, regulatorische Einflüsse, Koexpression – bilden die Kanten. Diese Netzwerke können einfache Graphen oder komplexere Hypergraphen sein, und beide lassen sich auf natürliche Weise als Matrizen darstellen. Diese Matrizen sind die zentralen Datenstrukturen, die an Algorithmen und Modelle übergeben werden, von denen viele auf Eigenwertzerlegung, Singulärwertzerlegung (SVD) und anderen Operationen der linearen Algebra basieren – die alle in MATLAB® auf natürliche und effiziente Weise verarbeitet werden. Wir verlassen uns seit Jahren auf MATLAB, um die Arbeitsabläufe zu erstellen, die die Grundlage unserer Arbeit bilden, und seit kurzem verwenden wir die Biopipeline Designer App, um Teile davon als Bioinformatik-Pipelines zu definieren und auszuführen.

Eine kurze Geschichte der zellulären Reprogrammierung und der Entstehung datengesteuerter Steuerung

Obwohl die Idee der Reprogrammierung von Zellen schon seit Jahrzehnten existierte, machte das Gebiet der zellulären Reprogrammierung im Jahr 2006 einen dramatischen Sprung nach vorn, als Shinya Yamanaka zeigte, dass nur vier Transkriptionsfaktoren eine ausgereifte Hautzelle in einen pluripotenten, stammzellähnlichen Zustand zurückversetzen konnten. Seine Entdeckung induzierter pluripotenter Stammzellen brachte ihm den Nobelpreis ein und veränderte meiner Ansicht nach das Paradigma der Biologie grundlegend. Interessanterweise erregte Yamanakas Arbeit zwar weltweites Aufsehen, doch war dies nicht der erste Beweis dafür, dass Zellen ihre Identität und Funktion grundlegend verändern können. Etwa zwanzig Jahre zuvor hatte Harold Weintraub – der am Fred Hutchinson Cancer Research Center arbeitete, wo ich später mein Postdoktorandenstipendium in Genom- und Zellbiologie abschloss – gezeigt, dass ein ausgereifter Zelltyp direkt in einen anderen Zustand umgewandelt werden könnte, wobei der pluripotente Zustand vollständig umgangen wird. Er veröffentlichte diese Arbeit im Jahr 1987, aber zu dieser Zeit war das Fachgebiet noch nicht ganz bereit, seine Entdeckungen und die Brillanz seiner Arbeit aufzunehmen.

Aufbauend auf der Vision dieser frühen Pioniere konzentriert sich unser Labor auf die direkte Reprogrammierung – und insbesondere darauf, wie diese zuverlässiger und vorhersagbarer gestaltet werden kann. Zu unseren wichtigsten Beiträgen gehört ein Rahmenwerk namens datengestützte Steuerung (Abbildung 1). Dieser Ansatz optimiert den Einsatz von Transkriptionsfaktoren bei der zellulären Reprogrammierung durch Anwendung von Prinzipien der mathematischen Kontrolltheorie. 

Ein Diagramm, das mithilfe von Kontrolltheorie und Genexpressionsnetzwerken veranschaulicht, wie Transkriptionsfaktoren die Zellreprogrammierung steuern.

Abbildung 1. Ein Überblick über die datengestützte Steuerung, einschließlich einer Zusammenfassung der Variablen der Steuerungsgleichung (A), der Darstellung topologisch assoziierender Domänen (TADs) als Knoten in einem dynamischen Netzwerk mit Kanten, die aus RNA-Seq-Zeitreihen (B) bestimmt werden, einer konzeptionellen Veranschaulichung der Identifizierung einer Menge von TFs, die den Zellzustand von einem Becken in ein anderes verschieben (C).

Bei der datengestützten Steuerung erstellen wir Modelle für die natürliche Evolution von Zellpopulationen, indem wir die Genexpression zu mehreren Zeitpunkten während des gesamten Zellzyklus erfassen. Um die Komplexität zu bewältigen, clustern wir die Genexpression auf der Grundlage topologisch assoziierender Domänen (TADs) und modellieren die Dynamik ihrer Expressionsniveaus. (TADs sind Regionen des Genoms, die häufiger untereinander als mit Regionen außerhalb des Genoms physikalisch interagieren und so diskrete dreidimensionale Struktureinheiten bilden.) Um diese dynamischen Modelle zu erstellen, integrieren wir Hi-C-Daten – die physikalische Wechselwirkungen zwischen verschiedenen Regionen des Genoms abbilden – mit RNA-Seq-Daten, die verfolgen, wie sich die Genexpression im Laufe der Zeit verändert (Abbildung 2). Die Modelle ermöglichen es uns, in Kombination mit Daten zu Transkriptionsfaktor-Bindungsstellen und -Aktivität, die vielversprechendsten Transkriptionsfaktorkandidaten für spezifische Reprogrammierungsaufgaben systematisch zu identifizieren. 

Eine Visualisierung, die 3D-Genomstruktur und Genexpressionsdaten kombiniert, um die Analyse der Zellreprogrammierung zu unterstützen.

Abbildung 2. Die zelluläre Reprogrammierung erfordert die Integration verschiedener Datentypen (Hi-C für die 3D-Genomstruktur und RNA-Seq für die Genexpression), um sowohl die strukturelle Organisation (TADs) als auch die funktionellen Aspekte des Genoms zu verstehen.

Mithilfe datengestützter Steuerung konnten wir erfolgreich Faktoren identifizieren, die zuvor in Reprogrammierungsexperimenten validiert wurden. Wichtiger noch: Wir haben sie genutzt, um potenziell wirkungsvolle neue Kombinationen zu identifizieren. Die Matrix- und Visualisierungsfunktionen von MATLAB haben sich in dieser Arbeit als wertvoll erwiesen, da sie es uns ermöglichten, die komplexen mathematischen Operationen, die unseren Kontrollalgorithmen zugrunde liegen, effizient zu verarbeiten und die daraus resultierenden hochdimensionalen biologischen Daten zu interpretieren.

Optimierung von Hypergraphanalyse- und Bioinformatik-Pipelines

Während uns die datengestützte Steuerung eine Möglichkeit bietet, die Dynamik der Genexpression zu modellieren, erfordert die Erklärung dieser Dynamik oft die Erfassung regulatorischer Interaktionen, die über einfache paarweise Modelle hinausgehen. Viele biologische Interaktionen involvieren nicht nur zwei, sondern viele zelluläre Komponenten gleichzeitig. Die Genregulation erfordert beispielsweise häufig die koordinierte Bindung mehrerer Transkriptionsfaktoren und Koaktivatoren an Enhancer- und Promotorregionen des Genoms. Standardnetzwerkmodelle, die Beziehungen als Verbindungen zwischen Elementpaaren darstellen, können diese Mehrwegeinteraktionen nicht adäquat erfassen. Um dieser Komplexität zu begegnen, entwickelte unser Labor die Hypergraph Analysis Toolbox (HAT), eine öffentlich verfügbare Toolbox zur Analyse und Visualisierung von Strukturen höherer Ordnung in MATLAB. HAT ermöglicht es Forschern, Hypergraphen zu konstruieren, zu visualisieren und zu analysieren: mathematische Strukturen, in denen eine einzige Verbindung (Hyperkante) mehrere Knoten verknüpfen kann und so Mehrwegeinteraktionen in komplexen biologischen Systemen präzise darstellt. Diese Fähigkeit ist besonders wertvoll bei der zellulären Reprogrammierung, da das Verständnis der komplexen Dynamik von Genregulationsnetzwerken und Chromatin-Interaktionen optimale Interventionspunkte für die Umwandlung eines Zelltyps in einen anderen aufzeigen kann. HAT hilft uns, kritische regulatorische Module und Kontrollpunkte zu identifizieren, die für paarweise Netzwerkmodelle unsichtbar wären, und verbessert so unsere Fähigkeit, effektive Umprogrammierungsstrategien zu entwickeln.

Die Hypergraphanalyse wird häufig im Rahmen eines mehrstufigen Prozesses oder einer Pipeline durchgeführt. Unsere experimentellen Arbeitsabläufe umfassen typischerweise die Rohdatenerfassung von Sequenzierungsplattformen, die Ausrichtung an Referenzgenomen, die Filterung und weitere nachgelagerte Schritte. Mit der Biopipeline Designer App können wir diese Prozesse optimieren (Abbildung 3). Wir können beispielsweise eine Pipeline erstellen, die mit Sequenzierungsdaten beginnt, diese ausrichtet, die Genexpression quantifiziert, Filterung und Normalisierung durchführt und dann biologisch aussagekräftige Merkmale – eine Signatur – extrahiert, die zur Identifizierung oder Klassifizierung von Zellen, zur Verfolgung des Reprogrammierungsfortschritts oder zur Steuerung von Interventionen verwendet werden können. Wir können durchgängige Bioinformatik-Workflows interaktiv erstellen und ausführen, indem wir sowohl etablierte Bioinformatik-Tools als auch individuell entwickelten Code zu zusammenhängenden Analyse-Pipelines verbinden. Darüber hinaus können wir benutzerdefinierte Blöcke erstellen, um beliebige MATLAB -Funktionen darzustellen – einschließlich unserer HAT-Funktionen – und diese mit vorgefertigten Blöcken für gängige Bioinformatik-Operationen integrieren. 

Ein Screenshot der Biopipeline Designer-App in MATLAB, der einen modularen Bioinformatik-Workflow zeigt.

Abbildung 3. Die Biopipeline Designer App. 

Dieser Ansatz ist besonders leistungsstark bei der Verarbeitung unserer RNA-Seq-Daten für die Genexpressionsanalyse. Diese Daten sind von entscheidender Bedeutung für unser Verständnis des Zellzustands und der Reprogrammierungsdynamik. Die Biopipeline Designer App spart uns Zeit und gewährleistet Reproduzierbarkeit, da fertige Pipelines mit minimalen Anpassungen geteilt oder für verschiedene Datentypen angepasst werden können. Für die Forschung zur zellulären Reprogrammierung, bei der iterative Experimente und Analysen unerlässlich sind, verlassen wir uns auf die Fähigkeit, Analysen schnell anzupassen und mit unterschiedlichen Parametern erneut durchzuführen, um unsere Rechenmodelle und Kontrollstrategien zu verfeinern.

MATLAB und Mathematische Biologie im Unterricht

In unserem Labor verwenden wir MATLAB praktisch für alles, was wir tun. Diese Philosophie prägt auch meine Lehrtätigkeit auf Masterebene, wo ich die Kurse "Mathematik biologischer Netzwerke" und "Mathematik der Daten" unterrichte. Diese Kurse behandeln grundlegende Konzepte wie Spektralgraphentheorie, Netzwerksteuerbarkeit, SVD, probabilistische Modellierung und neuronale Netze – alles angewandt auf biologische Datensätze mit MATLAB. 

Wenn möglich, präsentieren wir Gastvorträge von Cleve Moler, Mitbegründer von MathWorks und Entwickler von MATLAB, dessen Vortrag „Wie SVD das Universum rettete" meine Studenten inspiriert und gleichzeitig den tiefgreifenden Einfluss der linearen Algebra auf das wissenschaftliche Rechnen verdeutlicht.

Aktuelle und zukünftige Entwicklungen 

Unser aktueller Ansatz stützte sich bisher hauptsächlich auf Hi-C-Daten für die Kartierung paarweiser Chromatin-Interaktionen und zur Identifizierung von TADs. Unser Labor arbeitet nun an der Integration der Langsequenzierungstechnologie von Oxford Nanopore Technologies, um unser Verständnis der Chromatinarchitektur (der Art und Weise, wie DNA im Zellkern mit Proteinen verpackt ist) zu verbessern. Im Gegensatz zur herkömmlichen Kurzsequenzierung erfasst die Pore-C-Methode des Unternehmens Mehrwege-Chromatin-Interaktionen und epigenetische Modifikationen; dies ermöglicht einen umfassenderen Einblick in die 3D-Genomstruktur (Abbildung 4). Diese Weiterentwicklung erfordert Anpassungen unserer Datenverarbeitungs-Workflows, und wir planen, Biopipeline Designer zur Verwaltung und Analyse der komplexeren Datensätze einzusetzen. 

Visueller Vergleich von Chromatin-Kontaktkarten mittels Hi-C und Pore-C. Das Hi-C-Panel zeigt eine Heatmap der paarweisen Interaktionen und TAD-Grenzen auf Chromosom 4. Das Pore-C-Panel veranschaulicht einen Sequenzierungs-Workflow und hypergraphbasierte Mehrwegekontakte über eine genomische Region hinweg.

Abbildung 4. Vergleich von genomweiten Kontaktkarten, die mit Hi-C- und Pore-C-Technologien erstellt wurden. 

Wir erweitern außerdem unser datengestütztes Steuerungsframework um Hypergraph-Darstellungen, wodurch wir Genregulationsinteraktionen höherer Ordnung effektiver modellieren können. Darüber hinaus planen wir, über die Reprogrammierung auf Populationsebene hinauszugehen und die Reprogrammierung einzelner Zellen einzubeziehen, mit dem Ziel, die Erfolgsraten der Reprogrammierung zu verbessern. Wir beschäftigen uns auch mit der Gewebeherstellung und erforschen das Potenzial, funktionelle Gewebe aus reprogrammierten Zellen zusammenzusetzen. Zur Unterstützung dieser Vorhaben umfasst unsere langfristige Vision die Entwicklung vollautomatisierter Laborsysteme, in denen digitale Zwillinge der benötigten Robotersysteme in Simulink® modelliert und simuliert werden.​

Wenn Forscher darüber sprechen, eine Hautzelle zu entnehmen, sie umzuprogrammieren und sie einem Patienten wieder zuzuführen, mag das wie Science-Fiction klingen. Wie der Science-Fiction-Autor Arthur C. Clarke bekanntlich feststellte: „Jede hinreichend fortgeschrittene Technologie ist von Magie nicht zu unterscheiden.“ In diesem Sinne bin ich der Überzeugung, dass MATLAB-Tools eine entscheidende Rolle dabei spielen, diese „Magie“ in die Realität umzusetzen.

Über den Autor

Dr. Rajapakse ist Professor für Computermedizin und Bioinformatik an der Medizinischen Fakultät der University of Michigan und Professor für Mathematik am College für Literatur, Naturwissenschaften und Künste der University of Michigan. Er schloss sein Postdoktorandenstipendium im Bereich Genom- und Zellbiologie am Fred Hutchinson Cancer Research Center im Jahr 2012 ab. Er ist außerdem Mitglied des Smale Institute und wissenschaftlicher Leiter sowie Mitbegründer von iReprogram, Inc. Zu seinen Forschungsinteressen gehören die Reprogrammierung von Zellen, die digitale Biologie, datengestütztes Lernen und Steuerung höherer Strukturen sowie die Mathematik der Synchronisation.

Veröffentlicht 2025

Eingesetzte Produkte

Weitere Informationen

Artikel für ähnliche Einsatzgebiete anzeigen

Artikel für verwandte Branchen anzeigen