Neue AI-Plattform klärt regulatorische Aktivitäten im Genom auf
Forscher der University of California, San Diego (UCSD) haben eine Deep-Learning-Software namens EUGENe (genomic elements with neural nets) entwickelt, um die Untersuchung von Genregulationsmechanismen zu unterstützen. EUGENe wurde entwickelt, um die Extraktion und Transformation von Sequenzdaten, das Training von Computermodellen und die Interpretation der Ergebnisse in der regulatorischen Genomik zu vereinfachen, so Nature Computational Science.
Forscher, die komplexe Genregulationsmechanismen bei gesunden und gestörten biologischen Prozessen untersuchen, haben nun ein neues Werkzeug zur Hand. Forscher an der Universität von Kalifornien, San Diego (UCSD) und an anderen Orten haben Deep-Learning-Software entwickelt, von der sie behaupten, dass sie für verschiedene Genomik-Projekte angepasst werden kann. Details der Software, bekannt als genetische Elemente mit neuronalen Netzen oder EUGENe, werden in Nature Computational Science in einem Artikel mit dem Titel „Vorhersagende Analyse von regulatorischen Sequenzen mit EUGENe“ vorgestellt.
Laut dem Artikel umfasst EUGENe verschiedene Module und Unterprogramme zum Extrahieren und Transformieren von Sequenzdaten, zum Instanziieren und Trainieren von Computermodellen und zum Bewerten und Interpretieren des Verhaltens der Modelle nach dem Training. „Das Hauptziel von EUGENe ist es, die End-to-End-Ausführung dieser drei Phasen zu optimieren, um das effektive Design, die Implementierung, die Validierung und die Interpretation von Deep-Learning-Lösungen in der regulativen Genomik zu fördern“, schrieben die Wissenschaftler.
Deep Learning ist in der Genomik-Gemeinschaft sicherlich nicht neu. Als Beispiel wurde die Technologie erfolgreich eingesetzt, um DNA- und RNA-Proteinbindemotive zu erkennen und Vorhersagen über Chromatinzustände und transkriptionelle Aktivität zu machen. Aber das Design und die Implementierung von Deep-Learning-Workflows für Genomik-Studien waren selbst für erfahrene Forscher immer eine Herausforderung. Das liegt zumindest teilweise daran, dass „Nuancen, die spezifisch für Genomik-Daten sind, eine besonders hohe Lernkurve für Analysen in diesem Bereich schaffen. Darüber hinaus erschwert die Heterogenität in der Implementierung der meisten mit Veröffentlichungen verbundenen Codes die Erweiterbarkeit und Reproduzierbarkeit“, schrieben die Autoren.
Adam Klie, ein Doktorand an der UCSD School of Medicine und der Erstautor der Studie, entwarf die Software, um diese Herausforderungen zu mildern, die er auch in seiner eigenen Arbeit erlebt hat. „Viele bestehende Plattformen erfordern viele Stunden an Codierung und Datenmanipulation für den Einsatz“, sagte er. EUGENe ist viel einfacher zu bedienen. „[M]an gibt einem Algorithmus eine DNA-Sequenz und bittet ihn, Vorhersagen über alles zu machen, was man von dieser DNA erwarten könnte, zum Beispiel, ob eine bestimmte DNA-Sequenz funktional ist oder ob sie in einem bestimmten biologischen Kontext ein Gen reguliert.“ Wissenschaftler können die Software nutzen, um die verschiedenen Eigenschaften der betreffenden Sequenz zu erforschen und was passiert, wenn Dinge modifiziert werden.
Die Forscher setzten EUGENe auf die Probe, indem sie versuchten, die Ergebnisse von drei regulatorischen Genomik-Studien zu reproduzieren, die verschiedene Arten von Sequenzierungsdaten verwenden. Diese Datensätze stammten aus einem Assay von Pflanzenpromotoren, Daten zur Spezifität von RNA-bindenden Proteinen und ChIP-Sequenzierungsdaten aus dem ENCODE-Projekt. Die Analyse verschiedener Datentypen würde normalerweise das Mischen und Abgleichen mehrerer Technologieplattformen erfordern. Die Wissenschaftler konnten EUGENe jedoch erfolgreich an jeden Datentyp anpassen und die Ergebnisse jeder Studie reproduzieren.
Die Fähigkeit, diese Art von reproduzierbarer Analyse durchzuführen, ist in der wissenschaftlichen Forschung von entscheidender Bedeutung, kann aber bei Studien, die Deep Learning verwenden, eine Herausforderung sein, bemerkte Hannah Carter, PhD, außerordentliche Professorin an der UCSD School of Medicine und eine der Autorinnen des Artikels. „EUGENe zeigt bereits vielversprechend, wie anpassungsfähig es an verschiedene Arten von DNA-Sequenzierungsdaten ist und viele verschiedene Deep-Learning-Modelle unterstützt. Wir hoffen, dass es sich zu einer Plattform entwickeln wird, die die gemeinsame Werkzeugentwicklung durch die Forschungsgemeinschaft unterstützen und die Genomik-Forschung beschleunigen kann.“
Im Moment funktioniert die Lösung mit DNA- und RNA-Daten, hat aber „keine dedizierten Funktionen für die Verarbeitung von Proteinsequenzen oder multimodalen Eingaben“, schrieben die Forscher. Sie planen, sie um neue Datentypen wie Einzelzellsequenzierung zu erweitern.
Sie werden die Lösung auch breiter in der wissenschaftlichen Gemeinschaft verfügbar machen. „Deep Learning kann wertvolle Einblicke in die biologische Maschinerie bieten, die diese Vielfalt antreibt, aber es kann eine Herausforderung sein, es für Forscher ohne umfangreiche Informatikkenntnisse zu implementieren“, sagte Carter. „Wir wollten eine Plattform schaffen, die Genomik-Forschern hilft, ihre Deep-Learning-Datenanalyse zu optimieren, um Vorhersagen aus Rohdaten zu machen.“