Eine der Hauptaufgaben der Biologie ist gelöst

Eine der Hauptaufgaben der Biologie ist gelöst
Eine der Hauptaufgaben der Biologie ist gelöst
Anonim

Die Proteinstruktur ist eines der Haupträtsel, das die Wissenschaft aufdecken muss, zum Beispiel für das Recycling von Plastikmüll oder die Behandlung von Erbkrankheiten. Aber es stellte sich heraus, dass die Natur schlauer ist als jeder Computer: Es gibt mehr als 200 Millionen Proteinstrukturen auf der Welt, und jede ist individuell. Künstliche Intelligenz (KI) brachte Wissenschaftler der Lösung ihrer Geheimnisse näher.

Künstliche Intelligenz (KI) hat eines der wichtigsten Probleme der Biologie gelöst: Mit ihr lässt sich nun die Aminosäuresequenz der dreidimensionalen Struktur eines Proteins vorhersagen. Je nach Perfektion oder Unvollkommenheit dieser Sequenz erfüllt das Protein seine Funktionen. Führende Experten der Strukturbiologie und die Organisatoren des alle zwei Jahre stattfindenden Proteinfaltungsexperiments gaben heute diese herausragende Leistung von Wissenschaftlern des britischen Unternehmens DeepMind bekannt, das auf dem Gebiet der künstlichen Intelligenz (KI) entwickelt. Es wurde festgestellt, dass die Methode von DeepMind weitreichende Auswirkungen haben wird. So kann beispielsweise die Entwicklung neuer Medikamente dramatisch beschleunigt werden.

„Das DeepMind-Team ist in der Lage, ein fantastisches Ergebnis zu erzielen, das die Perspektiven für die Entwicklung der Strukturbiologie und Proteinforschung dramatisch verändern wird“, sagt Janet Thornton, emeritierte Direktorin des European Bioinformatics Institute. „Diese Herausforderung ist 50 Jahre alt“, fügt John Moult, ein Strukturbiologe an der University of Maryland in Shady Grove, hinzu; Moult ist Mitbegründer des wissenschaftlichen Wettbewerbs Critical Assessment of Protein Structure Prediction (CASP). „Ich hätte nie gedacht, dass ich diesen Moment noch erleben würde“, fügt Moult hinzu.

Worum geht es? Im menschlichen Körper gibt es Zehntausende verschiedener Proteine, von denen jedes eine Kette aus vielen Aminosäuren ist - von Dutzenden bis zu vielen Hunderten. Die Reihenfolge der Aminosäuren bestimmt die unzähligen Wechselwirkungen zwischen ihnen und führt so zur Entstehung komplexer dreidimensionaler Strukturen, die wiederum die Eigenschaften von Proteinen bestimmen. Informationen über diese Proteinstrukturen ermöglichen es Wissenschaftlern, neue Medikamente zu entwickeln. Und die Fähigkeit, Proteine mit der gewünschten Struktur zu synthetisieren, wird die Entwicklung von Enzymen (Beschleunigern) beschleunigen, mit deren Hilfe es beispielsweise möglich ist, Biokraftstoffe herzustellen und Plastikmüll vollständig zu zersetzen.

Seit Jahrzehnten entschlüsseln Wissenschaftler dreidimensionale Proteinstrukturen mit experimentellen Techniken wie der Röntgenkristallographie oder der Kryoelektronenmikroskopie (Kryo-EM). Die Anwendung solcher Methoden dauert jedoch manchmal Monate oder Jahre; außerdem funktionieren diese Methoden nicht immer. Von den mehr als 200 Millionen bekannten Proteinstrukturen sind nur etwa 170.000 entziffert.

In den 1960er Jahren kamen Wissenschaftler zu dem Schluss, dass man die räumliche Struktur des Proteins vorhersagen kann, wenn man alle für eine bestimmte Proteinsequenz charakteristischen Verbindungen bestimmen könnte. Da jedoch jedes Protein Hunderte von Aminosäureeinheiten enthält, die auf unterschiedliche Weise miteinander interagieren, stellen wir am Ende fest, dass die mögliche Gesamtzahl solcher Strukturen pro Aminosäuresequenz einfach gigantisch ist. Informatiker haben die Lösung dieses Problems aufgegriffen, aber es ging langsam.

1994 starteten John Moult und seine Kollegen ein groß angelegtes CASP-Experiment, das alle zwei Jahre durchgeführt wird. Die Teilnehmer dieses Experiments erhalten Aminosäuresequenzen von etwa hundert Proteinen, deren Struktur unbekannt ist. Einige Gruppen von Wissenschaftlern berechnen die Struktur für jede Sequenz, während andere Gruppen sie experimentell bestimmen. Die Experimentatoren vergleichen dann die vorhergesagten Vorhersagen mit den Laborergebnissen unter Verwendung einer Schätzung der Genauigkeit der Schätzung (GDT), die von null bis hundert reicht. Mit Schätzungen über 90 GDT werden die berechneten Vorhersagen als nahe an den experimentellen Vorhersagen angesehen, sagte Moult.

Bereits 1994 gelang es Wissenschaftlern, dass die von ihnen vorhergesagten Strukturen kleiner einfacher Proteine experimentellen Ergebnissen entsprechen könnten. Bei größeren und komplexeren Proteinen lagen die Berechnungsergebnisse jedoch bei etwa 20 GDTs - ein "kompletter Fehlschlag", wie einer der CASP-Juroren Andrei Lupas, Evolutionsbiologe am Institut für Entwicklungsbiologie, ausdrückte. Max Planck. Bis 2016 hatten konkurrierende Wissenschaftlerteams etwa 40 GDTs für die komplexesten Proteine rekrutiert, hauptsächlich durch die Analyse bekannter Proteinstrukturen, die für CASP bekannt sind.

Als DeepMind 2018 zum ersten Mal am Wettbewerb teilnahm, stützte sich sein vorgeschlagener Algorithmus namens AlphaFold auf die oben beschriebene Methode, um theoretische und praktische Ergebnisse zu vergleichen. AlphaFold nutzt aber auch Methoden des Deep Learning: Software lernt aus riesigen Datenmengen (in diesem Fall Sequenzen und Strukturen bekannter Proteine) und lernt, Muster zu erkennen. DeepMind gewann leicht, schlug die Konkurrenz um durchschnittlich 15% für jede Proteinstruktur und erzielte bei den anspruchsvollsten Aufgaben etwa 60 GDT-Punkte.

Laut John Jumper, der bei DeepMind für die Entwicklung des AlphaFold-Algorithmus verantwortlich ist, waren die gemachten Vorhersagen jedoch zu grob, um für praktische Zwecke verwendet zu werden. „Wir wussten, dass wir in der Biologie noch weit von einem praktischen Nutzen entfernt waren“, sagte Jumper. Um bessere Ergebnisse zu erzielen, kombinierten Jumper und seine Kollegen Deep Learning mit einem „Aufmerksamkeitsalgorithmus“, der die menschliche Fähigkeit zum Zusammensetzen von Puzzles nachahmt. Und das passiert so: Zuerst werden kleine Fragmente aus kleinen Stücken (in diesem Fall Fragmente von Aminosäureeinheiten) hergestellt und dann versucht, diese Fragmente zu einem größeren Ganzen zu kombinieren. Diese Arbeit umfasst ein Computernetzwerk, das aus 128 Machine-Learning-Prozessoren besteht; es gelang ihnen, den Algorithmus an etwa 170.000 bekannten Proteinstrukturen zu trainieren.

Und es hat funktioniert! In diesem Jahr erhielt der AlphaFold-Algorithmus einen durchschnittlichen Score von 92,4 GDT für Proteine, die für die Analyse im CASP vorgeschlagen wurden. Bei der Analyse der komplexesten Proteine erzielte der AlphaFold-Algorithmus im Durchschnitt 87 Punkte, was 25 Punkte mehr ist als die genauesten Vorhersagen, die zuvor gemacht wurden. Der Algorithmus bewältigte sogar die Analyse der Strukturen von Proteinen, die sich in Zellmembranen befinden und für viele menschliche Krankheiten verantwortlich sind, gleichzeitig ist es jedoch schwierig, sie mit Röntgenkristallographie zu untersuchen. Der Strukturbiologe Venki Ramakrishnan vom Molecular Biology Laboratory des Medical Research Council nannte das Ergebnis "eine erstaunliche Leistung bei der Vorhersage der Proteinstruktur".

Laut John Moult haben alle Wissenschaftlergruppen beim diesjährigen Wettbewerb noch genauere Ergebnisse gezeigt. Aber wenn wir über den AlphaFold-Algorithmus sprechen, dann hat sich laut Andrey Lupas "die Situation radikal geändert". Die Organisatoren des CASP-Experiments bezweifelten sogar die Integrität des DeepMind-Algorithmus. Und Lupas hat sich eine eigene Aufgabe gestellt: die Struktur des Membranproteins der Archaea-Arten (einem Vertreter einer Gruppe uralter Mikroorganismen) herauszufinden. Seit zehn Jahren versucht sein Forschungsteam, die Kristallstruktur dieses Proteins zu röntgen. Aber laut Lupas konnte dieses Problem nicht gelöst werden.

Der AlphaFold-Algorithmus hatte jedoch keine Probleme. Das Ergebnis war ein detailliertes Bild eines Dreikomponentenproteins mit zwei helikalen Zweigen in der Mitte. Das vom Algorithmus erstellte Modell ermöglichte es Lupas und seinen Kollegen, die mit dem Röntgenbild gewonnenen Daten zu verstehen; in einer halben Stunde verglichen sie ihre experimentellen Daten mit der vom AlphaFold-Algorithmus vorhergesagten Struktur. „Das Ergebnis ist nahezu perfekt“, sagt Lupas. - Es war unmöglich, die Daten zu manipulieren. Ich verstehe nicht, wie sie das geschafft haben."

Eine der Bedingungen für die Teilnahme am CASP-Experiment, DeepMind, stimmte zusammen mit allen anderen Gruppen zu, die wesentlichen Details ihrer Methode offenzulegen, damit andere Gruppen sie wiederholen können. Dies ist ein Geschenk für Experimentatoren, da eine genaue Vorhersage der Proteinstruktur ihnen hilft, obskure Daten, die mit Röntgenuntersuchungen und Kryo-Elektronenmikroskopie (Kryo-EM) gewonnen wurden, richtig zu interpretieren. Darüber hinaus wird es der AlphaFold-Algorithmus laut Moult auch Medikamentenentwicklern ermöglichen, schnell die Struktur von Proteinen zu bestimmen, aus denen neue und gefährliche Krankheitserreger wie SARS-CoV-2 bestehen, die wiederum als einer der die wichtigen Schritte bei der Suche nach Molekülen, mit denen diese Krankheitserreger blockiert werden können.

Der AlphaFold-Algorithmus ist jedoch nicht für alle Aufgaben geeignet. Im CASP-Experiment beispielsweise verlangsamte sich seine Arbeit merklich, wenn eines der Proteine analysiert wurde (es war eine Mischung aus 52 kleinen sich wiederholenden Segmenten, die sich beim Zusammenbau gegenseitig verzerren). John Jumper sagt, das Forschungsteam möchte AlphaFold nun so ausbilden, dass es die oben genannten Strukturen sowie Proteinkomplexe analysieren kann, die zusammen wichtige Funktionen in der Zelle erfüllen.

Bald nach der Lösung eines der schwierigsten Probleme werden jedoch zweifellos andere auftauchen. „Es ist noch nicht vorbei“, sagt Janet Thornton. „Es liegen viele neue Aufgaben vor uns.“

Empfohlen: