Grâce au développement de la technologie de séquençage de l’ADN, il est devenu trivial d’obtenir la séquence de bases qui codent une protéine et de la traduire en la séquence d’acides aminés qui composent la protéine. Mais à partir de là, on se retrouve souvent coincé. La fonction réelle d’une protéine n’est déterminée qu’indirectement par sa séquence. Au lieu de cela, la séquence spécifie comment la chaîne d’acides aminés se plie et se plie dans l’espace tridimensionnel, pour former une structure spécifique. Cette structure est généralement ce qui dicte la fonction de la protéine, mais son obtention peut nécessiter des années de travail en laboratoire.
Pendant des décennies, les chercheurs ont essayé de développer un logiciel capable de prendre une séquence d’acides aminés et de prédire avec précision quelle structure ils formeront. Bien que ce soit une question de chimie et de thermodynamique, nous n’avons eu qu’un succès limité – jusqu’à l’année dernière. C’est alors que le groupe DeepMind AI de Google Annonce de l’existence d’AlphaFold, qui peut généralement prédire les structures avec un degré élevé de précision.
À l’époque, DeepMind a déclaré qu’il donnerait à tout le monde des détails sur son piratage dans un futur article évalué par des pairs, qu’il a finalement publié hier. En attendant, certains chercheurs universitaires sont fatigués d’attendre, de prendre certaines des idées de DeepMind et de se les approprier. Le journal décrivant cet effort a également été publié hier.
Saleté sur AlphaFold
DeepMind a déjà décrit l’architecture sous-jacente d’AlphaFold, mais le nouveau document fournit plus de détails. L’architecture d’AlphaFold comprend deux algorithmes différents qui communiquent entre eux concernant leurs analyses, permettant à chacun d’optimiser leur sortie.
L’un de ces algorithmes recherche des séquences protéiques qui sont des parents évolutifs de celle en question et découvre comment leurs séquences s’alignent, s’adaptant à de petits changements ou même à des insertions et des suppressions. Même si nous ne connaissons pas la structure d’aucun de ces parents, ils peuvent toujours fournir des contraintes importantes, nous indiquant des choses comme si certaines parties d’une protéine sont toujours chargées.
L’équipe AlphaFold dit que ce morceau a besoin d’environ 30 protéines liées pour fonctionner efficacement. Il propose généralement un alignement de base rapidement, puis l’améliore. Ces types d’améliorations peuvent inclure la modification des lacunes afin de placer les acides aminés clés au bon endroit.
Le deuxième algorithme, qui s’exécute en parallèle, divise la séquence en parties plus petites et essaie de résoudre la séquence de chacune tout en s’assurant que la structure de chaque partie correspond à la plus grande. C’est pourquoi il est nécessaire de faire correspondre la protéine et ses parents ; Si les acides aminés clés se retrouvent dans la mauvaise masse, obtenir la bonne structure sera un véritable défi. Par conséquent, les deux algorithmes communiquent, permettant aux structures proposées de se réaligner.
La prédiction structurelle est un processus plus difficile, et les idées originales de l’algorithme subissent souvent des changements plus importants avant que l’algorithme ne s’installe dans l’optimisation de la structure finale.
Le nouveau détail le plus intéressant de l’article est peut-être l’endroit où DeepMind passe et perturbe diverses parties des algorithmes d’analyse. Celles-ci montrent que sur les neuf fonctions différentes que vous spécifiez, elles semblent contribuer au moins un peu à la fidélité finale, et une seule a un impact significatif sur celle-ci. Cela comprend l’identification des points de la structure proposée qui sont susceptibles de nécessiter des changements et leur signalement pour une plus grande attention.
La compétition
Dans une annonce programmée pour la publication de l’article, le PDG de DeepMind, Demis Hassabis, a déclaré : « Nous nous sommes engagés à partager nos méthodes et à fournir un accès large et gratuit à la communauté scientifique. -code source et publication de la méthodologie complète du système. » « .
Mais Google a déjà décrit l’architecture sous-jacente du système, amenant certains chercheurs du monde académique à se demander s’ils peuvent adapter leurs outils existants à un système très structuré comme DeepMind. Avec un retard de sept mois, les chercheurs ont eu amplement le temps de travailler sur l’idée.
Les chercheurs ont utilisé la description initiale de DeepMind pour identifier cinq caractéristiques d’AlphaFold qui, selon eux, différaient de la plupart des approches existantes. Par conséquent, ils ont essayé d’implémenter différentes combinaisons de ces fonctionnalités et de voir lesquelles d’entre elles ont conduit à des améliorations par rapport aux méthodes existantes.
La chose la plus simple à faire était d’avoir deux algorithmes parallèles : l’un dédié à l’alignement des séquences, et l’autre à la réalisation de prédictions structurelles. Mais l’équipe a fini par scinder la partie structurelle des choses en deux fonctions différentes. L’une de ces fonctions estime simplement la distance 2D entre les différentes parties d’une protéine, et l’autre traite de l’emplacement réel dans l’espace 3D. Les trois échangent des informations et chacun donne aux autres des conseils sur les aspects de leur mission qui peuvent nécessiter des améliorations supplémentaires.
Le problème avec l’ajout d’un troisième pipeline est qu’il améliore considérablement les exigences matérielles, et les universitaires n’ont généralement pas accès aux mêmes types d’actifs informatiques que DeepMind. Ainsi, bien que le système, appelé RoseTTAFold, n’ait pas aussi bien fonctionné qu’AlphaFold en termes de précision de ses prédictions, il était meilleur que tous les systèmes précédents que l’équipe pouvait tester. Mais étant donné la machine sur laquelle il fonctionnait, il était également relativement rapide, prenant environ 10 minutes lorsqu’il était exécuté sur une protéine de 400 acides aminés.
Comme AlphaFold, RoseTTAFold brise la protéine en petits morceaux et les dissout individuellement avant d’essayer de les assembler en une structure complète. Dans ce cas, l’équipe de recherche s’est rendu compte que cela pourrait avoir une application supplémentaire. De nombreuses protéines forment des interactions étendues avec d’autres protéines pour fonctionner – l’hémoglobine, par exemple, existe sous la forme d’un complexe de quatre protéines. Si le système fonctionne comme il se doit, le nourrir avec deux protéines différentes devrait lui permettre de détecter leurs deux structures Et le où ils interagissent les uns avec les autres. Des tests ont montré que cela fonctionne réellement.
saine concurrence
Ces deux articles semblent décrire des développements positifs. Tout d’abord, l’équipe DeepMind mérite tout le crédit pour les idées qu’elle a eues en structurant son système en premier lieu. Il est clair que la mise en place de processus parallèles communiquant les uns avec les autres a fait un énorme bond en avant dans notre capacité à estimer les structures des protéines. L’équipe universitaire, plutôt que d’essayer de reproduire ce que DeepMind a fait, a simplement adopté quelques idées clés et les a emmenées dans de nouvelles directions.
A l’heure actuelle, force est de constater que les deux systèmes présentent des différences de performances, tant en termes de précision de leurs résultats finaux qu’en termes de temps et de calcul des ressources qui devraient leur être allouées. Mais comme les deux équipes semblent déterminées à s’ouvrir, il y a de fortes chances que l’autre adopte les meilleures caractéristiques de l’autre.
Quel que soit le résultat, il est clair que nous sommes dans un nouvel endroit par rapport à ce que nous étions il y a à peine deux ans. Les gens essaient de résoudre les prédictions de la structure des protéines depuis des décennies, et notre incapacité à le faire devient de plus en plus problématique à un moment où les génomes nous fournissent de grandes quantités de séquences protéiques que nous ne savons guère comment interpréter. Le temps requis pour ces systèmes sera probablement intense, car une très grande partie de la communauté de la recherche biomédicale bénéficiera du programme.
Science, 2021. DOI : 10.1126 / Sciences. abj8754
Nature, 2021. DOI : 10.1038 / s41586-021-03819-2 (À propos des DOI).