Retour aux podcasts Latent Space

🔬 La Bitter Lesson arrive pour les protéines — Alex Rives, BioHub

So ESMC is is also approaching programmable biology, but I would say in a very different way. Donc ESMC approche aussi la biologie programmable, mais je dirais d'une manière très différente. It's approaching it from this kind of world modeling perspective where the idea is basically you have a predictive model and you know you're going to search the world model to find protein molecules that satisfy kind of whatever design criteria that you have. Il l'aborde à partir de cette perspective de modélisation du monde, où l'idée est essentiellement d'avoir un modèle prédictif et de parcourir ce modèle du monde pour trouver des molécules protéiques qui satisfont à peu près n'importe quels critères de conception que vous avez. So we've been able to use this to actually now go and design um many protein binders. On a donc pu utiliser ça pour vraiment aller concevoir maintenant beaucoup de liants protéiques. But I think sort of most excitingly, we've been able to use this to actually design antibodies, SCFVS. Mais je pense que le plus excitant, c'est qu'on a pu utiliser ça pour concevoir des anticorps, des SCFV. Hello, welcome to the latent space AI for science podcast. Bonjour, bienvenue dans le podcast Latent Space AI for Science. I'm R.J. Haneki, CTO of Muromix. Je suis RJ Honicky, directeur technique de Muromix. Yeah. Ouais. And, uh, I'm Brandon today. Et, euh, moi c'est Brandon aujourd'hui. It's a pleasure to have Alex Reeves, uh, head of science at Biohub. C'est un plaisir d'accueillir Alex Rives, euh, directeur scientifique chez BioHub. Yeah. Ouais. Would you like to introduce yourself real quick? Est-ce que vous voulez vous présenter rapidement ? Yeah. Ouais. Yeah. Ouais. Thank you for having me here. Merci de m'accueillir ici. It's great to be here. C'est super d'être là. Um, I'm head of science at Biohub. Euh, je suis directeur scientifique chez BioHub. I'm a computer scientist uh and I work on AI for biology and a lot of my work has been on language models for biology. Je suis informaticien, euh, et je travaille sur l'IA pour la biologie, et une grande partie de mon travail a porté sur les modèles de langage pour la biologie. By the time this podcast is released, you will have put out several new exciting interesting models. Au moment où ce podcast sera diffusé, vous aurez sorti plusieurs nouveaux modèles passionnants et intéressants. Going over them, I couldn't help but have the kind of thought that you might be the most bitter lesson person in protein biology right now. En les passant en revue, je n'ai pas pu m'empêcher d'avoir l'idée que vous êtes peut-être la personne qui incarne le mieux la leçon amère en biologie des protéines aujourd'hui. Can you give a little context about what that means for biology and you know why you're so committed and excited to this route? Pouvez-vous donner un peu de contexte sur ce que ça signifie pour la biologie et vous savez pourquoi vous êtes si engagé et enthousiaste à propos de cette voie ? Well, I'll take that. Eh bien, j'accepte ce compliment. Um, I believe in scaling laws. Euh, je crois aux lois d'échelle. So, you know, I guess I've been working on this for, you know, since since the summer of 2018. Bon, vous savez, je pense que je travaille là-dessus depuis, vous savez, depuis l'été 2018. Um, and so my team when we were at Metaphair trained uh really the first transformer language model for protein biology. Euh, et donc mon équipe, quand on était chez MetaFAIR, a entraîné le premier vrai modèle de langage transformer pour la biologie des protéines. And so I guess you know I I've always thought that there would be kind of emergence of biological information as you train a model to predict the next token that evolution creates. Et donc je pense que j'ai toujours cru qu'il y aurait une sorte d'émergence de l'information biologique lorsqu'on entraîne un modèle à prédire le prochain token que l'évolution crée. So our team has really explored that idea over a number of different years and we've really kind of I think seen the scaling curve and really seen as we have have increased models by an order of magnitude kind of in each generation that you know there's this emergence of new capabilities. Donc notre équipe a vraiment exploré cette idée sur plusieurs années et on a vraiment vu la courbe d'échelle, et vraiment vu qu'en augmentant les modèles d'un ordre de grandeur à chaque génération, il y a cette émergence de nouvelles capacités. Yeah. Ouais. So you've been you say emergence of capabilities scaling over generations. Donc vous dites émergence de capacités, mise à l'échelle sur les générations. You've been working at this as you said for I guess it would be 8 years now or something like that. Vous travaillez là-dessus comme vous l'avez dit depuis je crois 8 ans maintenant, quelque chose comme ça. It didn't always work that way right like there was signs that scaling might work. Ça n'a pas toujours fonctionné comme ça, non, comme il y avait des signes que le scaling pourrait marcher. You know we'll be getting to some new results where I think really you've kind of clearly demonstrated this hypothesis in a way that hasn't happened before. Vous savez, on va aborder de nouveaux résultats où je pense que vous avez vraiment clairement démontré cette hypothèse d'une façon qui n'était pas arrivée avant. But you seem to have like a strong commitment to this in a way that I'm not necessarily sure I would have been so convicted that it would work in the same way. Mais vous semblez avoir un engagement fort là-dessus d'une manière dont je ne suis pas sûr d'avoir été aussi convaincu que ça fonctionnerait de la même façon. I mean proteins are not the protein language is not the same thing as natural language. Je veux dire, les protéines, le langage des protéines, ce n'est pas la même chose que le langage naturel. There are similarities but if you start sampling a transformer at you know a normal language transformer at temperature you're going to get gibberish. Il y a des similitudes, mais si vous commencez à échantillonner un transformer à une température normale, un transformer de langage ordinaire, vous allez obtenir du charabia. you sample a protein language model at infinite temperature, you're going to get something which is a valid protein if not a not interesting protein despite the fact that is a different domain for a different reason. Si vous échantillonnez un modèle de langage de protéines à température infinie, vous allez obtenir quelque chose qui est une protéine valide, sinon une protéine intéressante, malgré le fait que c'est un domaine différent pour une raison différente. I'm not necessarily sure that I would Je ne suis pas nécessairement sûr que j'aurais I primarily assume the natural language model insight would transfer over. J'aurais principalement supposé que l'intuition des modèles de langage naturel se transfèrerait. So what is specifically about proteins that you thought was special or you you know that would make this also valid? Donc qu'est-ce qui est spécifique aux protéines qui vous a fait penser que c'était particulier ou que ça serait également valide ? Yeah, I mean it's a really interesting question. Ouais, je veux dire c'est vraiment une question intéressante. I think kind of a deep question across AI right now more broadly and you know I think you know what's what's so interesting is AI right now is is such an empirical science and so we don't have you know theory that can always guide us in these things but we have this really strong empirical evidence of scaling the thing that I was motivated by is you know if you think about evolution and you know you think about the data that we we have around proteins we have databases that have billions of protein sequences. Je pense que c'est une question profonde dans l'IA en général en ce moment, et je pense que ce qui est si intéressant c'est que l'IA en ce moment est vraiment une science empirique et donc on n'a pas de théorie qui peut toujours nous guider, mais on a cette preuve empirique très forte du scaling. Ce qui m'a motivé c'est que si vous pensez à l'évolution et aux données qu'on a sur les protéines, on a des bases de données qui contiennent des milliards de séquences protéiques. And you know, those those sequences contain patterns and you know it had had been long been known so that you know this is going back you know decades kind of before you know we started working on this with language models but that there are patterns the sequences of protein families that come there because of the constraints that evolution is operating under. Et vous savez, ces séquences contiennent des patterns et il était connu depuis longtemps, ça remonte à des décennies avant qu'on commence à travailler là-dessus avec des modèles de langage, qu'il y a des patterns dans les séquences des familles de protéines qui viennent des contraintes sous lesquelles l'évolution opère. So you can think about, you know, like a um a protein sequence that folds into a three-dimensional structure in space. Vous pouvez penser à, vous savez, une séquence protéique qui se replie en une structure tridimensionnelle dans l'espace. And you can, you know, imagine that there are two residues or amino acids that are in this sequence that might be in contact in that folded structure. Et vous pouvez imaginer qu'il y a deux résidus ou acides aminés dans cette séquence qui sont peut-être en contact dans cette structure repliée. And so evolution isn't free to choose those independently from each other. Donc l'évolution n'est pas libre de les choisir indépendamment l'un de l'autre. If it makes a choice at at one position, it kind of has to make another choice that's going to be compatible at the next position. Si elle fait un choix à une position, elle doit faire un autre choix qui va être compatible à la position suivante. So going back, you know, all the way to the beginning of gene sequencing when people first began to be able to to look at this and kind of look at different related, you know, the same protein and related organisms, you could start to see these kind of patterns that are reflecting the fundamental underlying biology. Donc en remontant jusqu'aux débuts du séquençage génétique, quand les gens ont d'abord commencé à pouvoir regarder ça et à regarder différentes protéines liées, vous pouviez commencer à voir ces patterns qui reflètent la biologie fondamentale sous-jacente. So the idea behind ESM, kind of the thinking behind ESM was, okay, what if you were to apply this principle of across all of evolution, across kind of the vast diversity of proteins that have been generated across all of life and, you know, basically have a language model kind of predict the amino acids that evolution will choose to place in proteins across all of those biological contexts. Donc l'idée derrière ESM, la réflexion derrière ESM était : d'accord, que se passerait-il si on appliquait ce principe à travers toute l'évolution, à travers la vaste diversité de protéines générées dans tout le vivant, et qu'on ait essentiellement un modèle de langage qui prédit les acides aminés que l'évolution choisira de placer dans les protéines dans tous ces contextes biologiques. So you can think that there's just this this kind of like incredible amount of information in that total picture about the underlying biology of proteins. Donc on peut penser qu'il y a cette quantité incroyable d'information dans cette image globale sur la biologie sous-jacente des protéines. And so that was really the idea that sparked this is is you know as as a model is having to predict the next token and actually we train these models with mass language modeling. Et donc c'était vraiment l'idée qui a déclenché tout ça : à mesure qu'un modèle doit prédire le prochain token, et en fait on entraîne ces modèles avec du masking de langage. So they're predicting kind of tokens that are masked out of various parts of the sequence that it would have to learn something about those kind of underlying constraints that are shaping which tokens evolution can choose. Donc ils prédisent des tokens qui sont masqués à différents endroits de la séquence, ce qui les oblige à apprendre quelque chose sur ces contraintes sous-jacentes qui déterminent quels tokens l'évolution peut choisir. Yeah. Ouais. So maybe for a bit of history um so you know you have you you just released um evolutionary scale modeling Cambrian, right? Donc peut-être un peu d'histoire, euh, donc vous savez, vous venez de sortir euh l'ESM Cambrien, non ? Is that what it's called? C'est comme ça que ça s'appelle ? Yeah. Ouais. And this is like the maybe fourth or fifth in a series of models. Et c'est peut-être le quatrième ou cinquième d'une série de modèles. I think maybe even more if you go back before they were called ESM. Je pense même peut-être encore plus si on remonte avant qu'ils s'appellent ESM. Well, they they were called ESM from the start. Eh bien, ils s'appelaient ESM depuis le début. Yeah. Ouais. We had sort of various branches of the different models. On avait en quelque sorte différentes branches des différents modèles. Yeah. Ouais. So, so this one I would say is is kind of a a fourth generation model. Donc celui-là je dirais que c'est un modèle de quatrième génération. Um it's actually a model that we trained a little over a year ago. Euh, c'est en fait un modèle qu'on a entraîné il y a un peu plus d'un an. Now that we're at Biohub, we're um we're we're open sourcing this this model fully under MIT license for the first time. Maintenant qu'on est chez BioHub, on le rend open source intégralement sous licence MIT pour la première fois. So, we're really excited to do that. Donc on est vraiment enthousiastes à ce sujet. But kind of the the big thing that is new here is that we've really kind of built a world model of protein biology. Mais la grande nouveauté ici c'est qu'on a vraiment construit un modèle du monde de la biologie des protéines. So the foundation of that is ESMC. Donc la fondation de ça c'est ESMC. But you know using the representations of EFSMC, we've kind of now built a a structure prediction model. Mais vous savez, en utilisant les représentations d'ESMC, on a maintenant construit un modèle de prédiction de structure. Um and this is the next generation ESM fold model. Euh, et c'est le modèle ESMFold de nouvelle génération. And then we've also used the techniques of of of mechanistic interpretability and sparse coding to really start to look deeply into the representation space of the language model and kind of be able to pull out the underlying features that the model actually uses to represent protein biology. Et puis on a aussi utilisé les techniques de l'interprétabilité mécaniste et du sparse coding pour vraiment commencer à regarder en profondeur dans l'espace de représentation du modèle de langage et pouvoir extraire les caractéristiques sous-jacentes que le modèle utilise vraiment pour représenter la biologie des protéines. So bringing all of this together, we're able to, you know, really make predictions for protein structure. Donc en rassemblant tout ça, on est capables de vraiment faire des prédictions pour la structure des protéines. um predictions about kind of the underlying features that that proteins are made out of that allows us to build linkages across evolution. Euh, des prédictions sur les caractéristiques sous-jacentes dont les protéines sont faites, ce qui nous permet de construire des liens à travers l'évolution. We're able to take this model and invert it to design proteins. On est capables de prendre ce modèle et de l'inverser pour concevoir des protéines. And we've we've we've used this to kind of create a comprehensive picture of protein biology. Et on a utilisé ça pour créer une image complète de la biologie des protéines. So we we put together kind of all the world's largest protein sequence databases. Donc on a rassemblé toutes les plus grandes bases de données de séquences protéiques du monde. And so that kind of amounts to 6.8 billion non-redundant proteins. Et ça représente environ 6,8 milliards de protéines non redondantes. And then we've we've resolved predicted structures for 1.1 billion of those. Et puis on a prédit les structures pour 1,1 milliard d'entre elles. And and we've also computed features across all of those so that we can make these linkages basically all across um evolution and protein biology. Et on a aussi calculé des caractéristiques à travers toutes celles-là pour pouvoir établir ces liens sur toute l'évolution et la biologie des protéines. 6.8 billion of which you've resolved structure for 1.2 is that 1.1 6,8 milliards dont vous avez résolu la structure pour 1,2, c'est 1,1 ? 1.1. 1,1. So what about the others? Et les autres alors ? Well, so so basically what we did is we took that database and we clustered it at 70% sequence identity. Eh bien, ce qu'on a fait c'est qu'on a pris cette base de données et on l'a clusterisée à 70 % d'identité de séquence. So it's it's really resolving structures for everything in the sense that for each cluster we kind of have a cluster center. Donc on résout vraiment les structures pour tout dans le sens où pour chaque cluster on a un centre de cluster. We're predicting the structure there and then we can expect that the other proteins are going to have a similar template structure. On prédit la structure là et on peut s'attendre à ce que les autres protéines aient une structure de modèle similaire. There be be small variations but they have the same fold. Il y a de petites variations mais elles ont le même repliement. 1.2 billion or so clusters 1,2 milliard de clusters environ. that are that are kind of covering the 6.8 billion. Qui couvrent les 6,8 milliards. Yeah. Ouais. Okay. D'accord. Interesting. Intéressant. And yeah, maybe since we're talking about scaling, how do you know that um this is the right number, right? Et ouais, peut-être puisqu'on parle de scaling, comment savoir que euh c'est le bon nombre, non ? Like uh how do you know that focusing on these 1.1 billion and that's the right resolution for this model? Genre euh comment savez-vous que vous concentrer sur ces 1,1 milliard c'est la bonne résolution pour ce modèle ? Well, we've chosen them so that they really cover that entire space. Eh bien, on les a choisis pour qu'ils couvrent vraiment tout cet espace. So, I think what I can say about this database is it's really the most comprehensive picture of protein structure and function that's been created. Donc je pense que ce que je peux dire sur cette base de données c'est que c'est vraiment l'image la plus complète de la structure et de la fonction des protéines qui ait été créée. It's adding, you know, hundreds of millions of structures to our knowledge of of kind of protein the diversity of protein structure and it's also creating this uh feature space that allows us to find these linkages between proteins across evolution. Elle ajoute des centaines de millions de structures à notre connaissance de la diversité des structures protéiques et elle crée aussi cet espace de caractéristiques qui nous permet de trouver ces liens entre protéines à travers l'évolution. So we can see kind of really interesting themes emerging across evolution. On peut donc voir des thèmes vraiment intéressants qui émergent à travers l'évolution. you know linking for example um gene editing systems which are very far apart in sequence but you know they share some kind of underlying functional um patterns structural homology that the model's able to bring together and and find those connections Vous savez, en reliant par exemple des systèmes d'édition de gènes qui sont très éloignés en séquence mais qui partagent des patterns fonctionnels sous-jacents, une homologie structurale, que le modèle est capable de rassembler et de trouver ces connexions. now we're talking about the mechanistic interpretability part so you have if I understand correctly you use sparse autoenccoders and other techniques maybe to understand okay what are the when I activate the network using a protein Maintenant on parle de la partie interprétabilité mécaniste, donc vous avez, si je comprends bien, vous utilisez des SAE et d'autres techniques peut-être pour comprendre, d'accord, quels sont les patterns quand j'active le réseau avec une protéine. Then what are the patterns of outputs that I'm seeing and how do they relate to each other if I understand correctly is that you have these sequences that are unrelated or only partly related based on the actual sequence but in terms of behavior they have similar behavior and therefore they are activating similar networks. Puis quels sont les patterns de sorties que je vois et comment sont-ils liés entre eux, si je comprends bien, vous avez ces séquences qui ne sont pas liées ou seulement partiellement liées d'après la séquence réelle, mais en termes de comportement elles ont un comportement similaire et donc elles activent des réseaux similaires. Is that kind of the summary of what you just said? C'est à peu près le résumé de ce que vous venez de dire ? Yeah. Ouais.