Назад к подкастам Latent Space

🔬 «Горький урок» добрался до белков — Alex Rives, BioHub

So ESMC is is also approaching programmable biology, but I would say in a very different way. Итак, ESMC также подходит к программируемой биологии, но, я бы сказал, совершенно иным образом. It's approaching it from this kind of world modeling perspective where the idea is basically you have a predictive model and you know you're going to search the world model to find protein molecules that satisfy kind of whatever design criteria that you have. Подход здесь — это своего рода моделирование мира, где идея состоит в том, что у вас есть предиктивная модель, и вы будете искать в этой модели мира белковые молекулы, которые удовлетворяют тем проектным критериям, которые у вас есть. So we've been able to use this to actually now go and design um many protein binders. Итак, нам удалось использовать это, чтобы действительно разработать множество белковых байндеров. But I think sort of most excitingly, we've been able to use this to actually design antibodies, SCFVS. Но я думаю, что самое захватывающее — нам удалось использовать это для разработки антител, SCFV. Hello, welcome to the latent space AI for science podcast. Привет, добро пожаловать в подкаст Latent Space об ИИ для науки. I'm R.J. Haneki, CTO of Muromix. Я R.J. Haneki, технический директор Muromix. Yeah. Да. And, uh, I'm Brandon today. И, э-э, я сегодня Brandon. It's a pleasure to have Alex Reeves, uh, head of science at Biohub. Очень приятно принимать Alex Rives, э-э, главу отдела науки в BioHub. Yeah. Да. Would you like to introduce yourself real quick? Не хотели бы вы коротко представиться? Yeah. Да. Yeah. Да. Thank you for having me here. Спасибо, что пригласили меня. It's great to be here. Очень рад быть здесь. Um, I'm head of science at Biohub. Хм, я руководитель научного отдела в BioHub. I'm a computer scientist uh and I work on AI for biology and a lot of my work has been on language models for biology. Я специалист по информатике, работаю над ИИ для биологии, и большая часть моей работы посвящена языковым моделям для биологии. By the time this podcast is released, you will have put out several new exciting interesting models. К тому времени, как этот подкаст выйдет, вы уже представите несколько новых захватывающих интересных моделей. Going over them, I couldn't help but have the kind of thought that you might be the most bitter lesson person in protein biology right now. Рассматривая их, я не мог не подумать, что, возможно, вы сейчас самый убеждённый сторонник горького урока в области биологии белков. Can you give a little context about what that means for biology and you know why you're so committed and excited to this route? Могли бы вы немного рассказать, что это означает для биологии и почему вы так преданы и воодушевлены этим направлением? Well, I'll take that. Ну, это я принимаю. Um, I believe in scaling laws. Хм, я верю в законы масштабирования. So, you know, I guess I've been working on this for, you know, since since the summer of 2018. Ну, я, наверное, работаю над этим с лета 2018 года. Um, and so my team when we were at Metaphair trained uh really the first transformer language model for protein biology. Хм, и поэтому моя команда, когда мы были в Meta FAIR, обучила, в общем-то, первую трансформерную языковую модель для биологии белков. And so I guess you know I I've always thought that there would be kind of emergence of biological information as you train a model to predict the next token that evolution creates. И я, наверное, всегда думал, что по мере того, как модель обучается предсказывать следующий токен, который создаёт эволюция, в ней будет проявляться биологическая информация. So our team has really explored that idea over a number of different years and we've really kind of I think seen the scaling curve and really seen as we have have increased models by an order of magnitude kind of in each generation that you know there's this emergence of new capabilities. Поэтому наша команда действительно исследовала эту идею на протяжении многих лет и, я думаю, действительно видела кривую масштабирования — видела, как по мере увеличения моделей на порядок в каждом поколении возникают новые возможности. Yeah. Да. So you've been you say emergence of capabilities scaling over generations. Итак, вы говорите о возникновении возможностей при масштабировании поколений. You've been working at this as you said for I guess it would be 8 years now or something like that. Вы работаете над этим, как вы сказали, я полагаю, уже 8 лет или около того. It didn't always work that way right like there was signs that scaling might work. Так было не всегда, правда — были признаки того, что масштабирование может сработать. You know we'll be getting to some new results where I think really you've kind of clearly demonstrated this hypothesis in a way that hasn't happened before. Знаете, мы перейдём к некоторым новым результатам, где я думаю, что вы действительно ясно продемонстрировали эту гипотезу так, как этого раньше не происходило. But you seem to have like a strong commitment to this in a way that I'm not necessarily sure I would have been so convicted that it would work in the same way. Но похоже, у вас есть сильная убеждённость в этом, которой у меня, может быть, не было бы — я не уверен, что был бы так же убеждён, что это сработает таким же образом. I mean proteins are not the protein language is not the same thing as natural language. Я имею в виду, что белковый язык — это не то же самое, что естественный язык. There are similarities but if you start sampling a transformer at you know a normal language transformer at temperature you're going to get gibberish. Есть сходства, но если вы начнёте сэмплировать трансформер, скажем, обычный языковой трансформер при некоторой температуре, вы получите бессмыслицу. you sample a protein language model at infinite temperature, you're going to get something which is a valid protein if not a not interesting protein despite the fact that is a different domain for a different reason. Если сэмплировать белковую языковую модель при бесконечной температуре, вы получите нечто, что является валидным белком, пусть и не особо интересным, несмотря на то что это другая область по другой причине. I'm not necessarily sure that I would Я не обязательно был бы уверен, что I primarily assume the natural language model insight would transfer over. я изначально предполагал бы, что инсайт о модели естественного языка перенесётся. So what is specifically about proteins that you thought was special or you you know that would make this also valid? Так что конкретно в белках, по вашему мнению, было особенного или что заставило вас думать, что это тоже сработает? Yeah, I mean it's a really interesting question. Да, я имею в виду, это действительно интересный вопрос. I think kind of a deep question across AI right now more broadly and you know I think you know what's what's so interesting is AI right now is is such an empirical science and so we don't have you know theory that can always guide us in these things but we have this really strong empirical evidence of scaling the thing that I was motivated by is you know if you think about evolution and you know you think about the data that we we have around proteins we have databases that have billions of protein sequences. Думаю, это глубокий вопрос для всего ИИ прямо сейчас в более широком смысле, и, знаете, что так интересно — ИИ сейчас является такой эмпирической наукой, и у нас нет теории, которая всегда могла бы нас направлять в этих вещах, но у нас есть очень сильные эмпирические свидетельства масштабирования. То, что меня мотивировало, — это, знаете, если вы думаете об эволюции и о данных, которые у нас есть по белкам, у нас есть базы данных с миллиардами белковых последовательностей. And you know, those those sequences contain patterns and you know it had had been long been known so that you know this is going back you know decades kind of before you know we started working on this with language models but that there are patterns the sequences of protein families that come there because of the constraints that evolution is operating under. И эти последовательности содержат паттерны, и было давно известно — это уходит корнями в десятилетия до того, как мы начали работать над этим с языковыми моделями, — что в последовательностях белковых семейств существуют паттерны, возникающие из-за ограничений, под которыми работает эволюция. So you can think about, you know, like a um a protein sequence that folds into a three-dimensional structure in space. Так что можно думать об этом как о, ну, белковой последовательности, которая сворачивается в трёхмерную структуру в пространстве. And you can, you know, imagine that there are two residues or amino acids that are in this sequence that might be in contact in that folded structure. И можно представить, что есть два остатка или аминокислоты в этой последовательности, которые могут находиться в контакте в свёрнутой структуре. And so evolution isn't free to choose those independently from each other. Поэтому эволюция не может выбирать их независимо друг от друга. If it makes a choice at at one position, it kind of has to make another choice that's going to be compatible at the next position. Если она делает выбор в одной позиции, то ей приходится делать другой выбор, совместимый со следующей позицией. So going back, you know, all the way to the beginning of gene sequencing when people first began to be able to to look at this and kind of look at different related, you know, the same protein and related organisms, you could start to see these kind of patterns that are reflecting the fundamental underlying biology. Так что, возвращаясь к самому началу секвенирования генов, когда люди впервые смогли на это взглянуть — смотреть на разные связанные, знаете, один белок в родственных организмах — можно было начать видеть эти паттерны, отражающие фундаментальную лежащую в основе биологию. So the idea behind ESM, kind of the thinking behind ESM was, okay, what if you were to apply this principle of across all of evolution, across kind of the vast diversity of proteins that have been generated across all of life and, you know, basically have a language model kind of predict the amino acids that evolution will choose to place in proteins across all of those biological contexts. Так что идея ESM, мышление за ESM — это, окей, что если применить этот принцип ко всей эволюции, ко всему огромному разнообразию белков, созданных в ходе всей жизни, и, по сути, иметь языковую модель, которая предсказывает аминокислоты, которые эволюция поместит в белки во всех этих биологических контекстах. So you can think that there's just this this kind of like incredible amount of information in that total picture about the underlying biology of proteins. Так что можно думать, что в этой общей картине содержится просто невероятное количество информации о лежащей в основе биологии белков. And so that was really the idea that sparked this is is you know as as a model is having to predict the next token and actually we train these models with mass language modeling. И именно это была идея, породившая всё это: по мере того как модель вынуждена предсказывать следующий токен — а на самом деле мы обучаем эти модели с маскированным языковым моделированием. So they're predicting kind of tokens that are masked out of various parts of the sequence that it would have to learn something about those kind of underlying constraints that are shaping which tokens evolution can choose. Так что они предсказывают токены, замаскированные в разных частях последовательности, из-за чего им пришлось бы что-то узнать об этих лежащих в основе ограничениях, которые определяют, какие токены может выбрать эволюция. Yeah. Да. So maybe for a bit of history um so you know you have you you just released um evolutionary scale modeling Cambrian, right? Так что может быть немного истории, хм, ну, вы только что выпустили «Evolutionary Scale Modeling Cambrian», верно? Is that what it's called? Вот как это называется? Yeah. Да. And this is like the maybe fourth or fifth in a series of models. И это, пожалуй, четвёртая или пятая в серии моделей. I think maybe even more if you go back before they were called ESM. Я думаю, может, даже больше, если вернуться к тем, что были до того, как их стали называть ESM. Well, they they were called ESM from the start. Ну, они называлась ESM с самого начала. Yeah. Да. We had sort of various branches of the different models. У нас были разные ветки различных моделей. Yeah. Да. So, so this one I would say is is kind of a a fourth generation model. Итак, эту я бы назвал моделью четвёртого поколения. Um it's actually a model that we trained a little over a year ago. Хм, на самом деле это модель, которую мы обучили чуть больше года назад. Now that we're at Biohub, we're um we're we're open sourcing this this model fully under MIT license for the first time. Теперь, находясь в BioHub, мы впервые полностью открываем исходный код этой модели под лицензией MIT. So, we're really excited to do that. Мы очень рады это сделать. But kind of the the big thing that is new here is that we've really kind of built a world model of protein biology. Но главное, что здесь нового, — мы действительно построили мировую модель биологии белков. So the foundation of that is ESMC. Основу этого составляет ESMC. But you know using the representations of EFSMC, we've kind of now built a a structure prediction model. Но, знаете, используя представления ESMC, мы теперь построили модель предсказания структуры. Um and this is the next generation ESM fold model. Хм, и это — следующее поколение модели ESMFold. And then we've also used the techniques of of of mechanistic interpretability and sparse coding to really start to look deeply into the representation space of the language model and kind of be able to pull out the underlying features that the model actually uses to represent protein biology. А ещё мы применили методы механистической интерпретируемости и разреженного кодирования, чтобы действительно начать глубоко изучать пространство представлений языковой модели и выделить лежащие в основе признаки, которые модель действительно использует для представления биологии белков. So bringing all of this together, we're able to, you know, really make predictions for protein structure. Сводя всё это воедино, мы можем, знаете, делать предсказания структуры белков. um predictions about kind of the underlying features that that proteins are made out of that allows us to build linkages across evolution. Хм, предсказания об основных признаках, из которых состоят белки, что позволяет нам создавать связи по всей эволюции. We're able to take this model and invert it to design proteins. Мы можем взять эту модель и обратить её для проектирования белков. And we've we've we've used this to kind of create a comprehensive picture of protein biology. И мы использовали это для создания всесторонней картины биологии белков. So we we put together kind of all the world's largest protein sequence databases. Итак, мы собрали все крупнейшие мировые базы данных белковых последовательностей. And so that kind of amounts to 6.8 billion non-redundant proteins. И это составляет около 6,8 миллиарда нередундантных белков. And then we've we've resolved predicted structures for 1.1 billion of those. И мы предсказали структуры для 1,1 миллиарда из них. And and we've also computed features across all of those so that we can make these linkages basically all across um evolution and protein biology. А также вычислили признаки для всех них, чтобы мы могли создавать связи по всей эволюции и биологии белков. 6.8 billion of which you've resolved structure for 1.2 is that 1.1 6,8 миллиарда, из которых структуру вы разрешили для 1,2 — то есть это 1,1? 1.1. 1,1. So what about the others? А что насчёт остальных? Well, so so basically what we did is we took that database and we clustered it at 70% sequence identity. Ну, по сути, мы взяли эту базу данных и кластеризовали её при 70% идентичности последовательностей. So it's it's really resolving structures for everything in the sense that for each cluster we kind of have a cluster center. Так что это фактически разрешение структур для всего в том смысле, что для каждого кластера у нас есть его центр. We're predicting the structure there and then we can expect that the other proteins are going to have a similar template structure. Мы предсказываем структуру там, и можно ожидать, что у остальных белков будет схожая шаблонная структура. There be be small variations but they have the same fold. Могут быть небольшие вариации, но у них одинаковый фолд. 1.2 billion or so clusters 1,2 миллиарда или около того кластеров that are that are kind of covering the 6.8 billion. которые охватывают 6,8 миллиарда. Yeah. Да. Okay. Понятно. Interesting. Интересно. And yeah, maybe since we're talking about scaling, how do you know that um this is the right number, right? И да, может быть, раз мы говорим о масштабировании, откуда вы знаете, что хм, это правильное число? Like uh how do you know that focusing on these 1.1 billion and that's the right resolution for this model? Как вы знаете, что именно сосредоточение на этих 1,1 миллиарда является правильным разрешением для этой модели? Well, we've chosen them so that they really cover that entire space. Ну, мы выбрали их так, чтобы они действительно охватывали всё это пространство. So, I think what I can say about this database is it's really the most comprehensive picture of protein structure and function that's been created. Так что, думаю, могу сказать об этой базе данных: это действительно самая всесторонняя картина белковой структуры и функции, которая когда-либо создавалась. It's adding, you know, hundreds of millions of structures to our knowledge of of kind of protein the diversity of protein structure and it's also creating this uh feature space that allows us to find these linkages between proteins across evolution. Она добавляет сотни миллионов структур к нашим знаниям о разнообразии белковых структур и также создаёт пространство признаков, позволяющее нам находить связи между белками через всю эволюцию. So we can see kind of really interesting themes emerging across evolution. Так что мы можем видеть действительно интересные темы, проявляющиеся в ходе эволюции. you know linking for example um gene editing systems which are very far apart in sequence but you know they share some kind of underlying functional um patterns structural homology that the model's able to bring together and and find those connections Знаете, связывающие, например, системы редактирования генов, которые очень далеки друг от друга в последовательности, но имеют некое общее функциональное, хм, паттерны структурной гомологии, которые модель может объединить и найти эти связи. now we're talking about the mechanistic interpretability part so you have if I understand correctly you use sparse autoenccoders and other techniques maybe to understand okay what are the when I activate the network using a protein Сейчас мы говорим о части механистической интерпретируемости: у вас есть, если я правильно понимаю, вы используете разреженные автоэнкодеры и другие методы, может быть, чтобы понять, что происходит, когда я активирую сеть с помощью белка. Then what are the patterns of outputs that I'm seeing and how do they relate to each other if I understand correctly is that you have these sequences that are unrelated or only partly related based on the actual sequence but in terms of behavior they have similar behavior and therefore they are activating similar networks. Тогда каковы паттерны выходных данных, которые я вижу, и как они соотносятся друг с другом — если я правильно понимаю, у вас есть последовательности, которые не связаны или лишь частично связаны на основе фактической последовательности, но с точки зрения поведения они ведут себя схожим образом и поэтому активируют схожие сети. Is that kind of the summary of what you just said? Это примерно то, что вы сказали? Yeah. Да.