⚡️ Открытая стратегия Google в области ИИ — Omar Sanseviero, Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
У нас сегодня целый ворох новостей: Gemma 4, Gemma 3.1, Gemma Scope и ещё Gemma.
Give us the TLDR.
Давай коротко расскажи суть.
Yeah, so yeah, Gemma 4 is just out.
Да, ну вот, Gemma 4 только что вышла.
This is the most capable open model we've released so far.
Это самая мощная открытая модель из всего, что мы выпускали.
We really tried to compact as much intelligence per parameter as we could.
Мы очень старались упаковать как можно больше интеллекта на каждый параметр.
Bring all of these multimodal capabilities.
Добавили все эти мультимодальные возможности.
So yeah, that's Gemma 4.
Вот в общем-то и есть Gemma 4.
So one interesting thing, you have this thing with effective parameters, not active parameters.
Вот что интересно: вы оперируете понятием эффективных параметров, а не активных параметров.
Can you explain what it is?
Можешь объяснить, в чём разница?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
Да, в традиционной трансформерной архитектуре есть большой embedding-слой, верно?
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
А эта новая архитектура это небольшое изменение в трансформерном блоке.
Pretty much we add a per layer embedding.
Мы добавляем embedding на каждый слой.
So at every layer we add an embedding table.
То есть на каждом слое есть своя таблица embedding.
What is exciting is that you don't need to do like the full matrix multiplication.
Интересно то, что не нужно делать полное матричное умножение.
This is pretty much a lookup table.
По сути это таблица поиска.
So the Gemma 4 model is a E2B.
Модель Gemma 4 имеет размер E2B.
That means that it effectively has 2 billion parameters loaded into the GPU.
Это означает, что в GPU реально загружается 2 миллиарда параметров.
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
Параметров у неё почти 5 миллиардов, но оставшиеся 3 миллиарда могут находиться на CPU или диске, что позволяет делать инференс очень быстро.
This is just a lookup table.
Это просто таблица поиска.
And what's the con?
А в чём минус?
Why don't we
Почему мы
Why don't we always do this?
Почему мы не делаем так всегда?
Can it scale?
Масштабируется ли это?
Is it open research?
Это открытое исследование?
Like you know, it seems very
Ну, знаешь, кажется очень
Okay, if I can just offload half the parameters to CPUs.
Окей, если я могу просто вынести половину параметров на CPU.
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
Да, мы провели много экспериментов по качеству, и это оптимизировано именно для использования на устройстве.
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
Под «на устройстве» я имею в виду смартфон, Android, Raspberry Pi и так далее.
When you go larger you usually want to compact more
Когда переходишь к большим размерам, обычно хочется большей компактности
You want to have more like dense architectures or MOEs.
Хочется более плотных архитектур или MoE.
So this this research
Так вот это исследование
This research decisions were very helpful for these small small use cases.
Эти исследовательские решения очень пригодились для таких маленьких сценариев использования.
Yeah, something I learned from the run that you organized this morning.
Да, кое-что я узнал на утренней пробежке, которую ты организовал.
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
Для наших слушателей: это, кажется, первый официальный беговой клуб на AIE, в 6:30 утра.
Very rough, but at least I woke up for it.
Жёстко, но хотя бы не проспал.
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
Познакомился с Кормаком, и он рассказал, что в Китае суперприложения встраивают модели прямо в пакет приложения.
For inference and just like use among all their super app.
Для инференса и использования во всём суперприложении.
Assistants.
Ассистентами.
Yeah.
Да.
And I don't know is is is that like a target use case for you guys?
Не знаю, это целевой сценарий для вас?
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
Да, вообще-то, если купить пиксел или флагманский Samsung, они уже поставляются с Gemini Nano, который встроен в операционную систему и построен поверх Gemma.
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
В прошлом году мы выпустили Gemma 3N, архитектуру, разработанную именно для смартфонов. На её основе с дополнительным обучением и адаптациями был создан Gemini Nano для классических задач на устройстве.
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
Так что, купив такой флагман, ты уже получаешь Gemini из коробки.
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
Да, мы разбирали статью про 3N на нашем книжном клубе. Идея параметрической выгрузки или загрузки по требованию просто очень крутая.
Is it exactly the same in the Gemma 4 stuff?
В Gemma 4 та же архитектура?
Yep.
Ага.
Okay.
Окей.
For the smaller models.
Для меньших моделей.
Yeah.
Да.
Yeah.
Да.
Yeah.
Да.
And does it does it scale?
А масштабируется?
Is there a potential
Есть ли потенциал
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Для справки: Gemma 4 включает 29B и 31B модели, одна плотная. Вы это масштабировали?
Have you pushed it up?
Пробовали поднять выше?
Is it
Насколько
We are doing lots of experiments.
Мы проводим много экспериментов.
Experiments.
Эксперименты.
Yeah, yeah.
Да, да.
Stay tuned.
Следите за новостями.
Yeah.
Да.
What goes into shipping a mean line model like this?
Что стоит за выпуском такой серьёзной модели?
Like
Ну
Yeah.
Да.
What what's the behind the scenes?
Что происходит за кулисами?
It's complex.
Это сложно.
The Gemma team is actually relatively small.
Команда Gemma на самом деле относительно небольшая.
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
У нас два-три продакта, один маркетолог, а дальше инженеры и исследователи, которые всем этим занимаются.
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
Конечно, есть полный цикл обучения: как делаем пост-тренинг, дистилляцию, техники пост-обучения и прочее.
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
Что особенно круто: когда модель готова, мы работаем с кучей партнёров из open-source сообщества.
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
Например, с llama.cpp, Ollama, MLX, Hugging Face, vLLM, NVIDIA, AMD.
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
На запуск Gemma 4 у нас было почти 50 внешних партнёров, и это был самый сложный запуск.
And also internally, we collaborate with a bunch of different teams.
И внутри тоже работаем со многими командами.
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
Google Cloud, Vertex, Vertex Models as a Service, ADK, ну и Android.
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
С командой Android, например, к выходу Gemma 4 мы сделали интеграцию с Android Studio.
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
В Android Studio есть режим агента, где модель помогает писать код и делать всё прямо внутри Android Studio.
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
Они поставили эту интеграцию с офлайн-моделями через llama.cpp, vLLM или любой OpenAI-совместимый endpoint.
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
Так что теперь можно использовать Gemma 4 для написания кода Android-приложений прямо в Android Studio.
What's the difference?
В чём разница?
When would someone want to do that versus just using Gemini?
Когда человек предпочтёт это вместо Gemini?
Outside of course Outside of the obvious, you're offline or you want the privacy.
Ну, кроме очевидного: офлайн или приватность.
planes a lot or something.
Много летаешь или что-то такое.
I did.
Да было.
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
Скажу честно, на десятичасовом перелёте в Лондон я пользовался Gemini как
Yeah, I I was on Gemma 4 though.
Хотя нет, там был Gemma 4.
Sorry, Gemma Gemma.
Точнее, Gemma. Gemma.
Yeah, yeah, it's mostly offline use cases.
Да-да, в основном офлайн-сценарии.
Right or if you
Или если
Yeah.
Да.
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
Офлайн или приватность: если хочешь держать всю среду разработки локально и не отправлять код ни в какой API.
Do you see a future where, you know, small models get good enough?
Видишь ли ты будущее, где маленькие модели станут достаточно хороши?
Like, does it cannibalize?
Не съедят ли они рынок?
It's an interesting position.
Это интересная позиция.
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
У тебя большой Gemini, есть Gemma, оба экспоненциально улучшаются.
Like, current Gemma is much better than what we had closed source a few years ago, right?
Нынешняя Gemma намного лучше того, что было закрытым несколько лет назад, верно?
Yeah, for me, it's quite exciting.
Да, для меня это очень захватывающе.
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
Если смотреть на Gemma год назад, я бы сказал, что Gemma 4 сейчас соответствует state-of-the-art полуторагодичной давности по большинству задач.
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
С локальными моделями или моделями на своём железе можно получить агентные возможности, вызов функций, системные инструкции, разговорный режим и всё такое.
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
Знания это сложнее, для знаний нужна большая модель.
That's why if you compare Gemini to Gemma, Gemini
Поэтому если сравнивать Gemini с Gemma, то Gemini