⚡️ La estrategia de IA abierta de Google — Omar Sanseviero, Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
Tenemos mucho de Gemma 4, Gemma 3 1, Gemma Scope Med Gemma.
Give us the TLDR.
Danos el TLDR.
Yeah, so yeah, Gemma 4 is just out.
Sí, bueno, Gemma 4 acaba de salir.
This is the most capable open model we've released so far.
Es el modelo abierto más capaz que hemos lanzado hasta ahora.
We really tried to compact as much intelligence per parameter as we could.
Intentamos compactar tanta inteligencia por parámetro como pudimos.
Bring all of these multimodal capabilities.
Incorporar todas estas capacidades multimodales.
So yeah, that's Gemma 4.
Sí, eso es Gemma 4.
So one interesting thing, you have this thing with effective parameters, not active parameters.
Algo interesante: tienen este concepto de parámetros efectivos, no parámetros activos.
Can you explain what it is?
¿Puedes explicar en qué consiste?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
Sí, básicamente en la arquitectura transformer tradicional tienes esta gran capa de embedding, ¿verdad?
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
Esta nueva arquitectura es un cambio pequeño en la arquitectura transformer, en el bloque transformer.
Pretty much we add a per layer embedding.
Básicamente añadimos un embedding por capa.
So at every layer we add an embedding table.
En cada capa añadimos una tabla de embedding.
What is exciting is that you don't need to do like the full matrix multiplication.
Lo emocionante es que no necesitas hacer la multiplicación de matrices completa.
This is pretty much a lookup table.
Esto es básicamente una tabla de consulta.
So the Gemma 4 model is a E2B.
El modelo Gemma 4 es un E2B.
That means that it effectively has 2 billion parameters loaded into the GPU.
Eso significa que efectivamente tiene 2 mil millones de parámetros cargados en la GPU.
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
En realidad tiene casi 5 mil millones de parámetros, pero esos 3 mil millones pueden estar en la CPU, pueden estar en el disco, lo que significa que puedes hacer inferencia extremadamente rápido.
This is just a lookup table.
Esto es solo una tabla de consulta.
And what's the con?
¿Y cuál es el inconveniente?
Why don't we
¿Por qué no siempre
Why don't we always do this?
¿Por qué no hacemos esto siempre?
Can it scale?
¿Puede escalar?
Is it open research?
¿Es investigación abierta?
Like you know, it seems very
O sea, parece muy
Okay, if I can just offload half the parameters to CPUs.
Bueno, si puedo simplemente descargar la mitad de los parámetros a las CPUs.
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
Sí, básicamente aquí hicimos muchas experimentaciones de calidad y esto está realmente optimizado y diseñado para uso en dispositivo.
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
Y cuando digo en dispositivo me refiero a correr en un teléfono, Android, Raspberry Pi, y cosas así, ¿verdad?
When you go larger you usually want to compact more
Cuando vas a mayor escala normalmente quieres compactar más.
You want to have more like dense architectures or MOEs.
Quieres arquitecturas más densas o MoEs.
So this this research
Entonces esta investigación
This research decisions were very helpful for these small small use cases.
Estas decisiones de investigación fueron muy útiles para estos casos de uso pequeños.
Yeah, something I learned from the run that you organized this morning.
Sí, algo que aprendí en la carrera que organizaste esta mañana.
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
Para nuestros oyentes, creo que fue el primer club de running oficial de AIE, a las 6:30 de la mañana.
Very rough, but at least I woke up for it.
Bastante duro, pero al menos me levanté para ir.
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
Conocí a Cormac y me contó que aparentemente en China las super apps están incluyendo modelos en el paquete de la app.
For inference and just like use among all their super app.
Para inferencia y uso compartido entre toda su super app.
Assistants.
Asistentes.
Yeah.
Sí.
And I don't know is is is that like a target use case for you guys?
No sé si ese es un caso de uso objetivo para ustedes.
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
Sí, de hecho si compras un teléfono Pixel o un Samsung de gama alta, vienen con Gemini Nano y Gemini Nano está integrado en el sistema operativo y Gemini Nano está realmente construido sobre Gemma.
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
El año pasado lanzamos Gemma 3N, que era esta arquitectura diseñada para casos de uso en teléfono, y usan Gemma 3N con algo de entrenamiento adicional, algunas adaptaciones adicionales para hacer que el modelo sea bueno para los casos de uso tradicionales en dispositivo, ¿verdad?
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
Básicamente, cuando compras estos teléfonos de gama alta, ya puedes usar Gemini de fábrica.
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
Sí, cubrimos el paper de 3N en nuestro club de papers y esta idea de descarga parcial de parámetros o descarga bajo demanda es muy interesante.
Is it exactly the same in the Gemma 4 stuff?
¿Es exactamente lo mismo en el material de Gemma 4?
Yep.
Sí.
Okay.
Bien.
For the smaller models.
Para los modelos más pequeños.
Yeah.
Sí.
Yeah.
Sí.
Yeah.
Sí.
And does it does it scale?
¿Y escala?
Is there a potential
¿Hay potencial
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Como referencia, Gemma 4 tiene versiones de 29B y 31B, solo una es densa, ¿pero lo han escalado?
Have you pushed it up?
¿Lo han llevado más arriba?
Is it
¿O es que
We are doing lots of experiments.
Estamos haciendo muchos experimentos.
Experiments.
Experimentos.
Yeah, yeah.
Sí, sí.
Stay tuned.
Pronto habrá novedades.
Yeah.
Sí.
What goes into shipping a mean line model like this?
¿Qué implica lanzar un modelo de primera línea como este?
Like
O sea
Yeah.
Sí.
What what's the behind the scenes?
¿Qué pasa entre bastidores?
It's complex.
Es complejo.
The Gemma team is actually relatively small.
El equipo de Gemma es relativamente pequeño.
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
Tenemos dos o tres PMs, una persona de marketing y luego hay ingenieros e investigadores trabajando en esto.
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
Por supuesto está toda la parte de entrenamiento: cómo hacemos el post-entrenamiento, destilación, técnicas de post-entrenamiento, y demás.
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
Lo emocionante es que, una vez que tenemos el modelo, colaboramos con un montón de socios open source, ¿verdad?
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
Por ejemplo, trabajamos con Llama.cpp, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
Tenemos casi 50 socios externos para el lanzamiento de Gemma 4, que ha sido el lanzamiento más complejo.
And also internally, we collaborate with a bunch of different teams.
Y también internamente colaboramos con varios equipos distintos.
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
Piensa en Google Cloud, Vertex, Vertex Models como servicio, ADK, y también Android, ¿verdad?
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
Trabajamos, por ejemplo, con el equipo de Android y con el lanzamiento de Gemma 4 publicamos una integración con Android Studio.
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
En Android Studio hay un modo agente donde puedes tener un modelo que te ayuda a escribir código y hacer cosas dentro de Android Studio.
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
Y lanzaron esta integración con modelos offline usando llama.cpp, vLLM o cualquier endpoint compatible con OpenAI.
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
Ahora puedes usar Gemma 4 para escribir código de aplicaciones Android en Android Studio.
What's the difference?
¿Cuál es la diferencia?
When would someone want to do that versus just using Gemini?
¿Cuándo querría alguien hacer eso en vez de usar Gemini?
Outside of course Outside of the obvious, you're offline or you want the privacy.
Aparte, claro, de que estés offline o quieras privacidad.
planes a lot or something.
Viajas mucho en avión o algo así.
I did.
Lo hice.
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
Bueno, diré que en mi vuelo de 10 horas a Londres usé Gemini como
Yeah, I I was on Gemma 4 though.
Sí, estaba en Gemma 4.
Sorry, Gemma Gemma.
Perdón, Gemma, Gemma.
Yeah, yeah, it's mostly offline use cases.
Sí, sí, son principalmente casos de uso offline.
Right or if you
O si
Yeah.
Sí.
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
Offline o privacidad: si quieres tener todo tu entorno de desarrollo en local y no quieres enviar nada de código a ningún API, usarías eso.
Do you see a future where, you know, small models get good enough?
¿Ves un futuro en el que los modelos pequeños sean suficientemente buenos?
Like, does it cannibalize?
¿Se canibalizan?
It's an interesting position.
Es una posición interesante.
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
Tienes el gran Gemini, tienes Gemma, ambos mejoran exponencialmente con el tiempo.
Like, current Gemma is much better than what we had closed source a few years ago, right?
El Gemma actual es mucho mejor que lo que teníamos en closed source hace unos años, ¿verdad?
Yeah, for me, it's quite exciting.
Sí, para mí es bastante emocionante.
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
Si miras Gemma y lo comparas con hace 1 año, diría que Gemma 4 iguala el estado del arte de hace 1 año y medio en la mayoría de cosas.
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
Con modelos locales o modelos que puedes correr en tu propio hardware, puedes conseguir capacidades agénticas, function calling, instrucciones de sistema, conversación y ese tipo de cosas.
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
El conocimiento es mucho más complicado; para el conocimiento sí necesitas un modelo más grande, ¿verdad?
That's why if you compare Gemini to Gemma, Gemini
Por eso si comparas Gemini con Gemma, Gemini