Retour aux podcastsLatent Space
⚡️ La stratégie open AI de Google — Omar Sanseviero, Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
On a tellement de choses sur Gemma 4, Gemma 3 1, Gemma Scope med Gemma.
Give us the TLDR.
Donnez-nous le résumé.
Yeah, so yeah, Gemma 4 is just out.
Ouais, donc ouais, Gemma 4 vient de sortir.
This is the most capable open model we've released so far.
C'est le modèle open source le plus capable qu'on ait jamais sorti.
We really tried to compact as much intelligence per parameter as we could.
On a vraiment essayé de condenser le maximum d'intelligence par paramètre.
Bring all of these multimodal capabilities.
Intégrer toutes ces capacités multimodales.
So yeah, that's Gemma 4.
Donc voilà, c'est Gemma 4.
So one interesting thing, you have this thing with effective parameters, not active parameters.
Une chose intéressante, vous avez cette notion de paramètres effectifs, pas de paramètres actifs.
Can you explain what it is?
Tu peux expliquer ce que c'est ?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
Ouais, donc dans l'architecture Transformer traditionnelle, on a cette grande couche d'embedding, non ?
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
Et cette nouvelle architecture, c'est plutôt une petite modification de l'architecture Transformer, dans le bloc Transformer.
Pretty much we add a per layer embedding.
En gros, on ajoute un embedding par couche.
So at every layer we add an embedding table.
Donc à chaque couche, on ajoute une table d'embedding.
What is exciting is that you don't need to do like the full matrix multiplication.
Ce qui est intéressant, c'est qu'on n'a pas besoin de faire la multiplication matricielle complète.
This is pretty much a lookup table.
C'est essentiellement une table de correspondance.
So the Gemma 4 model is a E2B.
Donc le modèle Gemma 4, c'est un E2B.
That means that it effectively has 2 billion parameters loaded into the GPU.
Ça veut dire qu'il n'a effectivement que 2 milliards de paramètres chargés dans le GPU.
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
Il a en fait presque 5 milliards de paramètres, mais ces 3 milliards peuvent rester dans le CPU, sur le disque, ce qui permet de faire de l'inférence extrêmement rapidement.
This is just a lookup table.
C'est juste une table de correspondance.
And what's the con?
Et quel est l'inconvénient ?
Why don't we
Pourquoi est-ce qu'on ne
Why don't we always do this?
Pourquoi est-ce qu'on ne fait pas toujours ça ?
Can it scale?
Est-ce que ça peut scaler ?
Is it open research?
C'est de la recherche ouverte ?
Like you know, it seems very
Genre, tu sais, ça semble très
Okay, if I can just offload half the parameters to CPUs.
OK, si je peux juste décharger la moitié des paramètres sur les CPU.
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
Ouais, donc là on a fait beaucoup d'expérimentation sur la qualité et c'est vraiment optimisé et conçu pour le on-device.
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
Et quand je dis on-device, je veux dire tourner sur un téléphone, Android, Raspberry Pi, etc., non ?
When you go larger you usually want to compact more
Quand on monte en taille, on veut généralement compacter davantage
You want to have more like dense architectures or MOEs.
On veut avoir des architectures plus denses ou des MoE.
So this this research
Donc ces décisions de recherche
This research decisions were very helpful for these small small use cases.
Ces décisions de recherche ont été très utiles pour ces cas d'usage sur de petits appareils.
Yeah, something I learned from the run that you organized this morning.
Ouais, un truc que j'ai appris du run que tu as organisé ce matin.
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
Pour nos auditeurs, je crois que c'est le tout premier club de running officiel à AIE, 6h30 du mat.
Very rough, but at least I woke up for it.
Vraiment rude, mais au moins je me suis levé pour y aller.
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
J'ai rencontré Cormac et il me disait qu'apparemment en Chine, les super-apps embarquent des modèles directement dans le bundle de l'app.
For inference and just like use among all their super app.
Pour l'inférence et juste à partager entre toutes leurs super-app.
Assistants.
Assistants.
Yeah.
Ouais.
And I don't know is is is that like a target use case for you guys?
Et je sais pas, est-ce que c'est genre un cas d'usage que vous ciblez ?
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
Ouais, donc en fait si vous installez, si vous achetez un téléphone Pixel ou un Samsung haut de gamme, ils sont livrés avec un Gemini Nano et Gemini Nano est intégré dans le système d'exploitation et Gemini Nano est vraiment construit par-dessus Gemma.
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
Donc l'année dernière, on a sorti Gemma 3N qui était cette architecture vraiment conçue pour les cas d'usage sur téléphone, et ils utilisent un Gemma 3N avec un peu d'entraînement supplémentaire, quelques adaptations supplémentaires pour rendre le modèle adapté aux cas d'usage on-device traditionnels, non ?
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
Donc en gros, quand vous achetez ces téléphones haut de gamme, vous pouvez déjà utiliser un Gemini out of the box.
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
Ouais, on a d'ailleurs couvert le papier 3N dans notre paper club et cette idée de déchargement de paramètres ou de téléchargement à la demande, c'est vraiment cool.
Is it exactly the same in the Gemma 4 stuff?
C'est exactement pareil dans Gemma 4 ?
Yep.
Ouais.
Okay.
OK.
For the smaller models.
Pour les modèles plus petits.
Yeah.
Ouais.
Yeah.
Ouais.
Yeah.
Ouais.
And does it does it scale?
Et ça scale ?
Is there a potential
Y a un potentiel
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Pour référence, Gemma 4, c'est un 29B et un 31B, seul un est dense, mais vous l'avez fait scaler ?
Have you pushed it up?
Vous avez poussé plus loin ?
Is it
C'est
We are doing lots of experiments.
On fait beaucoup d'expériences.
Experiments.
Des expériences.
Yeah, yeah.
Ouais, ouais.
Stay tuned.
Restez à l'écoute.
Yeah.
Ouais.
What goes into shipping a mean line model like this?
Qu'est-ce qu'il faut pour sortir un modèle phare comme ça ?
Like
Genre
Yeah.
Ouais.
What what's the behind the scenes?
Qu'est-ce qu'il y a dans les coulisses ?
It's complex.
C'est complexe.
The Gemma team is actually relatively small.
L'équipe Gemma est en fait relativement petite.
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
On a deux ou trois PMs, une personne au marketing et ensuite des ingénieurs et des chercheurs qui travaillent à sortir ça.
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
Bien sûr il y a toute la partie entraînement, comment on fait le post-entraînement, la distillation, les techniques de post-entraînement, etc.
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
Ce qui est assez excitant, c'est qu'une fois qu'on a le modèle, on collabore avec tout un tas de partenaires open source, non ?
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
Par exemple, on travaille avec Llama.cpp, Ollama, MLX, Hugging Face, vLLM, Nvidia, AMD.
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
Donc on a presque 50 partenaires externes pour chaque lancement de Gemma, et le lancement de Gemma 4 a été le plus complexe.
And also internally, we collaborate with a bunch of different teams.
Et en interne aussi, on collabore avec plein d'équipes différentes.
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
Pensez à Google Cloud, Vertex, Vertex Models as a Service, ADK, et Android aussi, non ?
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
Donc on travaille par exemple avec l'équipe Android et avec le lancement de Gemma 4, on a sorti une intégration avec Android Studio.
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
Donc dans Android Studio, il y a ce mode agent où on peut avoir un modèle qui vous aide à écrire du code et à faire des choses dans Android Studio.
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
Et ils ont sorti cette intégration avec des modèles offline en utilisant llama.cpp ou vLLM ou n'importe quel endpoint compatible OpenAI.
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
Donc maintenant vous pouvez utiliser Gemma 4 pour écrire du code pour des applications Android dans Android Studio.
What's the difference?
Quelle est la différence ?
When would someone want to do that versus just using Gemini?
Quand est-ce que quelqu'un voudrait faire ça plutôt qu'utiliser Gemini ?
Outside of course Outside of the obvious, you're offline or you want the privacy.
En dehors de l'évidence, bien sûr, vous êtes hors ligne ou vous voulez la confidentialité.
planes a lot or something.
prend beaucoup l'avion ou quelque chose comme ça.
I did.
J'ai fait ça.
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
OK, je dois dire que sur mon long vol de 10 heures pour Londres, j'ai utilisé Gemini comme
Yeah, I I was on Gemma 4 though.
Ouais, j'étais sur Gemma 4 pourtant.
Sorry, Gemma Gemma.
Pardon, Gemma Gemma.
Yeah, yeah, it's mostly offline use cases.
Ouais, ouais, c'est surtout des cas d'usage offline.
Right or if you
Non, ou si vous
Yeah.
Ouais.
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
Offline ou confidentialité, genre si vous voulez avoir tout votre setup de développement en local et ne pas envoyer de code à une API, vous utiliseriez ça.
Do you see a future where, you know, small models get good enough?
Vous voyez un avenir où les petits modèles deviennent suffisamment bons ?
Like, does it cannibalize?
Genre, est-ce que ça va cannibaliser ?
It's an interesting position.
C'est une position intéressante.
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
Genre, vous avez le grand Gemini, vous avez Gemma, les deux s'améliorent exponentiellement au fil du temps.
Like, current Gemma is much better than what we had closed source a few years ago, right?
Genre, le Gemma actuel est bien meilleur que ce qu'on avait en closed source il y a quelques années, non ?
Yeah, for me, it's quite exciting.
Ouais, pour moi c'est plutôt excitant.
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
Je veux dire, si vous regardez Gemma et vous comparez à ce qu'on était il y a un an, je dirais que Gemma 4 correspond au niveau de l'état de l'art d'il y a 1 an et demi pour la plupart des choses.
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
Avec des modèles locaux ou des modèles que vous pouvez faire tourner sur votre propre matériel, vous pouvez obtenir des capacités agentiques, function calling, instructions système, conversation, ce genre de choses.
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
La connaissance, c'est bien plus difficile, donc pour la connaissance, il faut un modèle plus grand, non ?
That's why if you compare Gemini to Gemma, Gemini
C'est pour ça que si vous comparez Gemini à Gemma, Gemini