⚡️ A Estratégia de IA Aberta do Google — Omar Sanseviero, Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
Temos tanto Gemma 4, Gemma 3n, Gemma Scope, MedGemma.
Give us the TLDR.
Dá um resumo rápido.
Yeah, so yeah, Gemma 4 is just out.
É, então sim, o Gemma 4 acabou de sair.
This is the most capable open model we've released so far.
É o modelo aberto mais capaz que já lançamos.
We really tried to compact as much intelligence per parameter as we could.
Tentamos de verdade compactar o máximo de inteligência por parâmetro possível.
Bring all of these multimodal capabilities.
Trazer todas essas capacidades multimodais.
So yeah, that's Gemma 4.
Então sim, isso é o Gemma 4.
So one interesting thing, you have this thing with effective parameters, not active parameters.
Uma coisa interessante: vocês têm esse negócio de parâmetros efetivos, não parâmetros ativos.
Can you explain what it is?
Você pode explicar o que é isso?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
É, então basicamente na arquitetura transformer tradicional você tem uma camada de embedding grande, né?
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
E essa nova arquitetura é uma mudança pequena na arquitetura transformer, no bloco transformer.
Pretty much we add a per layer embedding.
Basicamente a gente adiciona um embedding por camada.
So at every layer we add an embedding table.
Então em cada camada a gente adiciona uma tabela de embedding.
What is exciting is that you don't need to do like the full matrix multiplication.
O que é empolgante é que você não precisa fazer a multiplicação de matrizes completa.
This is pretty much a lookup table.
É basicamente uma tabela de lookup.
So the Gemma 4 model is a E2B.
Então o modelo Gemma 4 é um E2B.
That means that it effectively has 2 billion parameters loaded into the GPU.
Isso significa que ele efetivamente tem 2 bilhões de parâmetros carregados na GPU.
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
Na verdade tem quase 5 bilhões de parâmetros, mas esses 3 bilhões podem ficar na CPU, podem ficar no disco, o que significa que você consegue fazer inferência extremamente rápido.
This is just a lookup table.
É só uma tabela de lookup.
And what's the con?
E qual é a desvantagem?
Why don't we
Por que a gente não
Why don't we always do this?
Por que a gente não faz isso sempre?
Can it scale?
Escala?
Is it open research?
É pesquisa aberta?
Like you know, it seems very
Tipo, parece muito
Okay, if I can just offload half the parameters to CPUs.
Tá, se eu puder simplesmente descarregar metade dos parâmetros para CPUs.
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
É, então basicamente aqui a gente fez muita experimentação de qualidade e isso é realmente otimizado e desenhado para uso no dispositivo.
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
E quando eu digo no dispositivo quero dizer rodando num celular, Android, Raspberry Pi, e por aí vai, né?
When you go larger you usually want to compact more
Quando você vai para modelos maiores, normalmente quer compactar mais.
You want to have more like dense architectures or MOEs.
Quer ter arquiteturas mais densas ou MOEs.
So this this research
Então essa pesquisa
This research decisions were very helpful for these small small use cases.
Essas decisões de pesquisa foram muito úteis para esses casos de uso pequenos.
Yeah, something I learned from the run that you organized this morning.
Sim, uma coisa que aprendi na corrida que você organizou esta manhã.
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
Para os nossos ouvintes, acho que é o primeiro clube de corrida oficial do AIE às 6h30.
Very rough, but at least I woke up for it.
Bem puxado, mas pelo menos acordei para isso.
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
Conheci o Cormac e ele me contou que aparentemente na China os super apps estão embutindo modelos no pacote do app.
For inference and just like use among all their super app.
Para inferência e uso entre todos os seus super apps.
Assistants.
Assistentes.
Yeah.
É.
And I don't know is is is that like a target use case for you guys?
E não sei, isso é um caso de uso alvo pra vocês?
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
É, então na verdade se você instalar, se você comprar um Pixel ou um Samsung top de linha, eles vêm com um Gemini Nano e o Gemini Nano está embutido no sistema operacional, e o Gemini Nano é construído em cima do Gemma.
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
Então, no ano passado lançamos o Gemma 3n, que foi essa arquitetura realmente pensada para casos de uso em celular, e eles usam o Gemma 3n com alguns treinamentos adicionais, algumas adaptações para deixar o modelo bom para casos de uso tradicionais no dispositivo, né?
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
Então basicamente quando você compra esses celulares top de linha, você já pode usar o Gemini sem precisar de nada.
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
Sim, a gente na verdade cobriu o paper do 3n no nosso clube de papers e essa ideia de offloading de parâmetros ou tipo download sob demanda é muito legal.
Is it exactly the same in the Gemma 4 stuff?
É exatamente o mesmo no Gemma 4?
Yep.
Sim.
Okay.
Certo.
For the smaller models.
Para os modelos menores.
Yeah.
É.
Yeah.
É.
Yeah.
É.
And does it does it scale?
E isso escala?
Is there a potential
Tem potencial
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Para referência, o Gemma 4 é um de 29B e um de 31B, sendo só um denso, mas vocês escalaram?
Have you pushed it up?
Já forçaram para cima?
Is it
É
We are doing lots of experiments.
Estamos fazendo muitos experimentos.
Experiments.
Experimentos.
Yeah, yeah.
É, é.
Stay tuned.
Fiquem atentos.
Yeah.
É.
What goes into shipping a mean line model like this?
O que está envolvido em lançar um modelo de linha principal assim?
Like
Tipo
Yeah.
É.
What what's the behind the scenes?
O que acontece por trás das cenas?
It's complex.
É complexo.
The Gemma team is actually relatively small.
O time do Gemma é na verdade relativamente pequeno.
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
Temos uns dois ou três PMs, uma pessoa de marketing, e depois há os nossos engenheiros e pesquisadores trabalhando no lançamento.
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
Claro que tem toda a parte de treinamento, como fazemos o pós-treinamento, técnicas de destilação, pós-treinamento e assim por diante.
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
O que é bem empolgante é que uma vez que temos o modelo, colaboramos com vários parceiros de código aberto, né?
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
Por exemplo, trabalhamos com Llama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
Então temos quase 50 parceiros externos para o lançamento do Gemma 4, que foi o lançamento mais complexo.
And also internally, we collaborate with a bunch of different teams.
E internamente também colaboramos com vários times diferentes.
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
Pensa no Google Cloud, Vertex, Vertex models como serviço, ADK, e também o Android, né?
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
Então trabalhamos, por exemplo, com o time do Android e com o lançamento do Gemma 4, lançamos uma integração com o Android Studio.
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
Então, no Android Studio, tem esse modo agente onde você pode ter um modelo te ajudando a escrever código e fazer coisas dentro do Android Studio.
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
E eles entregaram essa integração com modelos offline usando llama.cpp ou vLLM ou qualquer endpoint compatível com OpenAI.
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
Então agora você pode usar o Gemma 4 para também escrever código de aplicativos Android no Android Studio.
What's the difference?
Qual é a diferença?
When would someone want to do that versus just using Gemini?
Quando alguém iria querer fazer isso em vez de só usar o Gemini?
Outside of course Outside of the obvious, you're offline or you want the privacy.
Fora o óbvio, você está offline ou quer privacidade.
planes a lot or something.
viaja muito de avião ou algo assim.
I did.
Eu fiz.
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
Tá, vou admitir, no meu longo voo de 10 horas para Londres, eu usei o Gemini como
Yeah, I I was on Gemma 4 though.
É, mas eu estava no Gemma 4.
Sorry, Gemma Gemma.
Desculpa, Gemma Gemma.
Yeah, yeah, it's mostly offline use cases.
É, é, são principalmente casos de uso offline.
Right or if you
Né, ou se você
Yeah.
É.
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
Offline ou privacidade, tipo se você quer ter todo o seu ambiente de desenvolvimento local e não quer enviar nenhum código para nenhum API, você usaria isso.
Do you see a future where, you know, small models get good enough?
Você vê um futuro onde, sabe, modelos pequenos ficam bons o suficiente?
Like, does it cannibalize?
Tipo, isso canibaliza?
It's an interesting position.
É uma posição interessante.
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
Tipo, você tem o Gemini grande, tem o Gemma, os dois melhoram exponencialmente com o tempo.
Like, current Gemma is much better than what we had closed source a few years ago, right?
Tipo, o Gemma atual é muito melhor do que o que tínhamos fechado há alguns anos, né?
Yeah, for me, it's quite exciting.
É, pra mim é bem empolgante.
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
Quer dizer, se você olhar para o Gemma e comparar com como estávamos há 1 ano, eu diria que o Gemma 4 está equiparando o estado da arte de 1 ano e meio atrás para a maioria das coisas.
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
Com modelos locais ou modelos que você pode rodar no seu próprio hardware, você consegue capacidades agênticas, function calling, system instructions, tipo conversacional e esse tipo de coisa.
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
Conhecimento é muito mais difícil, então para conhecimento você precisa de um modelo maior, né?
That's why if you compare Gemini to Gemma, Gemini
É por isso que se você comparar Gemini com Gemma, Gemini