⚡️ Google की ओपन AI रणनीति — Omar Sanseviero, Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
हमारे पास बहुत कुछ है, Gemma 4, Gemma 3.1, Gemma Scope, और Gemma।
Give us the TLDR.
TLDR दीजिए।
Yeah, so yeah, Gemma 4 is just out.
हाँ, तो Gemma 4 अभी आया है।
This is the most capable open model we've released so far.
यह अब तक का हमारा सबसे capable open model है।
We really tried to compact as much intelligence per parameter as we could.
हमने हर parameter में जितनी हो सके उतनी intelligence पैक करने की कोशिश की।
Bring all of these multimodal capabilities.
और ये सारी multimodal capabilities लाए।
So yeah, that's Gemma 4.
हाँ, तो यही है Gemma 4।
So one interesting thing, you have this thing with effective parameters, not active parameters.
एक interesting बात, आपके पास effective parameters और active parameters का यह concept है।
Can you explain what it is?
क्या आप explain कर सकते हैं यह क्या है?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
हाँ, तो traditional transformer architecture में आपके पास एक बड़ी embedding layer होती है।
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
और यह नई architecture transformer block में एक छोटा-सा बदलाव है।
Pretty much we add a per layer embedding.
हम basically हर layer में एक embedding जोड़ते हैं।
So at every layer we add an embedding table.
तो हर layer पर एक embedding table add होती है।
What is exciting is that you don't need to do like the full matrix multiplication.
जो exciting है वो यह है कि आपको full matrix multiplication नहीं करनी पड़ती।
This is pretty much a lookup table.
यह basically एक lookup table है।
So the Gemma 4 model is a E2B.
तो Gemma 4 model एक E2B है।
That means that it effectively has 2 billion parameters loaded into the GPU.
मतलब effectively GPU में सिर्फ 2 billion parameters load होते हैं।
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
असल में इसमें लगभग 5 billion parameters हैं, लेकिन वो 3 billion CPU में या disk पर हो सकते हैं, जिससे inference बहुत तेज़ होती है।
This is just a lookup table.
यह बस एक lookup table है।
And what's the con?
और इसका नुकसान क्या है?
Why don't we
हम हमेशा यह क्यों नहीं करते?
Why don't we always do this?
हम यह हमेशा क्यों नहीं करते?
Can it scale?
क्या यह scale होता है?
Is it open research?
क्या यह open research है?
Like you know, it seems very
जैसे यह बहुत
Okay, if I can just offload half the parameters to CPUs.
ठीक है, अगर मैं आधे parameters CPU पर offload कर सकता हूँ।
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
हाँ, तो यहाँ हमने बहुत quality experimentation की और यह on-device के लिए optimize किया गया है।
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
और जब मैं on-device कहता हूँ, मेरा मतलब phone, Android, Raspberry Pi, वगैरह है।
When you go larger you usually want to compact more
जब आप बड़े जाते हैं तो आप आमतौर पर और compact करना चाहते हैं।
You want to have more like dense architectures or MOEs.
आप dense architectures या MoEs चाहते हैं।
So this this research
तो यह यह research
This research decisions were very helpful for these small small use cases.
ये research decisions इन छोटे-छोटे use cases के लिए बहुत helpful रहे।
Yeah, something I learned from the run that you organized this morning.
हाँ, एक बात जो मैंने आज सुबह आपके organize किए run से सीखी।
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
हमारे listeners के लिए, मुझे लगता है यह AIE में पहला official run club था, सुबह 6:30 बजे।
Very rough, but at least I woke up for it.
बहुत कठिन था, लेकिन कम से कम मैं इसके लिए उठा।
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
मैं Cormac से मिला और उन्होंने बताया कि चीन में super apps अपने app bundle में models ship कर रहे हैं।
For inference and just like use among all their super app.
Inference के लिए और अपने पूरे super app में use के लिए।
Assistants.
Assistants।
Yeah.
हाँ।
And I don't know is is is that like a target use case for you guys?
और मुझे नहीं पता, क्या यह आपके लिए एक target use case है?
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
हाँ, तो actually अगर आप एक Pixel phone या high-end Samsung खरीदते हैं, तो उसमें पहले से Gemini Nano आता है, और Gemini Nano operating system में built-in है, और Gemini Nano basically Gemma पर बना है।
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
तो पिछले साल हमने Gemma 3N release किया था जो phone use cases के लिए design की गई architecture थी, और वे Gemma 3N को कुछ additional training और adaptations के साथ use करते हैं ताकि model traditional on-device use cases के लिए अच्छा हो।
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
तो practically जब आप ये high-end phones खरीदते हैं, तो आप पहले से ही Gemini use कर सकते हैं।
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
हाँ, हमने actually 3N paper को अपने paper club में cover किया था, और parameter offloading या download on demand का यह idea बहुत cool है।
Is it exactly the same in the Gemma 4 stuff?
क्या यह Gemma 4 में भी exactly वैसा ही है?
Yep.
हाँ।
Okay.
ठीक है।
For the smaller models.
छोटे models के लिए।
Yeah.
हाँ।
Yeah.
हाँ।
Yeah.
हाँ।
And does it does it scale?
और क्या यह scale होता है?
Is there a potential
क्या कोई potential है
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Reference के लिए, Gemma 4 में 29B और 31B वाले हैं, एक dense है, लेकिन क्या आपने इसे scale किया?
Have you pushed it up?
क्या आपने इसे ऊपर push किया?
Is it
क्या यह
We are doing lots of experiments.
हम बहुत सारे experiments कर रहे हैं।
Experiments.
Experiments।
Yeah, yeah.
हाँ, हाँ।
Stay tuned.
Stay tuned।
Yeah.
हाँ।
What goes into shipping a mean line model like this?
इस तरह का एक mainstream model ship करने में क्या जाता है?
Like
जैसे
Yeah.
हाँ।
What what's the behind the scenes?
पर्दे के पीछे क्या होता है?
It's complex.
यह complex है।
The Gemma team is actually relatively small.
Gemma team actually काफी छोटी है।
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
हमारे पास दो-तीन PMs हैं, एक marketing person है, और फिर engineers और researchers हैं जो इसे ship करने पर काम करते हैं।
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
बेशक full training part भी है, post training कैसे करें, distillation, post training techniques वगैरह।
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
जो काफी exciting है वो यह है कि एक बार model तैयार हो जाए, तो हम बहुत सारे open source partners के साथ collaborate करते हैं।
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
जैसे हम llama.cpp, Ollama, MLX, Hugging Face, vLLM, Nvidia, AMD के साथ काम करते हैं।
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
तो Gemma 4 launch के लिए हमारे लगभग 50 external partners थे, जो अब तक का सबसे complex launch था।
And also internally, we collaborate with a bunch of different teams.
और internally भी हम बहुत सारी अलग-अलग teams के साथ collaborate करते हैं।
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
तो Google Cloud, Vertex, Vertex models as a service, ADK, और Android भी।
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
हम Android team के साथ काम करते हैं, और Gemma 4 launch के साथ हमने Android Studio के साथ integration release की।
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
तो Android Studio में एक agent mode है जहाँ एक model आपको Android Studio के अंदर code लिखने और काम करने में help करता है।
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
और वे llama.cpp या vLLM या किसी भी OpenAI-compatible endpoint से offline models के साथ यह integration ship करते हैं।
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
तो अब आप Android Studio में Android applications का code लिखने के लिए भी Gemma 4 use कर सकते हैं।
What's the difference?
फर्क क्या है?
When would someone want to do that versus just using Gemini?
कोई इसे Gemini के बजाय कब use करना चाहेगा?
Outside of course Outside of the obvious, you're offline or you want the privacy.
Obvious बातों को छोड़कर, जैसे आप offline हैं या privacy चाहते हैं।
planes a lot or something.
बहुत flights लेते हैं या कुछ।
I did.
हाँ मैंने किया।
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
ठीक है, मैं कहूँगा, London की अपनी 10-घंटे की लंबी flight पर मैंने Gemini use किया।
Yeah, I I was on Gemma 4 though.
हाँ, मैं Gemma 4 पर था।
Sorry, Gemma Gemma.
Sorry, Gemma, Gemma।
Yeah, yeah, it's mostly offline use cases.
हाँ, mostly offline use cases हैं।
Right or if you
या अगर आप
Yeah.
हाँ।
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
Offline या privacy, जैसे अगर आप अपना पूरा development locally setup रखना चाहते हैं और किसी API को कोई code नहीं भेजना चाहते, तो आप वो use करेंगे।
Do you see a future where, you know, small models get good enough?
क्या आप एक ऐसा भविष्य देखते हैं जहाँ छोटे models काफी अच्छे हो जाएं?
Like, does it cannibalize?
क्या यह cannibalize करता है?
It's an interesting position.
यह एक interesting position है।
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
आपके पास बड़ा Gemini है, आपके पास Gemma है, दोनों समय के साथ exponentially बेहतर होते हैं।
Like, current Gemma is much better than what we had closed source a few years ago, right?
जैसे current Gemma उससे बहुत बेहतर है जो हमारे पास कुछ साल पहले closed source था।
Yeah, for me, it's quite exciting.
हाँ, मेरे लिए यह काफी exciting है।
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
मेरा मतलब, अगर आप Gemma को देखें और compare करें कि हम 1 साल पहले कहाँ थे, तो मैं कहूँगा Gemma 4 ज़्यादातर चीज़ों में 1.5 साल पहले के state-of-the-art से match करता है।
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
Local models या ऐसे models जो आप अपने hardware पर चला सकते हैं, उनसे आप capabilities पा सकते हैं, agentic capabilities, function calling, system instructions, conversational और वो सब।
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
Knowledge बहुत trickier है, इसके लिए आपको बड़ा model चाहिए।
That's why if you compare Gemini to Gemma, Gemini
इसीलिए अगर आप Gemini को Gemma से compare करें, Gemini