⚡️ GoogleのオープンAI戦略 — Omar Sanseviero、Google DeepMind
We got so much Gemma 4, Gemma 3 1, Gemma scope med Gemma.
Gemma 4 に Gemma 3.1、Gemma Scope まで、盛りだくさんですね。
Give us the TLDR.
TLDR をお願いします。
Yeah, so yeah, Gemma 4 is just out.
ええ、Gemma 4 がリリースされました。
This is the most capable open model we've released so far.
これまでリリースしたオープンモデルの中で最も高性能なモデルです。
We really tried to compact as much intelligence per parameter as we could.
パラメータあたりの知性をできる限り凝縮しようとしました。
Bring all of these multimodal capabilities.
マルチモーダル機能を全部盛り込んでいます。
So yeah, that's Gemma 4.
はい、それが Gemma 4 です。
So one interesting thing, you have this thing with effective parameters, not active parameters.
面白いのが、実効パラメータとアクティブパラメータを区別しているところですね。
Can you explain what it is?
どういう意味か説明してもらえますか?
Yeah, so pretty much in the traditional transformer architecture you have like this big embedding layer, right?
従来の Transformer アーキテクチャには大きな埋め込み層がありますよね。
And this new architecture is is more of a small change in the transformer architecture, in the transformer block.
この新アーキテクチャは Transformer ブロックにちょっとした変更を加えたものです。
Pretty much we add a per layer embedding.
各層に埋め込みを追加しています。
So at every layer we add an embedding table.
つまり、すべての層に埋め込みテーブルを追加するわけです。
What is exciting is that you don't need to do like the full matrix multiplication.
面白いのは、フル行列積算をしなくていいことです。
This is pretty much a lookup table.
これは実質的にルックアップテーブルです。
So the Gemma 4 model is a E2B.
Gemma 4 モデルは E2B モデルです。
That means that it effectively has 2 billion parameters loaded into the GPU.
GPU に読み込まれるのは実質 20 億パラメータということです。
It actually has almost 5 billion parameters, but those 3 billion parameters can be in the CPU, they can be in the disk, which means that you can do inference extremely quickly.
実際には約 50 億パラメータありますが、残り 30 億は CPU やディスク上に置けるため、推論を非常に高速に実行できます。
This is just a lookup table.
これは単なるルックアップテーブルです。
And what's the con?
デメリットは何ですか?
Why don't we
なぜ
Why don't we always do this?
なぜ常にこうしないのですか?
Can it scale?
スケールできますか?
Is it open research?
オープンな研究ですか?
Like you know, it seems very
なんか、その、とても
Okay, if I can just offload half the parameters to CPUs.
パラメータの半分を CPU にオフロードできるなら。
Yeah, so pretty much here we did lots of quality experimentation and this is really optimized and designed for like on device.
ここでは大量の品質実験を行いました。オンデバイス向けに最適化・設計されています。
And when I say on device I mean like running in a phone, Android, Raspberry Pi, and so on, right?
オンデバイスとはスマートフォン、Android、Raspberry Pi などで動かすことを指します。
When you go larger you usually want to compact more
より大きなモデルになると、通常はより圧縮したくなります。
You want to have more like dense architectures or MOEs.
密なアーキテクチャや MoE を好むようになります。
So this this research
この研究が
This research decisions were very helpful for these small small use cases.
この研究上の判断が、小規模なユースケースにとても役立ちました。
Yeah, something I learned from the run that you organized this morning.
ええ、今朝あなたが企画してくれたランに参加して知ったことがあります。
For for our listeners, I think it's the first ever like official run club at AIE 6:30 a.m.
リスナーの皆さん、AIE 史上初の公式ランクラブで、朝 6 時半でした。
Very rough, but at least I woke up for it.
かなりきつかったですが、起き上がっただけで花丸です。
I met Cormac and he was telling me that I apparently in China the super apps are shipping models in the app bundle.
Cormac に会って聞いた話では、中国のスーパーアプリはモデルをアプリバンドルに同梱しているそうです。
For inference and just like use among all their super app.
推論用に、スーパーアプリ全体で使っているとのことです。
Assistants.
アシスタントとして。
Yeah.
ええ。
And I don't know is is is that like a target use case for you guys?
それはあなたたちが狙っているユースケースですか?
Yeah, so actually if you install like if you buy a pixel phone or a high end Samsung, they come from with a Gemini Nano and Gemini Nano is baked into the operating system and Gemini Nano is really built on top of Gemma.
Pixel スマホや高級 Samsung 端末には Gemini Nano が最初から入っていて、OS に組み込まれています。Gemini Nano は Gemma をベースに作られています。
So last year we released Gemma 3N which was this architecture really designed for phone use cases and they use a Gemma 3N with some additional training, some additional adaptations to make the model good for like traditional on device use cases, right?
昨年リリースした Gemma 3N はスマートフォンのユースケースに特化したアーキテクチャで、オンデバイス向けの追加トレーニングと適応を施した Gemma 3N が使われています。
So pretty much when you buy like these high end phones, you can already use a Gemini out of the box.
高級スマートフォンを買えば、最初から Gemini が使えるわけです。
Yeah, we actually covered the 3N paper in our paper club and this like idea of like sort of parameter offloading or like download on demand is like very cool.
3N の論文はペーパークラブで取り上げました。パラメータオフロードやオンデマンドダウンロードのアイデアはとてもクールです。
Is it exactly the same in the Gemma 4 stuff?
Gemma 4 でも同じ仕組みですか?
Yep.
ええ。
Okay.
なるほど。
For the smaller models.
小さいモデルでは。
Yeah.
ええ。
Yeah.
ええ。
Yeah.
ええ。
And does it does it scale?
スケールしますか?
Is there a potential
可能性はありますか
So for reference, Gemma 4 is a 29B and a 31B ones and only one's dense, but have you scaled it?
Gemma 4 は 29B と 31B があって、密なのは 1 つだけですが、スケールアップはしましたか?
Have you pushed it up?
さらに大きくしましたか?
Is it
えっと
We are doing lots of experiments.
実験はたくさんやっています。
Experiments.
実験をね。
Yeah, yeah.
ええ、ええ。
Stay tuned.
お楽しみに。
Yeah.
ええ。
What goes into shipping a mean line model like this?
こういうメインラインのモデルをリリースするのはどういうプロセスですか?
Like
というか
Yeah.
ええ。
What what's the behind the scenes?
舞台裏はどうなっていますか?
It's complex.
複雑です。
The Gemma team is actually relatively small.
Gemma チームは実はかなり小規模です。
We have like two or three PMs, we have one marketing person and then there is our like engineers and researchers working on shipping this.
PM が 2、3 人、マーケティング担当が 1 人、あとはエンジニアと研究者がいてリリースを支えています。
Of course there's like the full training part, we how do we do the post training, distillation, post training techniques and so on.
もちろんトレーニング全体、ポストトレーニング、蒸留、ポストトレーニング技術などがあります。
What is quite exciting is that once we have the model, then we collaborate with a bunch of open source partners, right?
モデルができてから、大勢のオープンソースパートナーと協力できるのはとても楽しいですね。
So for example, we work with a Lama CPP, Olama, MLX, Hugging Face, vLLM, Nvidia, AMD.
たとえばオープンソースパートナーとして llama.cpp、Ollama、MLX、Hugging Face、vLLM、NVIDIA、AMD と協力しています。
So we have almost 50 external partners for every well for the Gemma for lunch, which has been the most complex launch.
Gemma 4 のローンチには 50 近くの外部パートナーがいて、これまでで最も複雑なローンチでした。
And also internally, we collaborate with a bunch of different teams.
社内でも複数の異なるチームと協力しています。
So, think of Google Cloud, Vertex, Vertex models models as a service, ADK, uh and then Android as well, right?
Google Cloud、Vertex のモデルサービス、ADK、それから Android などです。
So, we work, for example, with Android team and uh with the launch of Gemma 4, we released an integration with Android Studio.
たとえば Android チームと協力して、Gemma 4 のローンチに合わせて Android Studio との統合をリリースしました。
So, in Android Studio, there is this agent mode where you can have a a model helping you write code and do things within Android Studio.
Android Studio のエージェントモードでは、モデルが Android Studio 内でコードを書いたり作業を手伝ったりできます。
And they ship this integration with offline models using llama.cpp or vLLM or any open AI compatible endpoint.
llama.cpp や vLLM、OpenAI 互換エンドポイントを使ったオフラインモデルとの統合を実装しました。
So, now you can use Gemma 4 to also write code Android applications in Android Studio.
Gemma 4 を使って Android Studio で Android アプリのコードを書けるようになりました。
What's the difference?
違いは何ですか?
When would someone want to do that versus just using Gemini?
Gemini を使う場合と比べてどんなときに使いますか?
Outside of course Outside of the obvious, you're offline or you want the privacy.
もちろんオフラインやプライバシー以外の理由で、という意味ですが。
planes a lot or something.
飛行機に乗ることが多い場合とか。
I did.
そうしました。
Okay, I will say, on my long 10-hour flight to London, I did use Gemini as
ロンドンへの 10 時間フライトで Gemini を使ったんですが、
Yeah, I I was on Gemma 4 though.
ええ、Gemma 4 でしたけど。
Sorry, Gemma Gemma.
すみません、Gemma、Gemma です。
Yeah, yeah, it's mostly offline use cases.
ええ、主にオフラインのユースケースですね。
Right or if you
そうか、もしくは
Yeah.
ええ。
Offline or privacy, like if you want to have all of your development set up locally and you don't want to send any code to to any API, you would use that.
オフラインやプライバシー、開発環境をローカルに置いて API にコードを送りたくない場合に使います。
Do you see a future where, you know, small models get good enough?
小型モデルが十分に良くなる未来が来ると思いますか?
Like, does it cannibalize?
共食いになりませんか?
It's an interesting position.
面白い立場ですよね。
Like, you have big Gemini, you have Gemma, both get exponentially better over time.
大きな Gemini と Gemma、両方が指数関数的に良くなっていく。
Like, current Gemma is much better than what we had closed source a few years ago, right?
今の Gemma は数年前のクローズドソースより格段に優秀ですよね。
Yeah, for me, it's quite exciting.
ええ、私はとても楽しみにしています。
I mean, if you look at Gemma, you compare to how we were 1 year ago, I would say Gemma uh 4 is matching state-of-the-art from 1 1 and 1/2 years ago for most things.
1 年前と比べると、Gemma 4 はほとんどの面で 1 年半前の最先端に匹敵していると思います。
With local models or models that you can run in your own hardware, you can get capabilities, so you can get agentic agentic capabilities, function calling, system instructions, like conversational and that kind of stuff.
ローカルモデルや自社ハードウェアで動かせるモデルでも、エージェント機能、関数呼び出し、システム指示、会話といった能力が得られます。
Knowledge is much trickier, so for knowledge, you do need a larger model, right?
知識はもっと難しくて、そこには大きなモデルが必要です。
That's why if you compare Gemini to Gemma, Gemini
だから Gemini と Gemma を比べると、Gemini は