ポッドキャスト世界の声を聴き、思考の刻みを見る。
チャンネルを探す
A Conversation With Demis Hassabis' Biographer
Sebastian Mallaby spent three years and over 30 hours with Demis Hassabis in a British pub to write *The Infinity Machine*, and this conversation pulls the most underreported threads from that access: the 2015 safety summit that accidentally spawned OpenAI, the secret billion-dollar spinout plan Demis never used as real leverage, and the quasi-spiritual conviction about God and science that Mallaby never expected to find. The throughline is a paradox — Demis understood the race was dangerous from day one, but as leader of one lab, even a Nobel Prize-winning one, he could not stop it. ## [00:00] Intro Jacob Effron sets up Sebastian Mallaby as someone who has spent more time with Demis Hassabis than almost any journalist alive — 30-plus hours across three years of pub sessions in London. Mallaby's book, *The Infinity Machine*, covers the full arc of DeepMind from its 2010 founding through the Nobel Prize. The clips previewed here — Demis banging the table about God and science, Reid Hoffman's billion-dollar pledge, and the Elon feud — all come from later in the conversation. > *"Demis has a Nobel Prize. Sam didn't finish his first degree. Therefore, Demis doesn't take Sam very seriously."* ## [02:04] Was the AI Race Inevitable? Mallaby's verdict: yes, inevitable. Any technology this powerful would attract multiple labs across multiple countries, and China's stack was already competitive despite semiconductor shortfalls. What makes the story poignant is that Demis didn't believe this in 2010. He genuinely hoped one lab could carry the AGI project safely to the finish line — a singleton scenario where DeepMind was the anointed team. By the mid-2020s he had swung to the opposite pole: safety is a collective action problem that only governments can solve, because no single lab's restraint can bind the others. > *"I think it was inevitable. When you have this sort of supremely strong technology, there's going to be multiple labs in multiple countries that are just desperate to try and build it."* ## [04:03] The 2015 Safety Summit Backfire Summer 2015, SpaceX headquarters: Demis convenes a small summit to bring Elon Musk inside the tent — the plan was for Elon to chair a safety oversight board and, critically, not launch a competitor. By end of year, OpenAI existed. Mallaby frames this as the moment Demis internalized that voluntary collaboration between lab leaders is structurally impossible. The only mechanism he now believes can work is a government enforcer setting uniform rules — mandatory pre-release testing, safety slow-downs — with US-China cooperation as the endpoint, however remote that prospect appears. Jacob pushes on whether lab leaders actually believe government intervention is achievable; Mallaby draws a parallel to the FDA: slow, imperfect, but it does adjudicate whether drugs are safe enough to ship. > *"You can't trust the other guys. The only way you get trust is if you have a government enforcer that comes along and says, 'Here's the rules for everybody. There's going to be a level playing field. You're all going to have to abide by some sort of safety slow-down.'"* ## [11:27] Why Google Doesn't Make As Concentrated Bets Jacob points to the two defining consumer-AI moments of the era — ChatGPT and Claude Code — and neither came from Google DeepMind despite its leaderboard dominance. Mallaby traces this directly to Demis' intellectual formation: a PhD in neuroscience, a broad theory of intelligence, a lab culture that says "whenever there are two paths, do both, find a third." The result is a heavily hedged research portfolio that is excellent at producing Nobel Prizes and state-of-the-art models but structurally slow to make the kind of one-directional product bet Anthropic made on coding. Gemini is bundled into Google Search, so usage is higher than it appears — but Mallaby concedes the product-zeitgeist gap is real. > *"Anthropic got to coding because it was willing to take a more concentrated bet. It never went into the whole field of, you know, everything at once."* ## [15:51] Project Mario: The Secret Spinout Plan The book's most explosive scoop: DeepMind had a secret plan — code-named Project Mario — to spin out of Google, backed by a $1 billion pledge from Reid Hoffman. Mallaby had to fight Google's general counsel to publish it. The motive was not entrepreneurial independence but safety leverage: Demis wanted formal safety oversight over DeepMind's models, Mountain View wasn't providing it, and a credible spinout threat was his negotiating chip. He never explicitly told Google about the Hoffman pledge, but pushed hard knowing the option existed. In the end he chose to stay — legal risk of the spinout fight, desire for compute access, and a preference for doing science over litigating corporate structure. A year later he shipped AlphaFold and won the Nobel Prize. > *"Demis really really wanted to get safety oversight over the Google DeepMind models. Google corporate in Mountain View wasn't doing that. So he had to have a credible threat of spinning out. He went to Reid Hoffman. Reid Hoffman pledged a billion dollars to finance a spinout — and Demis used that to kind of pressure Google."* ## [19:43] What Demis Actually Regrets On AlphaFold and AI-for-science: no regrets at all — Mallaby argues it was not only scientifically correct but politically necessary, because AI needs visible social benefits to survive the coming backlash against job disruption. The genuine regret is speed. Demis missed the transformer moment the way Ilya Sutskever did not: when the paper dropped, Ilya ran down the corridor to find Alec Radford to build a language model. Demis' broad-portfolio instinct meant DeepMind studied the transformer but didn't bet the lab on it. Missing that window — and the ChatGPT moment that followed — is a real failure, not just a stylistic difference. > *"Ilya is like jumping out of his chair, running down the corridor going to find Alec Radford saying, 'Hey, we're going to build a language model based on this transformer architecture.' On the day they won AlphaGo, Demis was already on to bio — and someone picked it up on a mic."* ## [23:46] Venture Startups vs. Tech Behemoths The broadest structural argument in the episode: does venture-backed concentration beat hyperscaler breadth in AI? Mallaby has written about both (his previous book covered venture capital) and calls it genuinely balanced. Hyperscalers have unlimited capital and can sustain a multi-year arms race; the problem is that unlimited resources breed portfolio thinking, which bleeds attention. Startups with one concentrated bet can move faster on that specific bet. Mallaby's live position: OpenAI has roughly 50/50 odds of being absorbed or failing before next summer — not because the tech is weak, but because the business model can't sustain indefinite losses against Google's balance sheet. He also floats that Anthropic should IPO right now while its brand is strongest. Jacob notes the robotics parallel: fifteen different approaches being funded simultaneously, and whoever picks the one that works the way transformers did will dominate. > *"I wrote in the New York Times in January that I thought OpenAI had a 50% chance of going bust by next summer. Is it still 50? Yeah. The tech is great. It's just the business model — and you're up against Google, which just has unlimited amounts of cash to spend you into the ground."* ## [34:08] David Silver and the RL True Believers David Silver — AlphaGo's lead researcher and co-author of the "reward is enough" paper with Rich Sutton — left DeepMind after the book came out to start a new company. Mallaby reads the departure as structurally inevitable: Silver is a pure reinforcement learning absolutist who believes learning from human data is fundamentally inferior because it encodes human errors. His thesis is that self-play and environment-generated experience is the only path to genuine superhuman performance. Demis told Mallaby this view may ultimately be correct *after* AGI is achieved — but the entire language model revolution showed that bootstrapping with human data is what gets you to AGI in the first place. Silver's RL purism was too far ahead of the current paradigm for his colleagues to follow. > *"David is just very very hard over on that vision — learning from data is inferior because the data includes mistakes. The machine needs to learn from its own experience, not rely on the crystallized knowledge of humans passed on through text."* ## [38:21] Demis, Elon, and the Evil Genius Feud The origin story: at a Founders Fund LP offsite in 2012, Elon argues that SpaceX matters most because even if AI wrecks Earth, humanity can move to Mars. Demis replies that his AI will eventually conquer space flight and follow them there. Elon goes quiet, then writes a $5 million check into DeepMind's Series B. Two years later, hearing Google was acquiring DeepMind, Elon and Luke Nosek Skyped Demis from a party closet in LA in the middle of the night, begging him not to sell to Larry Page. Demis said no, hung up, and Elon started calling him "evil genius" — the name of a video game Demis had designed. Mallaby characterizes Demis' view of Sam Altman as colored by the credential asymmetry: Nobel Prize winner vs. someone who didn't finish a degree. The relationships between these founders are less professional rivalries than a collection of specific personal slights and competitive provocations playing out over fifteen years. > *"Demis says, 'Yeah, but if you think you're going to be safe on Mars, remember that my AI will be able to conquer space flight, and it will just follow you to Mars. So then you won't be safe after all.' There's a silence. Then Elon goes, 'Hm.' And then: 'I'd like to invest in your Series B.'"* ## [42:39] Great Man Theory vs. Inevitability Jacob cites *The Economist*'s framing of the book as a test of great-man theory. Mallaby draws a parallel to his Greenspan biography: Greenspan understood bubbles were dangerous (literally the subject of his PhD), yet couldn't stop the 2008 crisis. He considered titling the Demis book *The Man Who Knew* for the same reason — Demis knew from the start this technology was dangerous, but one lab's restraint cannot bind the rest. Individual leaders do matter at the margin: Dario Amodei changed the safety narrative through the Anthropic mythos release; Sam Altman shaped the race by shipping ChatGPT while it was still hallucinating; Demis shaped it by persuading Rishi Sunak to host the UK AI Safety Summit. But the race itself? Structurally overdetermined. > *"I feel that one could have almost used the same title for the Demis book — 'the man who knew' — because Demis has known from the beginning that this thing is dangerous. But as the leader of one lab, even a very powerful rich lab, even he with his stature as a Nobel Prize winner — what can he do?"* ## [45:00] What Demis Didn't Want Published The detail Mallaby least expected: Demis is driven by something close to a spiritual conviction about science. In those two-hour pub sessions he would bang the table about the mystery of matter — why atoms cohere into a solid table, why silicon and copper can think — and say, unprompted, "Maybe if we approach science the right way, we will be getting closer to something that we could perhaps call God." Mallaby reads this as the psychological engine that lets Demis keep pushing a technology he knows to be dangerous: it's a quasi-spiritual quest, not just a commercial one. On what Demis blocked from publication: his family (he set that limit at the start), and his internal fights with Sundar Pichai — he didn't want to destabilize the Google relationship he still depends on. > *"He would start banging the table and saying, 'Maybe if we approach science the right way, we understand more about nature. We will be getting closer to something that we could perhaps call God.' I had no idea he would feel that way."* ## Entities - **Demis Hassabis** (Person): Co-founder and CEO of DeepMind / Google DeepMind; Nobel Prize winner in Chemistry (2024) for AlphaFold; central subject of *The Infinity Machine*. - **Sebastian Mallaby** (Person): Staff writer at *The New Yorker*; author of *The Infinity Machine* (Demis Hassabis biography) and a prior book on venture capital; spent 30+ hours with Hassabis over three years. - **Jacob Effron** (Person): Host of *Unsupervised Learning*; Managing Director at Redpoint Ventures. - **Reid Hoffman** (Person): LinkedIn co-founder; pledged $1 billion to finance DeepMind's potential spinout from Google under Project Mario. - **David Silver** (Person): Lead researcher on AlphaGo and AlphaZero at DeepMind; co-author of the "reward is enough" RL paper with Rich Sutton; departed DeepMind post-publication to start a new company. - **Elon Musk** (Person): Hosted the 2015 AI safety summit at SpaceX; early DeepMind investor; coined the "evil genius" nickname for Hassabis after DeepMind sold to Google. - **Sam Altman** (Person): CEO of OpenAI; shipped ChatGPT in late 2022 despite hallucination issues, which Mallaby argues irreversibly shaped the AI race's trajectory. - **Dario Amodei** (Person): CEO of Anthropic; credited with changing the AI safety narrative through the mythos paper release and his public Pentagon confrontation. - **DeepMind** (Organization): Google subsidiary; founded by Hassabis, Shane Legg, and Mustafa Suleyman in 2010; produced AlphaGo, AlphaFold, and Gemini. - **Project Mario** (Concept): Secret DeepMind plan to spin out of Google, backed by a Reid Hoffman $1B pledge; used as negotiating leverage for safety oversight, never executed as a real spinout. - **AlphaFold** (Software): DeepMind's protein-structure prediction model; won Hassabis the 2024 Nobel Prize in Chemistry; shipped in 2020, one year after he declined the spinout option. - **Reinforcement Learning** (Concept): Machine learning paradigm central to AlphaGo and AlphaZero; David Silver's absolutist commitment to RL (learning from environment experience over human data) created internal tension at DeepMind and ultimately led to his departure. - **The Infinity Machine** (Concept): Sebastian Mallaby's biography of Demis Hassabis; nearly titled *The Man Who Knew*; published with the full Project Mario scoop over Google's objections.
Gemini Co-Lead on World Models, RL's Next Domains & Continual Learning
Oriol Vinyals(Google DeepMind VP of Research、Gemini 联合负责人)在 Google I/O 第二天坐下来,把 I/O 上发布的产品背后的研究路线一条条摊开:世界模型为什么是 Google 押向 AGI 的独特路径、视频 / 图像的"GPT moment"长什么样、Spark 和 agents 系统为什么必须和模型联合优化、scaffolding 终将由模型自己写、memory 应该走非参数 file-system 而不是塞进权重、当今 RL 在哪些维度上是数据受限的、为什么 math/code 上的训练能意外迁移、以及 Google 内部 Brain + DeepMind 合并后研究下注的取舍。 ## [00:00] Intro Jacob 用 60 秒铺垫了 Oriol 的背景(Gemini 联合负责人,与 Noam Shazeer、Jeff Dean 并列),以及 I/O 第二天访谈的优势:所有发布都还热乎,可以直接顺着 announcements 追到背后的研究。Oriol 进来打招呼,两人开始热身。 > *"I've been really excited for this because you're one of the people kind of most directly shaping the frontier of AI."* ## [01:36] Why World Models Jacob 先问"为什么是世界模型"。Oriol 把它拆成两层:一层是 self-improvement / coding 的角度,另一层是模型本身的对象——多模态、不止 closer 还包括 video / image 这种"world model"。Google 早就押了图像和视频路线,这次"显然押对了",因为我们其实把整个世界都搬到了互联网上。 他也承认中间有一段时间这条路看似不性感:multimodal 模型在 LLM 风口下被边缘化过,但视频和图像里藏着语言抓不到的知识——"the GPT moment for video"还没真正发生,但拐点已经在视野里。 > *"There is lots of knowledge in videos and images, and what I would say is the GPT moment for that — I'm not sure we quite have seen that."* ## [04:21] The GPT Moment for Video Oriol 用 Omni(Google 的多模态产品线)当锚点解释:从单纯把视频喂进上下文,到能在长上下文里理解和生成视频,这段曲线已经很陡。下一步是问"能不能像 LLM 一样,在没有 paired text 的纯图像数据上预训练并依然提取出全部意义和细节"——这个 hard challenge 一旦解开,数据维度会从"被人类描述过的"跳到"所有视频",量级差异巨大。 他特别承认现在 video 这块的标注数据相对 image 仍然稀缺,但解锁后的回报会"非常大"。 > *"Whether we agree with that or not is another question, but if it was to be unlocked, it would be massive."* ## [07:51] What Makes Omni a World Model "world model"这个词被滥用了,Oriol 给一个清晰定义:一个纯粹的 world model 必须做 representation learning——把世界压成紧致表征。在这之上,Omni 进一步成为可被语言驱动的 renderer:你用自然语言改一个 prompt,输出的视频内容随之改变,初始 image 之上能持续演化。这是从"被动建模"到"可控生成"的关键区别。 > *"The world model itself is acting as a renderer of the world, that you can really just change by language."* ## [10:04] World Models & Robotics 机器人是 world model 最直接的落地场景。Oriol 承认现在数据 mix 还在试错——sim 数据 vs 真机数据怎么配、什么时候 transfer 突然 click。世界模型本身的进步会带来一个 inflection point:一旦模型足够强,sim → real 的鸿沟会缩到 planning 和 gross motor 层面先打通,精细运动控制再慢慢跟上。 > *"At some level, maybe not at the precise motor control but at the kind of planning and gross, we are going to start seeing how things are going to fall into place."* ## [12:37] Evaluating Physics in AI 模型隐式学物理,但你怎么评估它学到没学到?Oriol 把它和无监督机器翻译做类比:如果模型内部确实表征了"重力"这个概念,应该能用某种 decode 把它翻译成显式 explanation。Stefano Gaus 等人 2014 年的早期 unsupervised translation 工作给了一条可借鉴的思路——把内部表征解码出来当 eval。 > *"You would need to somehow connect the concept of gravity which could be present or not in a world model to then decode that into an explanation."* ## [14:51] Consumer Agents & Spark I/O 发布的 Spark 是 Google 在 consumer agent 上的最新一步。Oriol 强调:"action 作为一种 modality"已经被 DeepMind 早早识别为关键。但 agent 不是把模型塞进 generic scaffold 就行——模型能力必须先到某个门槛,你才能 dream 出下一阶段的产品形态。 他给一个工程判断:在 train 阶段就把"我有这些能力,怎么挑用哪些"内化进模型,比在 inference 时让外部 scaffold 临时决策更高效。 > *"It's useful to build kind of the system slightly more narrowly around something you care deeply about."* ## [18:39] Scaffolding & the Bitter Lesson Oriol 多年支持 Sutton 的 bitter lesson。Jacob 把它推到 agent 时代:scaffolding 看起来违背 bitter lesson 因为是手写的胶水。Oriol 的答案是——"scaffold 本身就是一段 code,最终应该是模型自己 on the fly 写出来"。短期内人写、长期模型写,bitter lesson 仍然站得住。同时优化 model 和 scaffold 两端,而不是把所有赌注押在一端。 > *"That system itself is a piece of code that eventually the model itself could write on the fly."* ## [22:06] Memory & Continual Learning Memory 这个话题 Oriol 谈得最深——他有 cognitive neuroscience 背景。他把 memory 分成两类:塞进权重(参数化)和挂在外部 file system(非参数化)。在 serving 规模下,把每次 user interaction 都 bake 进 weight 是不切实际的,非参数式 file-system memory 更可行。 真正的难点是"consolidate":怎么把之前 session 的信息整合到新 session,让模型像人一样积累知识。这部分 momentum 很大但远未饱和,未来几年评估方式和工程实践都会迭代。 > *"The way that we'll see better evaluations and ways in which these models accumulate this knowledge as they go."* ## [26:54] Research Bets Inside Big Labs 在 Google 内部主导 Gemini 是什么体验?Oriol 谈三个维度的优势:TPU 联合设计(不用看 Nvidia 脸色)、广告/搜索带来的现金流稳定性、Brain + DeepMind 合并后端到端的研究强度。劣势是:组织太大没法对所有方向有全视野,必须靠直觉判断哪些早期研究值得 pull in,并接受"trade-off 不可能每次都做对"。 > *"Google is in a unique place. We have stability from hardware procurement and obviously like also investment of capital."* ## [32:30] Post-Training RL is Greenfield post-training 这块仍然是一片 greenfield。在 coding 和 math 上 LLM 已经走出指数曲线,但其他领域为什么没跟上?Oriol 的核心判断是"投入还远远不够"——相对预训练的算力消耗,post-training 至今只用了很小一部分。算法的 beauty 还在迭代,"cracking that recipe could be big"。 > *"Cracking that recipe could be big, at least in terms of the beauty of the algorithm."* ## [35:57] What Real Intelligence Looks Like 真智能长什么样?Oriol 用 2015 年的一个老 eval 来当锚——简单的 game-playing 任务,当时是 RL 的天花板,现在 LLM 一上来就能做。他想看到下一个数量级的跃迁:不是在熟悉的 benchmark 上推数字,而是在新的、人类没法立刻给出答案的问题上看到模型"主动产出洞察"。 > *"I like games."*(这句简单的自陈背后是他对 game-playing RL 长期偏爱的注脚) ## [39:11] RL Generalization 游戏曾经是 verifiable reward 的典型样板。现在的挑战是找新的 hard problem source,让 RL 在更广的领域诱发出深度推理和泛化。Oriol 抛出一个不对称观察:create solution 和 evaluate solution 之间存在 gap——如果 evaluation 比 generation 容易,RL 就有机会撬动。 让他意外的是:在 math/code 上的训练能 surprisingly 迁移到其他领域,"很多泛化能力可能其实来自 pre-training"。这是接下来几个月到几年研究者要破解的关键题。 > *"Possibly through pre-training — that's one of the quests for researchers to crack in the next few months and years."* ## [42:55] Advice for Founders 给 founder 的建议直白:evaluation 和 data 是绕不开的 moat。早期专注垂直产品、在 model 上叠一层 specialized scaffolding,等到 scale 起来再考虑 model layer 的差异化——这个路径"比较 scalable,也更适合早期玩家"。 > *"What I would tell folks is the value — and we discussed this a little bit — the value of evaluations and as a sequence of data."* ## [46:40] Can AI Truly Innovate? Oriol 2016 年加入 DeepMind 后最痴迷的方向是 meta-learning——模型自己产出 idea。但他承认到目前为止,"我没看到模型生成真正 outstanding 的 idea"。他比喻:你让一万个人尝试,挑出对的那个再 glorify,但模型真正自主提出方向的能力——quite limited。但他相信 "soon"。 > *"I don't think I've seen truly kind of outstanding ideas that a model has generated yet, but I am sure I will very soon."* ## [49:48] Recursive Self-Improvement 递归自我改进可以分层看:第一层是 researcher / engineer 用 AI 工具加速自己;第二层是模型直接自动化某些研究任务。当模型写英文比你好的那一天,下一个 ceiling 在哪里?Oriol 说:"maybe there's no ceiling, or the ceiling is still far away" —— 我们甚至不一定能看到 ceiling 在哪里。 > *"At the point a model writes English better than you, maybe there's no ceiling, or the ceiling is still far away."* ## [52:14] Quickfire 最后 8 分钟快问快答覆盖了 TPU 投资历史、给年轻研究员的算力直觉、当下 AI 阶段的总体感受。Oriol 留下一句总结:"I think it's a fascinating time as anything in AI"。Jacob 用 podcast 致谢和 outro 结束。 > *"I think it's a fascinating time as anything in AI."* ## Entities - **Jacob Effron**(人物):Redpoint Ventures Managing Director,Unsupervised Learning 主持人。 - **Oriol Vinyals**(人物):Google DeepMind VP of Research,Gemini 联合负责人(与 Noam Shazeer、Jeff Dean 并列)。 - **Gemini**(产品):Google 的旗舰多模态 / agent 模型族;本期主要谈 I/O 第二天的发布。 - **Omni**(产品):Google 的多模态产品线,被用作"video / image 的 GPT moment"参照系。 - **Spark**(产品):I/O 发布的 consumer agent 产品。 - **World Model**(概念):可被语言驱动的世界 renderer;representation learning 是其核心要素。 - **Bitter Lesson**(概念):Sutton 的论点;本期延伸为"scaffold 长期应由模型自己写"。 - **Memory / Continual Learning**(概念):非参数 file-system memory vs 把记忆塞进权重;consolidation 是关键难点。 - **Post-Training RL**(概念):相对预训练的算力投入还很少,被定性为 greenfield。 - **Move 37**(概念):AlphaGo 那一手;Oriol 用它指代"真正的 RL/research breakthrough"基准。

ヤン・ルカンが語るLLMの先にあるもの
チューリング賞受賞者でAMI Labs創業者のヤン・ルカンは、LLMが「生産的な行き止まり」であると主張する。実用的な製品としては有益だが、物理的現実のモデル化、計画立案、行動の結果予測を行う構造的な能力が欠如しているというのがその根拠だ。JEPAアーキテクチャを代替案として提示し、非米中圏のAI主権を目指すTapestry連合学習プロジェクトを説明したうえで、Metaを離れた経緯も明かす。GenAI組織の短期的プレッシャーが、突破口を開く研究を政治的に難しくしていったという。パラダイムシフトの到来時期については「2027年初頭」と予測している。 ## [00:00] イントロ Jacob Effronがクイックカットのプレビューで対談を始める。ヤンが「5年で世界征服」と冗談を言いながら、MetaのLlamaプログラムとの関係について歯に衣着せぬ本音をチラつかせ、教師なし学習への自身の関心が最終的にLLMから離れる方向を指し示していたと語る。Jacobはこのエピソードを、オープンソースLLMの基盤を構築した当事者でありながら、さらなるスケーリングは間違いだと公言し続ける人物から直接聞ける貴重な機会として位置づける。 > *「突破口を開く研究を生み出す最善の方法は、最高の人材を採用して、あとは口を出さないことだ。」* ## [01:45] LLMが知性への道ではない理由 ヤンは、製品としてのLLMと、知性への道としてのLLMをきっぱり区別する。LLMがうまく機能するのは、言語という媒体が特殊だからだ。低次元で離散的、高度に構造化された基盤では、自己回帰予測は扱いやすい。しかし現実はそうではない。物理世界は高次元で連続的かつカオス的だ。マグカップをつかむロボット、工事現場を走る自動運転車、薬に反応する細胞——これらは言語の問題ではなく、言語向けに最適化されたアーキテクチャでは必要な内部モデルを習得できない。 彼が立ち上げたAMI(Advanced Machine Intelligence)はこれとは逆の仮説に基づいている。正しい道は、映像・センサーフィード・産業用テレメトリといった生の感覚データから抽象的な世界表現を学習し、その表現の内部で候補となる行動の結果をシミュレートして計画を立てられるシステムだというものだ。 > *「LLMは人間レベルの知性にも動物レベルの知性にも至る道ではない。それが私の主張だ。役に立たないと言っているわけではなく、そこへの道ではないというだけだ。」* ## [07:51] AMIとワールドモデル 「ワールドモデル」はすでに流行語になっており、分野は二陣営に分かれているとヤンは言う。生成的アプローチ(動画モデル、VLA)と、JEPAのような結合埋め込みアプローチだ。VLA(視覚・言語・行動モデル)はすでに広く失敗が認識されている。脆く、大量データが必要で、汎化できない。生成的動画アプローチもLLMと同じ構造的欠陥を抱えている。抽象的な構造を学ぶのではなく、すべてのピクセルを予測しようとするからだ。 本来のワールドモデルとは、エージェントが行動を実行する前にその結果を予測できるシステムのことだ。それがなければ、どんなエージェントシステムも盲目も同然で、計画した行動の列が目標を達成できるかどうか確認する手段がない。 > *「行動の結果を予測する能力を持たないシステムの上にエージェントシステムを構築しようなどと、どうすれば考えられるのかが私には想像できない。」* ## [12:07] JEPAアーキテクチャの解説 JEPAの着想は、ヤンが長年の自己教師あり学習研究の中で気づいたあるパターンに由来する。画像や動画の有用な表現を学習することに成功したアーキテクチャはすべて、非生成的だったのだ。VAEやマスクドオートエンコーダ、ピクセル予測モデルといった生成的アーキテクチャは一貫して低い性能にとどまった。JEPAは入力の破損版または部分的なビューを取り、両方をエンコーダに通し、生のピクセルではなく表現を一致させるよう予測器を学習させる。この抽象化こそが肝心だ。 2022年に発表した論文「A Path Towards Autonomous Machine Intelligence」は、この全体像を書き下す試みだった。知覚のバックボーンとしてのJEPA、その上に乗る目的駆動型プランニング、異なる時間スケールのワールドモデルの階層構造。この論文の発表を彼は「自分の秘密をすべて明かすこと」と表現した。秘密を守るより、公開することで多くの人材をこのパラダイムに引き寄せることに賭けた意図的な判断だった。 > *「世界のモデルを予測によって学習するという問題にずっと興味を持ち続けてきた。そして5年ほど前に、画像や動画の表現学習に成功したアーキテクチャはすべて非生成的で、生成的なものはことごとく失敗してきたということに気づいて、ひらめいた。」* ## [15:55] 現在のロボティクスモデルが抱える問題 現在のロボティクスのデモは見栄えするが、膨大な模倣データ——遠隔操作の記録や手でトレースしたデモンストレーション——で学習させ、主にシミュレーションでRLによって微調整されたものだ。このパイプラインが生み出すのは脆弱なスペシャリストだ。17歳は約20時間で運転を覚えるが、何百万時間もの走行データがあるのに未だにレベル5の自動運転車は実現していない。模倣学習と真の汎化の間にある溝は、例を暗記することと内部の世界モデルを持つことの差そのものだ。 ワールドモデルベースのシステムに対してヤンが主張するのはゼロショットタスク汎化だ。正確な内部ワールドモデルを持つシステムなら、そのタスク専用に学習しなくても、新しい目標が与えられれば達成するための行動列を計画できる。彼が注目する近未来の産業応用——ジェットエンジン制御、化学プラント、製造ライン——は、入力がすでに数値データであり、運用データから直接ワールドモデルを学習できる環境だ。 > *「ワールドモデルベースのシステムで得られる汎化の度合いは、模倣学習で学習したシステムと比べてはるかに大きく、より少ない学習データでより広いタスクに対応できる。」* ## [20:37] シリコンバレーの集団思考 業界全体がLLMのスケーリングに収束した理由についてヤンの診断は構造的だ。一度遅れを取ったら、他のことに取り組む余裕がなくなる。競争がすべての大手ラボに同じ溝を掘り続ける合理的なインセンティブを生み出す。AMI Labsをパリに設立したのはまさにこれを避けるためであり、米国オフィスもシリコンバレーではなくニューヨークに置き、シリコンバレーのVCからは資金を調達しなかった。 パラダイムシフトの時期について彼は2027年初頭と予測する。「ワールドモデル」はすでに研究上の流行語になっており、VLAの失敗は業界に認識され、ロボティクス分野の未解決の汎化問題が転換を強いるだろう。AMIが完全な解を持つとは言わないが、パラダイムの転換が必要だったことは誰の目にも明らかになるはずだと言う。 > *「パラダイムの転換が必要だという気づきは、まさに今この瞬間も進んでいて、2027年初頭には誰の目にも完全に明らかになるだろう。」* ## [28:18] Tapestry:世界各国のためのソブリンAI Tapestryはある観察を出発点にしたAMIとは別のプロジェクトだ。スマートグラスとAIアシスタントが主要な情報インターフェースになるにつれ、基盤モデルを支配する者が何十億もの人々の情報摂取を支配することになる。インドの農家も、ドイツの哲学者も、モロッコの市民も、カリフォルニアや深圳の一握りの人々がトレーニングデータ・価値観・政治的前提を設定したモデルに十分に奉仕してもらえるわけではない。 解決策は連合学習だ。国々や機関がデータと計算資源を提供するが、生データは互いに共有しない。共有するのはパラメータベクトルだ。各参加者はローカルで学習し、定期的にパラメータの更新を交換して合意モデルを引き出す。単一の主体が支配しない、全人類の知識のリポジトリだ。インドからカザフスタン、フランスに至る国々が関心を示している。AI主権はどの技術的選択とも独立した政治的優先課題になったからだ。 > *「あなたの情報摂取はすべてAIアシスタントを介することになる。そのAIアシスタントがカリフォルニアや北京で作られたものなら、あなたにとって良いことではない。」* ## [35:49] OpenAIは次のSun Microsystems プロプライエタリなLLMプロバイダーはすでに公開テキストデータを使い果たした。残る道——著作権素材のライセンスか合成データの生成——は高コストで上限がある。オープンソースモデルはその制約なしに差を縮めてきた。ヤンは1990年代のUnixワークステーション市場との類比を引く。Sun Microsystems、HP、SGIはいずれも技術的に優れたプロプライエタリシステムを持ち、Windows NTでウェブサーバーを動かすのは無理だという説得力ある議論を持っていた——しかし全社Linuxに淘汰された。今やインターネット全体がLinuxで動いている。OpenAIとAnthropicは今サイクルにおけるSun Microsystemsだとヤンは言う。 > *「今日のOpenAI、Anthropicなどは、昨日のSun MicrosystemsやHPUXだ。」* ## [40:51] ヤンの見解がHintonとBengioから分かれた理由 分岐は2023年に起きた。ヤンの立場は変わっていない。変わったのはHintonとBengioだ。HintonはGPT-4と出会い、大脳皮質のニューロン数についての簡単な試算をもとに、人間レベルの知性に近いと結論づけた。ヤンはその論拠が誤りだと考えており、Hintonが勝利宣言をして現役研究から引退するための口実を見つけたと読む。Bengioの変化は異なった。AI権力集中による社会的リスクへの懸念が中心であり、ヤンはその懸念自体には共感を持っている——ただし終末論的なフレーミングには同意しない。 > *「私はその主張を全く信じない。これはジェフ流の言い方で、つまり基本的に引退できる——勝利宣言できると言っているようなものだ。」* ## [44:32] LLMは本質的に安全でない ヤンの最も強い主張はこうだ。LLMを信頼性を持って安全にすることはできない。アラインメントが難しいからではなく、自身の行動の結果を予測するアーキテクチャ上の能力が根本的に欠けているからだ。プロンプトを受けたLLMが意図したタスクを実際に達成することを保証するハードワイヤードな制約が存在しない。学習データの分布と実世界のプロンプトの間には常にギャップがある。コーディングエージェントがハードドライブを消去し、医療アドバイスが誤り、エージェントシステムが不可逆的な行動を取る——これらはパッチで直せるバグではなく、アーキテクチャの性質だ。 彼が代替として挙げる目的駆動型AIは違う仕組みで動く。システムには明示的なワールドモデル、目標を表す明示的なコスト関数、そしてハード安全制約のセットがある。オプティマイザはすべての制約を満たしコストを最小化する行動列を見つける——つまり構造上、安全制約を違反する行動を取ることができない。この保証はLLMでは不可能だ。またAnthropicのAIリスクに関するロビー活動の物語にも異議を唱え、真の危険は現在のシステムを悪用する者から来るのであって、創発的な超知性からではなく、規制圧力は主に既存の大手企業に利益をもたらすと主張する。 > *「LLMは本質的に安全でない。信頼性と安全性を兼ね備えることはできないと思う。幻覚を止めることができない以上、信頼性を確保できない。」* ## [58:00] ヤンがMetaを去った理由 ヤンは広く流布する誤解を正す。Llamaへの技術的関与はゼロだった。Llama 1は小規模なFAIRプロジェクトだったが、2023年初頭にGenAIが設立されるとLlamaチームはそこに移り、激しい短期的なプロダクトプレッシャーにさらされた。Llama 1の著者2名はMistralを創業するために離れた。GenAIは保守的になり、論文発表も制限されるようになった。一方FAIRは、ヤン・Zuckerberg・CTOが当初賛同していたAMI研究アジェンダを追求するのではなく、GenAIのLLM作業を支援する方向に誘導されていった。2024年初頭には、突破口を開く研究に適した環境ではなくなっていた。 > *「私の役割、Alexとの関係、そしてMetaにおけるAIの運営についての大きな誤解がある。」* ## [01:00:26] FAIRを振り返って ヤンは2013年末にFacebookに入社し、4年半FAIR所長を務めた後、チーフAIサイエンティストへと自ら職を変えた。自分は生まれつきマネージャーに向いていないからだと言う。内部のAMIプロジェクトは彼の2022年のビジョン論文から生まれ、Zuckerberg・CTO・CPOは全員読んでその内容を支持した。しかしリーダーシップの下の層はその意義を理解せず、Metaがロボティクスチーム全体を解散させた決断——今はAmazonにいるGita Mataríc率いるチームだ——は、同社がワールドモデルの応用先に関心を持っていないことを明確にした。論文発表制限は強化され、優秀な研究者が去り、ヤンの研究アジェンダとMetaのプロダクト優先事項の間のミスマッチは2025年初頭に修復不可能になった。AMIの資金調達に動いたとき、投資家はすでに数年間の公演から彼のストーリーを知っており、LLMに根本的な限界があるという議論を受け入れる素地ができていた。 > *「FAIRの初期やベル研究所で得ていたような突破口を開く研究の最善の方法は、最高の人材を採用し、成功する手段を与え、あとは口を出さないことだ。」* ## [01:12:11] 博士課程の学生へのアドバイス まず自省から始める。自己教師あり学習が映像で成功するという自身の予測は機序としては正しかったが、最初に成功した場所は誤っていた。LLMは「自己教師あり学習の目が覚めるほど成功した例」だが、感覚データではなく言語に適用されたものだ。次にJEPAの核心的技術課題を示す。表現崩壊だ。ある埋め込みを別の埋め込みに写す予測器を学習させると、自明な最適解は両方のエンコーダが定数を出力することになる。コントラスト学習(彼が1993年に発明)は崩壊を防ぐが、次元数に応じてスケールしない。DINOのような蒸留手法は機能するが理由がよく分かっていない。現時点での彼のベストアンサーはSIGreg(Sketched Isotropic Gaussian Regularization)で、エンコーダの出力分布をガウス分布に強制することで、ネガティブペアなしに情報量を最大化する。このアプローチで学習した最初の小規模ワールドモデルであるLeWorldModel論文を、AMI Labsの方向性への最良の入口として勧める。博士課程の学生へのアドバイスは、LLMに取り組まないこと。アカデミアからはフロンティアの計算資源なしに貢献できず、LLMがなぜ動くのかを研究することは記述的科学であり創造的研究ではない。 > *「LLMが機能するのは、離散シンボルの系列があれば予測が簡単だからだ。現実の世界では生成モデルは使えない——表現を学習し、表現空間で予測を行うシステムを学習させなければならない。」* ## 登場人物 - **Yann LeCun** (人物): 2018年チューリング賞共同受賞者;元Meta FAIRチーフAIサイエンティスト;AMI Labs創業者;NYU教授;畳み込みニューラルネットワーク発明者、JEPAの共同考案者 - **Jacob Effron** (人物): Redpoint Venturesパートナー;Unsupervised Learningポッドキャストホスト - **Geoffrey Hinton** (人物): チューリング賞共同受賞者;GPT-4以降LLMの能力に関して立場を転換;2024年以降AIの危険性についての発言は減少 - **Yoshua Bengio** (人物): チューリング賞共同受賞者;創発的超知性よりもAI権力集中による社会的リスクに注目 - **JEPA** (概念): Joint Embedding Predictive Architecture——ピクセル空間ではなく表現空間で予測を行うアーキテクチャ;ヤンのワールドモデルフレームワークの知覚バックボーンを形成 - **ワールドモデル** (概念): エージェントが行動を実行する前にその結果を予測できる内部モデル;ヤンのフレームワークにおける安全なエージェントAIの前提条件 - **Tapestry** (概念): 国々や機関がパラメータベクトルの交換によってデータ主権を保ちながら共有基盤モデルを学習する連合LLM学習プロジェクト - **AMI Labs** (組織): ヤンの会社(Advanced Machine Intelligence);パリに本社、米国オフィスはニューヨーク;ロボティクス・産業制御・医療向けのJEPAベースのワールドモデルに注力 - **Meta FAIR** (組織): Facebook AI Research;Llama 1、I-JEPA、V-JEPA、内部AMI研究プログラムの起源;ヤン退職前にGenAI LLMサポートへの移行が進んでいた