LaiDub

播客

专访戴密斯·哈萨比斯的传记作者
56:10
EN/ZH
点开看双语
Unsupervised Learning: With Jacob Effron3 天前

专访戴密斯·哈萨比斯的传记作者

Sebastian Mallaby 用三年时间、在一家英国酒吧里与戴密斯·哈萨比斯进行了逾30小时的访谈,写成《The Infinity Machine》。这场对话从那份深度采访中抽出了最少被报道的几条线:2015年那次意外催生了 OpenAI 的安全峰会、戴密斯从未真正动用过的那个十亿美元分拆筹码,以及 Mallaby 意想不到的——哈萨比斯对上帝与科学的近乎精神性的信念。贯穿全局的是一个悖论:戴密斯从第一天起就清楚这场竞赛有多危险,但作为一家实验室的掌舵人,哪怕是诺贝尔奖得主,他也无力阻止它。 ## [00:00] 开场 Jacob Effron 介绍 Sebastian Mallaby:他是世界上与戴密斯·哈萨比斯相处时间最长的记者之一,三年间在伦敦的酒吧里面对面聊了30多个小时。Mallaby 的书《The Infinity Machine》覆盖了 DeepMind 从2010年创立到荣获诺贝尔奖的完整历程。节目预告片段里——戴密斯拍桌子谈上帝与科学、里德·霍夫曼的十亿美元承诺、与埃隆的宿怨——都来自后续对话。 > *"戴密斯有诺贝尔奖。萨姆没读完本科。所以戴密斯不太把萨姆放在眼里。"* ## [02:04] AI竞赛不可避免吗? Mallaby 的判断:不可避免。任何如此强大的技术,都会吸引多个国家的多个实验室前赴后继,中国的技术栈尽管面临芯片短缺,已然有竞争力。令人唏嘘的是,戴密斯在2010年并不这么想。他真心相信一家实验室可以把 AGI 安全地推过终点线——一个由 DeepMind 独挑大梁的单一主体场景。到了2020年代中期,他彻底转向:安全是集体行动问题,只有政府才能解决,因为单一实验室的克制无法约束其他人。 > *"我认为这是必然的。当你拥有这种极度强大的技术,自然会有多个国家的多个实验室拼命想把它造出来。"* ## [04:03] 2015年安全峰会的反效果 2015年夏天,SpaceX 总部:戴密斯召集了一场小型峰会,试图把埃隆·马斯克拉进安全监督框架——计划让他主持一个安全委员会,关键是不要再开竞争对手。然而年底,OpenAI 诞生了。Mallaby 把这一刻定性为戴密斯内心那条信念断裂的瞬间:实验室领导者之间的自愿协作在结构上行不通。他现在认为唯一可行的机制是由政府强制执行统一规则——强制上线前测试、安全减速——美中合作是终极目标,尽管这个前景看起来遥远。Jacob 追问实验室领导者是否真相信政府干预可行;Mallaby 拿 FDA 类比:迟钝、不完美,但它确实在裁定药物是否足够安全可以上市。 > *"你没法信任对方。要获得信任,唯一的办法是让政府来执法,说'这是对所有人的规则,要创造公平竞争环境,大家都要遵守某种安全减速要求。'"* ## [11:27] 为什么谷歌不做集中押注 Jacob 指出这个时代两个标志性的消费级 AI 时刻——ChatGPT 和 Claude Code——都没有来自 Google DeepMind,尽管它在评测榜上一直领先。Mallaby 把这直接追溯到戴密斯的知识底色:神经科学博士、对智能的宏观理论、"每当有两条路,就两条都走,再找第三条"的实验室文化。结果是一个高度分散的研究组合,擅长产出诺贝尔奖和最先进的模型,但在结构上难以做出 Anthropic 押注编程那样的单向产品赌注。Gemini 被捆绑进谷歌搜索,使用量比看起来高——但 Mallaby 承认,在产品热度上的差距是真实存在的。 > *"Anthropic 能做到编程这一点,是因为它愿意做更集中的押注。它从没有同时冲进整个领域、什么都做。"* ## [15:51] 马里奥计划:秘密分拆方案 书中最轰动的独家:DeepMind 曾有一个秘密计划——代号"马里奥计划"——从谷歌分拆出去,背后有里德·霍夫曼10亿美元的资金承诺。Mallaby 不得不和谷歌的总法律顾问打一场硬仗才争取到发表。动机不是创业独立,而是安全筹码:戴密斯想要对 DeepMind 模型建立正式的安全监督机制,山景城方面没有提供,可信的分拆威胁是他的谈判筹码。他从未明确告知谷歌霍夫曼的承诺,但知道这张牌在手,就一直在施压。最终他选择留下——分拆的法律风险、对算力资源的依赖,以及相比打企业结构官司更想专注做科学的心态。一年后,他发布了 AlphaFold,并赢得诺贝尔奖。 > *"戴密斯非常非常想对 Google DeepMind 的模型建立安全监督。谷歌总部在山景城那边没有提供这个。所以他必须有一个可信的分拆威胁。他找了里德·霍夫曼,霍夫曼承诺出10亿美元支持分拆——戴密斯用这个向谷歌施压。"* ## [19:43] 戴密斯真正的遗憾 关于 AlphaFold 和 AI for science:毫无遗憾——Mallaby 认为这不仅在科学上是正确选择,在政治上也是必要的,因为 AI 需要看得见的社会效益,才能在未来工作岗位遭受冲击引发的强烈反弹中存活下来。真正的遗憾在于速度。戴密斯错过了 Transformer 的时机,而 Ilya Sutskever 没有:论文一发布,Ilya 冲出去找 Alec Radford,要基于 Transformer 架构做语言模型。戴密斯宽泛的组合策略让 DeepMind 研究了 Transformer,却没有把实验室的全部赌注押上去。错过那个窗口——以及随后的 ChatGPT 时刻——是真实的失败,不只是风格上的差异。 > *"Ilya 从椅子上跳起来,冲出去找 Alec Radford,说'嘿,我们要用这个 Transformer 架构来做语言模型。'而在赢得 AlphaGo 的那一天,戴密斯已经心思转到了生物——有人用麦克风捕捉到了他说的话。"* ## [23:46] 风险创业公司 vs. 科技巨头 本集最宏观的结构性论点:在 AI 领域,风险投资支持的集中押注能赢过超大规模科技公司的广撒网吗?Mallaby 两者都写过(他的上一本书聚焦风险投资),认为双方真的势均力敌。超大规模科技公司有无限资本,可以支撑多年军备竞赛;问题是无限资源滋生组合思维,注意力由此分散。专注单一押注的创业公司在那个具体赌注上可以走得更快。Mallaby 的现场判断:OpenAI 被收购或倒闭的概率大约是50/50,不是因为技术不行,而是商业模式撑不住在谷歌的资金攻势下无限失血。他还提出 Anthropic 现在就应该 IPO,趁品牌处于最强势的时机。Jacob 拿机器人类比:当前有十五种不同路线同时获得资金,谁押中了那个像 Transformer 一样的突破,谁就能称霸。 > *"我在一月的《纽约时报》写道,我认为 OpenAI 有50%的概率在明年夏天前倒闭。现在还是50%吗?是的。技术没问题,问题在商业模式——而你面对的是谷歌,它有用不完的钱把你耗死。"* ## [34:08] David Silver 与强化学习信徒 David Silver——AlphaGo 首席研究员、与 Rich Sutton 合著"奖励即足够"论文的人——在书出版后离开 DeepMind 去创业了。Mallaby 认为这次离开在结构上是必然的:Silver 是强化学习的纯粹主义者,坚信从人类数据中学习天然低人一等,因为那些数据里编码了人类的错误。他的论点是:自博弈和环境生成的经验,才是通往真正超人表现的唯一路径。戴密斯告诉 Mallaby,这个观点在 AGI 实现之后或许是对的——但整个语言模型革命已经证明,用人类数据来引导才是抵达 AGI 的第一步。Silver 的强化学习纯粹主义超出了同事们当下所能跟随的范畴。 > *"David 在那个愿景上极度坚定——从数据中学习是低人一等的,因为数据里包含错误。机器需要从自身经验中学习,不能依赖通过文本传递下来的人类结晶知识。"* ## [38:21] 戴密斯、埃隆与"邪恶天才"的宿怨 起源:2012年,Founders Fund LP 年会,埃隆·马斯克说 SpaceX 最重要,因为就算 AI 毁了地球,人类还可以搬到火星。戴密斯回答:他的 AI 最终将征服太空飞行,然后跟着你们去火星。埃隆沉默片刻,随即开出一张500万美元的支票投入 DeepMind 的 B 轮。两年后,听闻谷歌正在收购 DeepMind,埃隆和 Luke Nosek 在洛杉矶一场派对的储藏室里,深夜通过 Skype 跟戴密斯连线,恳求他不要把公司卖给拉里·佩奇。戴密斯说不,挂掉电话,埃隆便开始叫他"邪恶天才"——这是戴密斯曾经设计过的一款电子游戏的名字。Mallaby 描述戴密斯对萨姆·奥特曼的看法带着一种资历上的不对等:诺贝尔奖得主对上一个没读完本科的人。这些创始人之间的关系,与其说是职业竞争,不如说是十五年来一系列具体的个人怨怼和竞争挑衅的积累。 > *"戴密斯说,'没错,但如果你以为在火星上能安全,记住我的 AI 将能够征服太空飞行,它会跟着你去火星。所以那时你也不会安全了。'沉默了一下。然后埃隆说,'嗯。'然后是:'我想投你的 B 轮。'"* ## [42:39] 伟人理论 vs. 历史必然性 Jacob 引用《经济学人》对这本书的评价——把它定性为伟人理论的一次检验。Mallaby 拿自己写格林斯潘传记作类比:格林斯潘清楚泡沫有多危险(这字面上是他博士论文的研究对象),却没能阻止2008年的金融危机。他一度想给戴密斯这本书起名《那个知道的人》——因为同样的道理:戴密斯从一开始就知道这项技术有多危险,但一家实验室的克制无法约束其他人。个人领袖在边际上确实重要:Dario Amodei 通过 Anthropic 宣言改变了安全叙事;萨姆·奥特曼在 ChatGPT 还在频繁出错时就把它推出去,塑造了这场竞赛的走向;戴密斯游说里希·苏纳克主办了英国 AI 安全峰会。但竞赛本身?在结构上是过度决定的。 > *"我觉得几乎可以把同一个书名用在戴密斯身上——'那个知道的人'——因为戴密斯从一开始就知道这东西有多危险。但作为一家实验室的负责人,哪怕是非常强大有钱的实验室,哪怕他有诺贝尔奖得主的地位——他能做什么?"* ## [45:00] 戴密斯不想让人发表的内容 Mallaby 最没想到的细节:戴密斯受一种近乎宗教感的科学信念驱动。在那些两小时的酒吧长谈里,他会拍桌子谈物质的奥秘——为什么原子聚合成实实在在的桌子,为什么硅和铜能思考——并在没人问的情况下脱口而出:"也许如果我们以正确的方式探索科学,我们将会越来越接近某种可以称之为上帝的东西。" Mallaby 把这解读为戴密斯不断推进一项他明知危险的技术的心理引擎:这是一场近乎精神性的追求,而不只是商业野心。关于戴密斯拦截的内容:他的家人(他从一开始就设了这条线),以及他与桑达尔·皮查伊之间的内部争执——他不想动摇自己仍然依赖的谷歌关系。 > *"他会开始拍桌子说,'也许如果我们以正确的方式探索科学,更深入地理解自然,我们将越来越接近某种可以称之为上帝的东西。'我完全没想到他会有这样的感受。"* ## 实体 - **戴密斯·哈萨比斯**(人物):DeepMind / Google DeepMind 联合创始人及 CEO;因 AlphaFold 获得2024年诺贝尔化学奖;《The Infinity Machine》的传主。 - **Sebastian Mallaby**(人物):《纽约客》长期撰稿人;《The Infinity Machine》(戴密斯·哈萨比斯传记)及一本风险投资著作的作者;三年间与哈萨比斯进行了逾30小时的访谈。 - **Jacob Effron**(人物):*Unsupervised Learning* 主持人;Redpoint Ventures 董事总经理。 - **里德·霍夫曼**(人物):LinkedIn 联合创始人;在"马里奥计划"中承诺出资10亿美元支持 DeepMind 从谷歌分拆。 - **David Silver**(人物):AlphaGo 和 AlphaZero 首席研究员;与 Rich Sutton 合著"奖励即足够"强化学习论文;书出版后离开 DeepMind 去创业。 - **埃隆·马斯克**(人物):主办2015年 SpaceX AI 安全峰会;DeepMind 早期投资人;在 DeepMind 出售给谷歌后给哈萨比斯起了"邪恶天才"的外号。 - **萨姆·奥特曼**(人物):OpenAI CEO;在 ChatGPT 仍有大量幻觉问题时于2022年底将其推出,Mallaby 认为此举不可逆转地塑造了 AI 竞赛的走向。 - **Dario Amodei**(人物):Anthropic CEO;通过宣言论文的发布和其公开的五角大楼对峙,被认为改变了 AI 安全叙事。 - **DeepMind**(机构):谷歌子公司;由哈萨比斯、Shane Legg 和 Mustafa Suleyman 于2010年创立;产出了 AlphaGo、AlphaFold 和 Gemini。 - **马里奥计划**(概念):DeepMind 秘密拟定的从谷歌分拆方案,背后有里德·霍夫曼10亿美元的承诺;作为安全监督的谈判筹码,从未真正执行。 - **AlphaFold**(软件):DeepMind 开发的蛋白质结构预测模型;让哈萨比斯赢得2024年诺贝尔化学奖;于他拒绝分拆方案后一年、即2020年发布。 - **强化学习**(概念):AlphaGo 和 AlphaZero 所依赖的机器学习范式;David Silver 对强化学习(从环境经验而非人类数据学习)的绝对主义立场,在 DeepMind 内部引发张力,并最终导致他的离开。 - **《The Infinity Machine》**(概念):Sebastian Mallaby 所著戴密斯·哈萨比斯传记;曾考虑命名为《那个知道的人》;在谷歌的反对下,完整收录了马里奥计划的独家内容。

#demis-hassabis#deepmind#ai-safety
Gemini 联合负责人谈世界模型、RL 下一步与持续学习
59:41
EN/ZH
点开看双语
Unsupervised Learning: With Jacob Effron13 天前

Gemini 联合负责人谈世界模型、RL 下一步与持续学习

Oriol Vinyals(Google DeepMind VP of Research、Gemini 联合负责人)在 Google I/O 第二天坐下来,把 I/O 上发布的产品背后的研究路线一条条摊开:世界模型为什么是 Google 押向 AGI 的独特路径、视频 / 图像的"GPT moment"长什么样、Spark 和 agents 系统为什么必须和模型联合优化、scaffolding 终将由模型自己写、memory 应该走非参数 file-system 而不是塞进权重、当今 RL 在哪些维度上是数据受限的、为什么 math/code 上的训练能意外迁移、以及 Google 内部 Brain + DeepMind 合并后研究下注的取舍。 ## [00:00] 开场 Jacob 用 60 秒铺垫了 Oriol 的背景(Gemini 联合负责人,与 Noam Shazeer、Jeff Dean 并列),以及 I/O 第二天访谈的优势:所有发布都还热乎,可以直接顺着 announcements 追到背后的研究。Oriol 进来打招呼,两人开始热身。 > *"我特别期待这场对话,因为你是最直接塑造 AI 前沿的那群人之一。"* ## [01:36] 为什么是世界模型 Jacob 先问"为什么是世界模型"。Oriol 把它拆成两层:一层是 self-improvement / coding 的角度,另一层是模型本身的对象——多模态、不止 closer 还包括 video / image 这种"world model"。Google 早就押了图像和视频路线,这次"显然押对了",因为我们其实把整个世界都搬到了互联网上。 他也承认中间有一段时间这条路看似不性感:multimodal 模型在 LLM 风口下被边缘化过,但视频和图像里藏着语言抓不到的知识——"the GPT moment for video"还没真正发生,但拐点已经在视野里。 > *"视频和图像里藏着大量知识。视频的 GPT 时刻——我觉得我们还没真正看到。"* ## [04:21] 视频的 GPT 时刻 Oriol 用 Omni(Google 的多模态产品线)当锚点解释:从单纯把视频喂进上下文,到能在长上下文里理解和生成视频,这段曲线已经很陡。下一步是问"能不能像 LLM 一样,在没有 paired text 的纯图像数据上预训练并依然提取出全部意义和细节"——这个 hard challenge 一旦解开,数据维度会从"被人类描述过的"跳到"所有视频",量级差异巨大。 他特别承认现在 video 这块的标注数据相对 image 仍然稀缺,但解锁后的回报会"非常大"。 > *"我们是否同意是另一回事。但如果真能解锁,那量级是巨大的。"* ## [07:51] Omni 凭什么算世界模型 "world model"这个词被滥用了,Oriol 给一个清晰定义:一个纯粹的 world model 必须做 representation learning——把世界压成紧致表征。在这之上,Omni 进一步成为可被语言驱动的 renderer:你用自然语言改一个 prompt,输出的视频内容随之改变,初始 image 之上能持续演化。这是从"被动建模"到"可控生成"的关键区别。 > *"世界模型本身在充当世界的 renderer,你完全可以用语言去改变它。"* ## [10:04] 世界模型与机器人 机器人是 world model 最直接的落地场景。Oriol 承认现在数据 mix 还在试错——sim 数据 vs 真机数据怎么配、什么时候 transfer 突然 click。世界模型本身的进步会带来一个 inflection point:一旦模型足够强,sim → real 的鸿沟会缩到 planning 和 gross motor 层面先打通,精细运动控制再慢慢跟上。 > *"也许还不是精细的运动控制,但 planning 和 gross motor 这一层,我们会开始看到事情逐步对齐。"* ## [12:37] 如何评估 AI 学到的物理 模型隐式学物理,但你怎么评估它学到没学到?Oriol 把它和无监督机器翻译做类比:如果模型内部确实表征了"重力"这个概念,应该能用某种 decode 把它翻译成显式 explanation。Stefano Gaus 等人 2014 年的早期 unsupervised translation 工作给了一条可借鉴的思路——把内部表征解码出来当 eval。 > *"你需要把'重力'这个概念(在世界模型里可能存在也可能不存在)解码成可被解释的说明。"* ## [14:51] 消费级 Agent 与 Spark I/O 发布的 Spark 是 Google 在 consumer agent 上的最新一步。Oriol 强调:"action 作为一种 modality"已经被 DeepMind 早早识别为关键。但 agent 不是把模型塞进 generic scaffold 就行——模型能力必须先到某个门槛,你才能 dream 出下一阶段的产品形态。 他给一个工程判断:在 train 阶段就把"我有这些能力,怎么挑用哪些"内化进模型,比在 inference 时让外部 scaffold 临时决策更高效。 > *"系统稍微围着你真正在乎的那件事去窄一点构建,这种方式是有用的。"* ## [18:39] Scaffolding 与 bitter lesson Oriol 多年支持 Sutton 的 bitter lesson。Jacob 把它推到 agent 时代:scaffolding 看起来违背 bitter lesson 因为是手写的胶水。Oriol 的答案是——"scaffold 本身就是一段 code,最终应该是模型自己 on the fly 写出来"。短期内人写、长期模型写,bitter lesson 仍然站得住。同时优化 model 和 scaffold 两端,而不是把所有赌注押在一端。 > *"系统本身就是一段代码,最终模型可以自己 on the fly 写出来。"* ## [22:06] 记忆与持续学习 Memory 这个话题 Oriol 谈得最深——他有 cognitive neuroscience 背景。他把 memory 分成两类:塞进权重(参数化)和挂在外部 file system(非参数化)。在 serving 规模下,把每次 user interaction 都 bake 进 weight 是不切实际的,非参数式 file-system memory 更可行。 真正的难点是"consolidate":怎么把之前 session 的信息整合到新 session,让模型像人一样积累知识。这部分 momentum 很大但远未饱和,未来几年评估方式和工程实践都会迭代。 > *"我们会看到更好的评估方式,以及这些模型在使用过程中逐步积累知识的方式。"* ## [26:54] 大厂内部的研究下注 在 Google 内部主导 Gemini 是什么体验?Oriol 谈三个维度的优势:TPU 联合设计(不用看 Nvidia 脸色)、广告/搜索带来的现金流稳定性、Brain + DeepMind 合并后端到端的研究强度。劣势是:组织太大没法对所有方向有全视野,必须靠直觉判断哪些早期研究值得 pull in,并接受"trade-off 不可能每次都做对"。 > *"Google 处在一个独特的位置。我们有硬件采购上的稳定性,也有资本投入上的稳定性。"* ## [32:30] 后训练 RL 仍是片处女地 post-training 这块仍然是一片 greenfield。在 coding 和 math 上 LLM 已经走出指数曲线,但其他领域为什么没跟上?Oriol 的核心判断是"投入还远远不够"——相对预训练的算力消耗,post-training 至今只用了很小一部分。算法的 beauty 还在迭代,"cracking that recipe could be big"。 > *"把这个配方破解出来会是大事,至少从算法之美的角度看。"* ## [35:57] 真正的智能长什么样 真智能长什么样?Oriol 用 2015 年的一个老 eval 来当锚——简单的 game-playing 任务,当时是 RL 的天花板,现在 LLM 一上来就能做。他想看到下一个数量级的跃迁:不是在熟悉的 benchmark 上推数字,而是在新的、人类没法立刻给出答案的问题上看到模型"主动产出洞察"。 > *"我喜欢游戏。"*(这句简单的自陈背后是他对 game-playing RL 长期偏爱的注脚) ## [39:11] RL 的泛化 游戏曾经是 verifiable reward 的典型样板。现在的挑战是找新的 hard problem source,让 RL 在更广的领域诱发出深度推理和泛化。Oriol 抛出一个不对称观察:create solution 和 evaluate solution 之间存在 gap——如果 evaluation 比 generation 容易,RL 就有机会撬动。 让他意外的是:在 math/code 上的训练能 surprisingly 迁移到其他领域,"很多泛化能力可能其实来自 pre-training"。这是接下来几个月到几年研究者要破解的关键题。 > *"很可能是通过预训练完成的——这是研究者未来几个月到几年要破解的关键问题之一。"* ## [42:55] 给创业者的建议 给 founder 的建议直白:evaluation 和 data 是绕不开的 moat。早期专注垂直产品、在 model 上叠一层 specialized scaffolding,等到 scale 起来再考虑 model layer 的差异化——这个路径"比较 scalable,也更适合早期玩家"。 > *"我想跟大家说的是 evaluation 的价值——我们刚才稍微提到过——它作为一连串数据的价值。"* ## [46:40] AI 真的能创新吗 Oriol 2016 年加入 DeepMind 后最痴迷的方向是 meta-learning——模型自己产出 idea。但他承认到目前为止,"我没看到模型生成真正 outstanding 的 idea"。他比喻:你让一万个人尝试,挑出对的那个再 glorify,但模型真正自主提出方向的能力——quite limited。但他相信 "soon"。 > *"我目前还没看到模型自己生成出真正出色的想法,但我确信很快就会看到。"* ## [49:48] 递归自我改进 递归自我改进可以分层看:第一层是 researcher / engineer 用 AI 工具加速自己;第二层是模型直接自动化某些研究任务。当模型写英文比你好的那一天,下一个 ceiling 在哪里?Oriol 说:"maybe there's no ceiling, or the ceiling is still far away" —— 我们甚至不一定能看到 ceiling 在哪里。 > *"当模型写英文比你写得还好那一天,也许就根本没有天花板,或者天花板还非常远。"* ## [52:14] 快问快答 最后 8 分钟快问快答覆盖了 TPU 投资历史、给年轻研究员的算力直觉、当下 AI 阶段的总体感受。Oriol 留下一句总结:"I think it's a fascinating time as anything in AI"。Jacob 用 podcast 致谢和 outro 结束。 > *"我觉得这是 AI 历史上少有的迷人时刻。"* ## 实体 - **Jacob Effron**(人物):Redpoint Ventures Managing Director,Unsupervised Learning 主持人。 - **Oriol Vinyals**(人物):Google DeepMind VP of Research,Gemini 联合负责人(与 Noam Shazeer、Jeff Dean 并列)。 - **Gemini**(产品):Google 的旗舰多模态 / agent 模型族;本期主要谈 I/O 第二天的发布。 - **Omni**(产品):Google 的多模态产品线,被用作"video / image 的 GPT moment"参照系。 - **Spark**(产品):I/O 发布的 consumer agent 产品。 - **世界模型**(概念):可被语言驱动的世界 renderer;representation learning 是其核心要素。 - **Bitter Lesson**(概念):Sutton 的论点;本期延伸为"scaffold 长期应由模型自己写"。 - **记忆 / 持续学习**(概念):非参数 file-system memory vs 把记忆塞进权重;consolidation 是关键难点。 - **后训练 RL**(概念):相对预训练的算力投入还很少,被定性为 greenfield。 - **Move 37**(概念):AlphaGo 那一手;Oriol 用它指代"真正的 RL/research breakthrough"基准。

#unsupervised-learning#redpoint-ai#oriol-vinyals
杨立昆谈 LLM 之后的路
1:21:56
EN/ZH
点开看双语
Unsupervised Learning: With Jacob Effron20 天前

杨立昆谈 LLM 之后的路

图灵奖得主、AMI Labs 创始人杨立昆明确指出:LLM 是条有成效的死胡同——它能做出实用的产品,但从结构上就无法对物理现实建模,无法规划,也无法预判行动的后果。他以 JEPA 架构作为替代路径,介绍了面向非美非中国家的主权 AI 项目 Tapestry,并首次详细披露在 Meta 离职的原委:GenAI 部门短期业绩压力不断积累,最终让突破性研究无法为继。他预测范式转变的时间节点是 2027 年初。 ## [00:00] 开场 Jacob Effron 用快剪预览开场——杨立昆调侃"五年之内,统治全世界",顺带谈及他与 Meta Llama 项目关系的直白看法,并说明自己对无监督学习的长期研究,最终让他与 LLM 路线背道而驰。Jacob 将本集定位为一次难得的机会:邀请一位亲手构建了开源 LLM 基础、如今却公开且一贯地坚持认为继续扩展 LLM 是押错了注的人,来讲清楚他的理由。 > *"让突破性研究涌现的最好方式,就是招到最好的人,然后滚开,别碍事。"* ## [01:45] 为什么 LLM 不是通往智能的路 杨立昆在"LLM 作为产品"和"LLM 作为通往智能的路径"之间划了一条清晰的界线。LLM 之所以奏效,恰恰是因为语言是特殊的——低维、离散、高度结构化,自回归预测在这里是可行的。现实不是这样。物理世界是高维、连续且混沌的:机器人拿起一只杯子、自动驾驶汽车穿越施工路段、细胞对药物产生反应——这些都不是语言问题,针对语言优化的架构无法建立推理所需的内部模型。 他的公司 AMI(Advanced Machine Intelligence)建立在一个反向命题上:正确的路是让系统从原始感官数据(视频、传感器数据流、工业遥测)中学习抽象的世界表示,并通过在这些表示内部模拟候选行动的后果来完成规划。 > *"LLM 根本不是通往人类水平智能、类人智能甚至动物级智能的路。这是我的主张。我不是说它们没用,我只是说它们不是那条路。"* ## [07:51] AMI 与世界模型 "世界模型"已成为行业热词,杨立昆指出,该领域分成了两个阵营:生成式方法(视频模型、VLA)和以 JEPA 为代表的联合嵌入方法。他对 VLA 不以为然,认为这类视觉-语言-动作模型脆弱、数据饥渴、泛化能力差,失败已被业界广泛承认。生成式视频方法与 LLM 有同样的结构性缺陷:它预测每一个像素,而非学习底层的抽象结构。 真正意义上的世界模型,是让智能体在采取行动前就能预判后果的系统。没有这个能力,任何智能体系统都是盲目运行的,无从验证一系列规划好的动作是否真能达到目标。 > *"我无法想象,怎么能在系统没有预判自身行动后果能力的情况下,去构建一个智能体系统。"* ## [12:07] JEPA 架构详解 JEPA 的核心洞见,来自杨立昆在多年自监督学习研究中发现的一个规律:所有成功学到有用图像与视频表示的架构,都是非生成式的。生成式架构——VAE、掩码自编码器、像素预测模型——始终表现欠佳。JEPA 将一个受损或不完整的输入和原始输入分别通过编码器,训练预测器去匹配表示,而非原始像素。这层抽象才是关键所在。 2022 年那篇"迈向自主机器智能的路径"论文,是他将完整蓝图写下来的尝试:JEPA 作为感知主干,上面叠加目标驱动的规划,以及不同时间尺度的世界模型层级结构。他把发表这篇文章形容为"把所有秘密都抖出来"——一个刻意的赌注:公开能招来更多人才投身这一范式,远比保密更有价值。 > *"我对通过预测来学习世界模型这个问题一直很感兴趣,大约五年前突然想通了:所有成功学到图像和视频表示的架构都是非生成式的,而所有生成式的架构基本上都失败了。"* ## [15:55] 当前机器人模型的问题 当前的机器人演示令人印象深刻,但背后依赖海量模仿数据——遥操作录像、手部跟踪示范,再加上主要在仿真环境中进行的强化学习微调。这套流程只能产出脆弱的专用模型。一个 17 岁的年轻人大约花 20 小时就能学会开车;我们有数百万小时的驾驶录像,却依然没有 L5 级自动驾驶汽车。模仿学习与真正泛化之间的鸿沟,正是死记例子和拥有世界内部模型之间的差距。 杨立昆对基于世界模型的系统的主张是零样本任务泛化:给定新目标,拥有精准内部世界模型的系统无需针对该任务专门训练,就能规划出达到目标的动作序列。他近期瞄准的工业应用——控制喷气发动机、化工厂、生产线——输入本就是数值型的,世界模型可以直接从运营数据中训练。 > *"基于世界模型的系统能带来的泛化程度,远远超过模仿学习训练出来的系统——用更少的训练数据覆盖更宽的任务谱系。"* ## [20:37] 硅谷的羊群效应 杨立昆对整个行业为何都扎进扩展 LLM 给出了结构性诊断:一旦落后,你就无力做别的。竞争赛跑给每个大型实验室制造了一种理性激励,让大家都去挖同一条沟。他特意把 AMI Labs 建在巴黎,美国办公室也选在纽约而非硅谷,且没有从硅谷 VC 融资。 他预测范式转变的时间节点是 2027 年初。"世界模型"已成为研究热词;业界已承认 VLA 失败;机器人领域悬而未决的泛化问题是一个强制函数。他并不声称 AMI 届时会有完整解决方案,但他预期到那时,所有人都会觉得范式转变的必要性是不言而喻的。 > *"我认为,对范式转变必要性的认识正在发生,而且到 2027 年初,这对所有人来说都会变得无比显然。"* ## [28:18] Tapestry:为世界其他地方打造主权 AI Tapestry 是独立于 AMI 的项目,出发点是一个观察:随着智能眼镜和 AI 助手成为主要信息接口,控制底层模型的人就控制了数十亿人的信息食谱。印度的农民、德国的哲学家、摩洛哥的公民——他们都不会因为一个训练数据、价值观和政治预设都由加州或深圳少数几个人决定的模型而受益。 解决方案是联邦训练:各国和机构贡献数据与算力,但彼此之间从不共享原始数据,只共享参数向量。每个参与方在本地训练,定期交换参数更新,并拉取一个持续更新的共识模型——这是一个没有任何单一方控制的全人类知识库。从印度到哈萨克斯坦到法国,多国已表达兴趣,因为 AI 主权已成为独立于任何技术选择的政治优先事项。 > *"你所有的信息摄入都将由 AI 助手中介,而如果那个 AI 助手是在加州或北京造的,对你来说并不是好事。"* ## [35:49] OpenAI 是下一个 Sun Microsystems 专有 LLM 提供商已经耗尽了公开可用的文本数据。剩下的路——授权版权内容或生成合成数据——代价高昂且有上限。开源模型在没有这个约束的情况下一直在缩小差距。杨立昆以 1990 年代 Unix 工作站市场作类比:Sun Microsystems、HP 和 SGI 都有技术上更优越的专有系统,也有充分的理由说明你不会在 Windows NT 上跑 Web 服务器——结果全被 Linux 消灭。如今整个互联网跑在 Linux 上。他说,今天的 OpenAI 和 Anthropic,就是这一轮的 Sun Microsystems。 > *"今天的 OpenAI、Anthropic 等,就是昨天的 Sun Microsystems 和 HPUX。"* ## [40:51] 杨立昆与 Hinton、Bengio 为何分道扬镳 分歧发生在 2023 年。杨立昆的立场没有变,变的是 Hinton 和 Bengio。Hinton 遇到 GPT-4 后,根据对大脑皮层神经元数量的粗略估算,得出 GPT-4 已接近人类智能水平的结论。杨立昆认为这个论证是错的,并将其解读为 Hinton 找到了一个宣告胜利、从主动研究中退休的理由。Bengio 的转变则不同——更专注于 AI 权力集中带来的社会风险——杨立昆对这种担忧更有共鸣,尽管他不认同其中的末日叙事框架。 > *"我根本不相信这个说法。这基本上是 Jeff 说:好,我可以退休了,我可以宣告胜利了。"* ## [44:32] LLM 本质上不安全 杨立昆最强的论断:LLM 无法被做成可靠安全的系统,不是因为对齐很难,而是因为架构从结构上就无法预判自身行动的后果。没有任何硬连线约束能保证被提示的 LLM 真正完成预期任务;它完成的是训练使它趋向的事情,而训练分布和真实世界的提示之间始终存在落差。编程智能体清空硬盘、医疗建议出错、智能体系统采取不可逆行动——这些不是可修补的 bug,而是架构的属性。 他的替代方案,目标驱动 AI,工作方式截然不同:系统有一个明确的世界模型、一个代表目标的明确代价函数,以及一组硬性安全约束。优化器找到一个满足所有约束并最小化代价的动作序列——这意味着它在构造上就无法采取违反安全约束的行动。这种保证对 LLM 来说是不可能的。他也反驳了 Anthropic 在 AI 风险上的游说叙事,认为真正的危险来自坏人利用现有系统,而非涌现的超级智能,且监管压力主要有利于现有头部玩家。 > *"LLM 本质上不安全。我不认为它们能被做成可靠且安全的。它们无法做到可靠,因为你无法阻止它们幻觉。"* ## [58:00] 杨立昆为什么离开 Meta 杨立昆纠正了一个广泛流传的误解:他对 Llama 的技术影响力为零。Llama 1 是 FAIR 的一个小项目;2023 年初 GenAI 部门成立后,Llama 团队转入其中,承受着巨大的短期产品压力。Llama 1 的两位作者离职创立了 Mistral。GenAI 日趋保守,发表限制也越来越多。与此同时,FAIR 正被重新定向,去支持 GenAI 的 LLM 工作,而非推进杨立昆、扎克伯格和 CTO 最初都认可的 AMI 研究议程。到 2024 年初,这个环境已经不再适合突破性研究。 > *"关于我的角色、我与 Alex 的关系,以及 AI 在 Meta 如何运作,存在一个很大的误解。"* ## [01:00:26] 回望 FAIR 杨立昆于 2013 年底加入 Facebook,担任 FAIR 负责人长达四年半,后主动卸任转任首席 AI 科学家——他坦言自己不是天生的管理者。AMI 内部项目脱胎于他 2022 年的愿景论文,扎克伯格、CTO 和 CPO 都读过并表示支持。但中层管理者看不到其中的价值,而 Meta 关停整个机器人 AI 团队的决定——该团队由 Gita Matarić 领导,她后来去了亚马逊——清楚地表明公司对世界模型所针对的应用场景毫无兴趣。发表限制收紧,优秀研究员离职,杨立昆的研究议程与 Meta 产品优先级之间的错配,到 2025 年初已无从调和。当他出去为 AMI 融资时,投资人早从他多年的公开演讲中了解了他的立场,对 LLM 存在根本性局限这一判断已有准备。 > *"让我们在 FAIR 早期以及贝尔实验室时期获得突破性研究成果的最好方式,就是招到最好的人,给他们成功的条件,然后滚开,别碍事。"* ## [01:12:11] 给博士生的建议 杨立昆首先反思,他预测自监督学习能在视频上成功的判断,机制方向是对的,但首先成功的地方判断错了:LLM 是"自监督学习的一个惊人成功案例",只不过用在语言上而非感官数据上。他随后点出 JEPA 的核心技术挑战:表示坍塌。如果训练预测器将一个嵌入映射到另一个,最显然的最优解是让两个编码器都输出常量。对比学习(他在 1993 年的发明)能防止坍塌,但难以随维度扩展。DINO 等蒸馏方法有效,但原理尚不明朗。他目前最好的答案是 SIGreg(Sketched Isotropic Gaussian Regularization),它强制编码器输出分布为高斯分布,在不需要负样本对的情况下最大化信息量。他推荐 LeWorldModel 论文——第一个用这一方法训练的小规模世界模型——作为了解 AMI Labs 方向的最佳入口。给博士生的建议:不要做 LLM——学术界没有前沿算力就无从贡献,而研究 LLM 为何有效是描述性科学,不是创造性研究。 > *"LLM 之所以有效,是因为当你有一串离散符号时,做预测是容易的。如果面对的是真实世界,你不能用生成模型,你必须训练一个学习表示并在表示空间中做预测的系统。"* ## 实体 - **杨立昆** (人物): 2018 年图灵奖共同得主;Meta FAIR 前首席 AI 科学家;AMI Labs 创始人;NYU 教授;卷积神经网络发明者,JEPA 共同创造者 - **Jacob Effron** (人物): Redpoint Ventures 合伙人;Unsupervised Learning 播客主持人 - **杰弗里·辛顿** (人物): 图灵奖共同得主;在遇到 GPT-4 后改变了对 LLM 能力的立场;2024 年以来较少公开谈论 AI 危险 - **约书亚·本吉奥** (人物): 图灵奖共同得主;专注于 AI 权力集中带来的社会风险,而非涌现的超级智能 - **JEPA** (概念): 联合嵌入预测架构——在表示空间而非像素空间做预测;构成杨立昆世界模型框架的感知主干 - **世界模型** (概念): 让智能体在采取行动前预判后果的内部模型;在杨立昆的框架中,是安全智能体 AI 的前提条件 - **Tapestry** (概念): 联邦 LLM 训练项目,通过参数向量交换让各国和机构共同训练基础模型,同时保留数据主权 - **AMI Labs** (机构): 杨立昆的公司(Advanced Machine Intelligence);总部位于巴黎,美国办公室在纽约;专注于面向机器人、工业控制和医疗健康的基于 JEPA 的世界模型 - **Meta FAIR** (机构): Facebook AI Research;Llama 1、I-JEPA、V-JEPA 和 AMI 内部研究项目的发源地;在杨立昆离职前已逐渐被重定向为支持 GenAI 的 LLM 工作

#llm-critique#world-models#jepa