LaiDub

播客听见世界的声音，看见思想的刻度

浏览频道

全部 AI 与科技商业科学文化政治哲学健康

1:06:36

EN/ZH

点开看双语

Unsupervised Learning: With Jacob Effron大约 1 个月前

AI 全面体检：实验室军备赛、API 或将消失与未来预测

距上次十二月圆桌会议半年之后，Jacob Effron 再度邀请 Ari Morcos（Datology AI CEO）和 Rob Toews（Radical Ventures）做一次全面的 AI 现状体检。编程 Agent 已跨越长周期执行的关键门槛，正在重塑工程师的工作方式；接近前沿水准的开放权重模型看起来越来越像一股退潮——Meta 和中国实验室都在出于经济考量收缩开源策略；Anthropic 对 Fable 悄然施加的能力限制，则令其最忠实的支持者深感受伤。三人就 Google 的结构性韧性、Ari 关于算力压力可能迫使实验室完全暂停公共 API 的预测、ASML 的 EUV 地位面临的原子光刻与 X 射线光刻挑战，以及递归自我改进究竟在哪里被卡住等问题，逐一展开讨论。 ## [00:00] 开场 Jacob 欢迎老朋友 Ari Morcos 和 Rob Toews 回归，指出本期是「现状体检」格式，话题从 IPO 招股书、SpaceX 转型算力，到 Fable 发布的前一天，无所不包。他将整场对话锁定在一个核心问题上：自 NeurIPS 之后那次会面至今的六个月里，最大的变化是什么？ > *"一切都在变。我们看到了 IPO 招股书，看到了迟迟未发、最终发布的模型，还看到了 SpaceX 摇身一变成为 AI 信息公司。"* — Jacob Effron ## [01:40] 编程 Agent 跨越门槛 Ari 认为最清晰的转变在于：编程 Agent 现在能稳定地完成长周期任务，这个门槛在圣诞假期前后被跨越，让 Agent 真正从「听起来不错」变成「确实好用」。Datology 的工程师们几乎全员从独立贡献者转型为同时管理多个 Agent 的调度者——但随之而来的是新瓶颈：代码审查队列开始积压，而当没有人真正理解 Agent 写出的代码时，混进代码库的「烂代码」就更难被发现。 > *"我们真的开始看到工程师的角色转变：至少大多数人，正在从独立贡献者转型为 Agent 的管理者。"* — Ari Morcos ## [03:29] 开放权重 AI 正在退潮？ Rob 抛出他认为的结构性拐点：接近前沿水准的开放权重 AI 面临彻底掉队的风险。他此前的预判——开放模型与闭源模型只差几个月——可能已经不成立了。Meta 似乎正在收缩开源策略，包括 Qwen 和 DeepSeek 在内的中国实验室也开始将高性能权重据为己有，只向外开放规模较小、能力较弱的版本。Ari 对此表示认同：一旦实验室建立了足够的信誉，经济逻辑就不再支持开放——自己跑推理的利润远比把权重白送出去要高得多。Rob 直言，纯开放权重的前沿模型根本不存在可持续的商业模式。 > *"过去六个月出现了一些早期迹象，让我开始怀疑：开放权重 AI 是否还能继续在这个生态里扮演举足轻重的角色？"* — Rob Toews ## [07:37] 成本挤压与脚手架层 Jacob 指出，与此同时一股反向压力正在形成：企业终于开始认真控制模型开销。从 Claude Opus 4.6 升级到 4.7，一些用户的 token 输出量翻了一番，曾经可以忽略不计的账单如今已成为预算中的一个正式条目。Ari 认为，真正的创新正越来越多地发生在模型权重之外的「框架与脚手架层」——开源模型加上私有脚手架（Kimi/Moonshot 是最典型的例子）可能才是真正能活下去的商业模式。他还向企业提出警告：现实中只有两条路可走，要么与前沿实验室合作（但最终会因为交出了私有数据而被对方超越），要么积累足够强的内部能力，在开放权重模型不再有保障的未来保持独立性。 > *"模型不再只是模型——它是模型加上框架和脚手架的整体，而大量创新正在发生在框架和脚手架层。"* — Ari Morcos ## [12:13] 「应用已死」的争论 Rob 认为「应用已死」这个论断，有一部分是对的，但也被严重过度推广了。传统软件品类确实面临来自实验室路线图的生存压力，但没有哪两三家公司能在地球上所有垂直领域同时做到卓越。OpenAI 关掉视频业务——尽管拥有近乎无限的资本和一支强队——就是明证：即便是最富有的实验室，也不得不做出艰难的优先级取舍，而这背后很大程度上是算力限制在驱动。于是深科技和硬件成了 VC 的共识赛道，但 Rob 提醒：硬科技也很难——失败率高，未解问题俯拾皆是。 > *"没有哪一两三家公司能赢下世界上每一个重要市场和品类。"* — Rob Toews ## [16:37] Sam Altman 接受审视 Rob 重提他十二月的预测：Sam Altman 会在年底前被替换。当时无人认可，六月中旬来看，可能性已经更高了。他最初看好的接班人选 Fiji 因健康原因不得不退出，更新后的理论指向 Bret Taylor：OpenAI 董事会主席、Sierra CEO，硅谷最受信任的运营者之一。Rob 认为，若 OpenAI 完成对 Sierra 的收购并让 Taylor 出任 CEO，在 IPO 前将是一次决定性的形象翻转——OpenAI 与 Anthropic 之间的信任差距已经相当大且仍在扩大，Taylor 的声誉足以填补这道裂缝。Ari 则提出另一种可能：OpenAI 重组为类似 Alphabet 的控股架构，Sam 留任母公司，另立一位 CEO 主掌核心产品。 > *"我认为，如果 Bret Taylor 能执掌 OpenAI，对其股东来说才是最有利的——这将极大地改变他们的命运。"* — Rob Toews ## [19:44] Anthropic 的 Fable 引发强烈反弹三人深入探讨了 Anthropic 悄然限制 Fable 在 AI 开发相关工作上能力这一决定所引发的强烈反弹。Ari 说，限制本身还能接受；让 Anthropic 最忠实的支持者真正愤怒的，是这种悄无声息的降级——模型就是表现变差了，却什么都不告诉你。他将这一举动解读为竞争卡位包装成安全旗号，并指出拥有良好脚手架的开源团队已经能独立复现大部分那些受限的漏洞挖掘能力。Ari 预测，短期内 Claude Code 最活跃的 Twitter 布道者中，相当一部分会迁移到 Codex，这将给 OpenAI 送上一份意外的 PR 礼物。 > *"它不会拒绝你，不会说'我不帮你做这件事'。它只是默默地把这件事做得很差，而你根本不知道。"* — Ari Morcos ## [23:24] Fable 究竟带来多大的跃升？ Ari 在录制前一晚才开始试用 Fable，他个人的感受是：与 Claude 4.8 相比并没有感受到巨大差异。Rob 的解读不同：Fable 与其说是一次跳变，不如说是证明「预训练撞墙」的叙事明显是错的——从预训练中持续获得丰厚收益，而测试时算力又提供了额外的增益杠杆。Ari 从实践者的角度补充：深度学习有个规律，95% 的细节做对了，模型往往还是没有改善，直到最后一个旋钮拨对，才突然触发跃升。因此，关于扩展失效的负面结果在解读上本来就极为困难。 > *"如果你把 95% 做对了，它整体上还是会矫正到不管用的状态。然后你拨动最后一个旋钮，突然就跃升了。"* — Ari Morcos ## [26:50] Google 到底怎么了？ Rob 反对「Google 表现不佳」的说法：三家前沿实验室本来就在互相超越，Google 在编程领域的落后只是优先级选择——Anthropic 多年来以编程为北极星，OpenAI 最近也大力押注，而 Google 根本就还没把编程列为最重要的方向。Google 真正拥有的是全栈结构优势：自研芯片（TPU）、自有云、庞大的人才储备，以及让其模型成为全球手机默认助手的 Android/iOS 分发协议。Ari 补充：消费级 AI 会迅速商品化，而 Google 已经在移动端的「默认提供商」这个角色上做好了优化，哪怕它现阶段不占最佳模型。Jacob 则观察到：Codex 显然是款强产品，但 Claude Code 依然强势——开发者工具中的先发优势比预想的更粘，不过 Fable 的限制可能会催生一波迁移浪潮。 > *"我认为 Google 在编程上落后了，但这只是优先级的体现。Anthropic 把编程当作多年来的北极星，这一点显而易见。"* — Rob Toews ## [33:20] API 会不会消失？ Ari 抛出本集最具挑衅性的论断：算力限制可能迫使 Anthropic——或 OpenAI——完全暂停公共 API 访问，这不是商业决策，而是因为 Claude Code 这类第一方产品利润率更高，而芯片本就不够用。OpenAI 已经开始出售有保障推理 token 的期货，Ari 将此解读为实验室本身也把 API 访问视为一种配额资源。Rob 确认这在技术上是可行的，尽管是极端情形；更可能发生的短期版本是：实验室将最强大的模型保留给内部使用，而不再向外公开提供。 > *"不难想象这样一个世界：Anthropic 被算力压得太紧，以至于真的切断了 API。"* — Ari Morcos ## [34:11] 打破芯片瓶颈 Rob 将话题引向算力短缺的物理根源：芯片制造高度集中在一家公司（TSMC），而其最关键的设备又出自另一家公司（ASML）。他指出 Elon Musk 的「超级晶圆厂」构想由于其变革潜力而被严重低估。Ari 对时间线持保留态度——很难想象在未来几年内就能缓解算力瓶颈。Rob 承认两三年内取代 TSMC 不现实，但五年的视野内，多家企业共同填补空缺是有可能的——全球半导体供应链的单点故障结构不必永远如此。 > *"这件事确实有点疯狂：全球就只有一家公司知道怎么做这件事，没有其他人能做到，而整个流程中最关键的那台机器又只由另外一家公司制造。"* — Rob Toews ## [35:42] 超越 EUV：原子与 X 射线光刻 Rob 介绍了两个可能最终挑战 ASML EUV 地位的前沿研究方向。第一是原子光刻：不再用光，而是用原子束来印制晶体管特征，实现远高于 EUV 的分辨率，且所用设备比 EUV 工具更简单、更便宜、更小。第二是 X 射线光刻，利用波长更短的电磁辐射突破 EUV 正在逼近的物理极限。两个方向都有初创公司获得可观融资，目前仍处于研发阶段。Ari 估计至少还需五年才能商业化，但 Rob 认为真正的技术颠覆终将到来。 > *"有几家初创公司在原子光刻上做了非常有意思的工作……设备可以简单得多、零件少得多、便宜得多、体积小得多，分辨率当然也好得多。"* — Rob Toews ## [37:23] 算力稀缺意味着什么 Jacob 追问：算力持续稀缺的世界，对企业实际意味着什么？Ari 认为这将倒逼出前沿实验室此前几乎没有动力去追求的效率创新：越来越小的模型将能媲美一两年前最大模型的水平，蒸馏投入会加速，推理优化将成为真正的竞争差异化因素。Rob 补充：供给约束从结构上对 Nvidia 之外的所有芯片厂商都是好事——AMD、Trainium、Cerebras——不是因为他们能增加总供给（TSMC 仍是上游瓶颈），而是因为企业会用任何能拿到的硅。H100 现货价格在十二月下跌后开始回升，正是短缺在加剧而非缓解的最清晰市场信号。 > *"我仍然预计，使用量的增长会快于你能做到的任何缓解措施。"* — Ari Morcos ## [40:20] 替代芯片真的有用吗？三人对替代芯片厂商究竟是在扩大总算力还是只在重新分配算力这个问题进行了深度拷问。共识是：它们是约束的受益者，而非解决者。如果没有 Cerebras 或 dMatrix，Nvidia 只会独吞 TSMC 的所有产能——芯片总量不变。替代厂商的价值在于阻止 Nvidia 对 TSMC 产能形成完全垄断，并为急需算力的买家提供备选。算力瓶颈在 2030 年之前不太可能缓解；Ari 估计 2030 年代初，新晶圆厂、新光刻技术、算法效率等多重突破有望同时到来。 > *"替代芯片厂商不是算力瓶颈的解药，但会成为算力瓶颈的受益者。"* — Rob Toews ## [43:43] SpaceX、xAI 与 Cursor 收购案 Jacob 转向 xAI 和据报道高达 600 亿美元的 Cursor 收购案。Rob 对 xAI 能否重返前沿 AI 研究第一梯队持怀疑态度：将算力卖给 Anthropic 和 Google 的决定，清晰表明数据中心建设——而非模型研究——才是这家公司的真实优先项。他认为 xAI 持久的优势契合 Elon 的运营基因：极快地建立起大规模集群。Ari 则认为，收购 Cursor 主要是为了获取编程轨迹数据，以此引导构建出一个有竞争力的编程模型——这正是 xAI 迄今未能自主实现的——600 亿相对于这个目标来说可能偏高，但保留了未来的可能性。Rob 指出 SpaceX 招股说明书的 TAM 图表将企业 AI 估算为约 20 万亿美元，而整个太空产业只有几千亿，由此得出结论：在 IPO 前做好叙事定位是这笔交易逻辑的重要组成部分。 > *"我认为收购 Cursor 是为了拿到所有的训练轨迹……以及对冲他们迄今未能做出有竞争力编程模型这一事实。"* — Ari Morcos ## [48:50] RSI 距离我们还有多远？ Andrej Karpathy 加入一个递归自我改进团队的决定，引出了一个关于时间线的直接追问。Ari 在过去六个月里变得明显更乐观：在 Datology，Agent 驱动的数据整理实验产出了「远超我预期的结果」，他现在认为 RSI 已经清晰地接近可行。瓶颈是算力，不是思路或执行力。然而他对「一家实验室独自突破」的指数级起飞叙事深表怀疑：算力约束限制了自我改进的速度，而至少有十家资金雄厚的机构同时具备追求 RSI 的人才和技术储备。Rob 原本预计 Ari 会更加怀疑——追问 RSI 如何能在没有指数级起飞的情况下到来时，Ari 将算力指为迭代速度的根本限制因素。 > *"我们正在清晰地逼近模型能够自我改进的临界点……但我认为存在根本性的算力瓶颈，足以限制这个速度。"* — Ari Morcos ## [52:21] 快问快答最后一轮快问快答抛出了几个鲜明观点。Rob 与当前主流观点的最大分歧：今天的 AI 系统与即将到来的系统相比，能耗效率低得可笑——一个 2 吉瓦的数据中心对比人脑的 20 瓦——模拟计算和硬件架构上的突破将让当前这轮资本开支建设看起来像是历史的一次异常。Ari 最锐利的逆向观点：「永久底层阶级」叙事——AI 在十年内夺走所有人类工作——被严重夸大了，因为人类消化和扩散技术的速度很慢，而商业关系中携带的人际信任维度，是技术官僚们系统性低估的。在观点转变上：Ari 比六个月前对 RSI 更加乐观，如今也强烈相信接近前沿的开放权重模型将会整合收缩。Rob 则提前了他对机器人的时间预期——机器人基础模型在近几个月已跨越商业可行性门槛，通用机器人的 GPT-3 时刻或许近在眼前。关于 2026 年下半年的预测：Ari 押注 Anthropic——或可能是 OpenAI——会在某个时间点暂停或严格限制 API 访问，2027 年底是他更有把握的窗口。Rob 的预测：Anthropic 的下一个篇章是生命科学，到今年年底，它正成为全球最重要的生命科学公司之一将显而易见——甚至可能包括建立自己的湿实验室设施。 > *"我认为到年底，Anthropic 正在成为生命科学领域一头初露锋芒的巨兽，将会是显而易见的事实。"* — Rob Toews ## 实体 - **Jacob Effron**（人物）：Unsupervised Learning 主持人，Redpoint Ventures 董事总经理 - **Ari Morcos**（人物）：Datology AI CEO；前 Meta AI 和 DeepMind 研究员；嘉宾 - **Rob Toews**（人物）：Radical Ventures 合伙人；福布斯 AI 专栏作者；嘉宾 - **Anthropic**（机构）：Claude 和 Fable 背后的 AI 安全实验室；因悄然施加能力限制而既获赞誉又遭批评 - **OpenAI**（机构）：ChatGPT 和 Codex 背后的实验室；正因 Sam Altman 的领导力问题接受内外审视 - **ASML**（机构）：荷兰公司，对 EUV 光刻机拥有近乎垄断地位，是尖端芯片制造的关键瓶颈 - **TSMC**（机构）：台湾积体电路制造公司，全球最先进芯片的唯一生产商 - **Datology AI**（机构）：Ari Morcos 的创业公司，专注于 AI 模型的数据整理与训练基础设施 - **Cursor / Anysphere**（软件/机构）：AI 编程工具，据报道正被 xAI 以约 600 亿美元收购；主要价值在于其编程轨迹数据集 - **递归自我改进（RSI）**（概念）：AI 系统自主改进自身训练和能力的能力；正从推测性话题转变为近期议题 - **原子光刻**（概念）：新兴芯片制造技术，用原子束而非光束印制晶体管特征，相比 EUV 具有更高分辨率和更简单的设备 - **EUV（极紫外光刻）**（概念）：当前最先进的芯片印制技术，正逼近物理分辨率极限；ASML 的核心产品

#lab-wars#open-weight-ai#semiconductor

1:13:33

EN/ZH

点开看双语

Unsupervised Learning: With Jacob Effron大约 2 个月前

AI 研究传奇人物的清醒自白

Lukasz Kaiser 是《Attention Is All You Need》的共同作者，曾在 Google Brain 和 OpenAI 从事研究工作，他与 Jacob Effron 坦诚地梳理了当前 AI 范式的现状与边界。他同时持有两个判断：一方面，结合了 RL 和智能体的 transformer 已经带来了惊人的生产力飞跃（他本人估算在科研工作上提速了 10 倍）；另一方面，人类从稀疏数据中泛化的方式，至今仍是现有架构难以企及的能力。对话由这一哲学层面的张力出发，落入具体议题：2025 年圣诞节前后编程智能体的拐点、RL 在非可验证任务上的前沿、Anthropic 押注编程的战略，以及开源与闭源差距的未来走向。 ## [00:00] 开场 Jacob Effron 预告了本集的核心问题：推理是否足以实现真正的泛化？2025 年圣诞节前后编程智能体为何突然跃升？Anthropic 为何率先抵达？闭源与开源的鸿沟又将走向何方？ ## [01:12] Transformer 与人类学习的差异 Kaiser 开篇表达了真实的矛盾心态。结合了思维链和 RL 的 transformer，已经能做到两年前他觉得不可能的事——每天用 Codex 处理高难度研究问题，而且确实有产出。但模型与人类在数据效率上的差距，始终让他耿耿于怀。 > *"LLM 会去学一个概念，但总是在穷尽其他所有可能之后才肯学。你得用一万亿个 token 把所有表层规律喂透，等这些规律解释不了新情况时，它才终于去学背后的概念。我们人类不是这样学东西的。"* 他把这个直觉落在一个结构性观察上：被称为"神经网络"的模型，本来就是要模仿大脑的，但它在根本上与大脑的工作方式不同。后 transformer 时代的研究团队正在积蓄力量，但 Kaiser 坦言自己真不确定谁会赢——每当研究者觉得找到了替代方案的有力证据，transformer 又追上来了。 ## [08:37] 如何实现物理世界的泛化？ Jacob 追问现实层面的意义：很多问题根本不受数据约束，那物理世界泛化为什么如此重要？Kaiser 的回答是：不受数据约束的问题会最先、最快地被解决；剩下的瓶颈几乎全是数据受限的，而物理世界正是这类难题中最典型的一个。他举的例子是 Waymo 放弃高速公路自动驾驶——因为模型无法应对它在城市里见过的施工路段。 > *"没有哪个年轻人会有这种问题：在城市里见过施工路段，到了高速公路却不认识了——施工路段就是施工路段，仅此而已。"* 这种失效模式——跑了几百万英里仿真，换一个上下文就崩了——正是他持续关注后 transformer 研究的根本原因。 ## [10:52] Transformer 之后是什么 Kaiser 认为，真正意义上的架构接班人，大概率需要同时改变架构、数据、损失函数和优化方式，而不是只拧动其中一个旋钮。注意力机制会以某种形式保留下来；他一直偏爱的循环结构，已经以隐式方式通过推理的逐 token 权重共享回归，但显式循环架构在大规模上还没有真正跑通。 > *"纯 transformer 在某些任务上做得不好，但加一点循环，加一点架构调整，也许再改一下损失函数，结果就很好了——所以哪怕在小规模上，也有很多事可以做。"* 他提到 TRNM 和 HRM 这类模型在数独风格的基准测试上表现不错，是早期但真实的信号。不过，智能体的故事主导着他的日常工作：他说，向编程智能体的转变是"我作为机器学习研究者 20 年来工作方式的最大改变"。 ## [13:59] 智能体让 Lukasz 的 AI 研究效率提升了多少？ Kaiser 给出了具体数字：一篇论文的复现工作从原来的三周缩短到两天，大约提速 10 倍。但速度不是唯一的收益——他现在同时推进三条研究线，这在以前是他从未尝试过的。 > *"现在感觉棒极了，可以完全进入那种心流状态——脑子里只想机器学习该怎么做，告诉智能体，验证一下，它就跑起来了。"* 他也回应了"过度依赖智能体会让研究者变钝"的担忧。他的亲身体验恰好相反：因为智能体可能悄悄加上辅助损失，或做出看似合理实则有误的修改，你反而需要对模型该做什么有更扎实的概念把握。架构的高层逻辑在脑子里比以前更清晰，即便你不再追踪具体的类名和函数签名。 ## [17:21] AI 研究实习生还有多远？ OpenAI 提出的"11 月前达到研究级实习生水平"的目标，Kaiser 认为大致准确，但有一个关键保留。智能体无法自主地朝着"降低困惑度"这样的开放目标去改进模型——给它这个指令，它会退化到做些表面调整。它还无法自行确定研究方向并独立执行数周。两个结构性障碍：现有 RL 方法需要和任务等长的 rollout，而研究任务要跑几个星期，训练代价不可行。人类不需要先做几百个多年期的研究课题，就能学会做多年期研究——这种过程本身的泛化，至今仍是未解之谜。 > *"有的数学家一道题做了 20 年——那是他们的代表作，仅此一件。他们之前没有做过 200 道同样量级的题来积累经验，但他们就是做到了。"* 关于 2025 年圣诞节的跃升，Kaiser 指出这个进步很难完全归因——测试框架的变化、后训练的调整、新的预训练模型，几件事同时发生。确实有什么东西越过了某个门槛，但具体原因连内部人士也说不清楚。 ## [26:06] 超越可验证任务的 RL "RL 只在可验证领域有效"的说法太过狭隘，Kaiser 认为。Harvey 做的法律 AI 并不是严格意义上可验证的，但进展很好，因为很多子任务足够可验证。哪怕是他自己的测试用例——诗歌翻译——也可以部分验证：押韵、文化典故、结构属性都有可检验的代理指标。 > *"每个漏洞你都可以反复打补丁堵上，但如果一开始就不用这么做就好了——因为每堵上一个漏洞，它就不再是瓶颈了，下一个冒出来的瓶颈，就是你还没堵的那些洞。"* 关于 RL 的泛化：确实会发生，但参差不齐。一个掌握了几乎所有 IMO 题型的模型，在几何题上仍可能崩掉，直到它见到更多几何题——不是因为它缺乏抽象的空间推理，而是在它的思维链表示空间里，几何离它训练的领域很远。这种脆弱性是真实存在的，要时刻保持警惕。Kaiser 认为，诚实地正视这些尖锐边界，反而让他作为研究者保持了更强的判断力。 ## [35:38] 应用公司：自研模型还是依赖大厂？更大的预训练模型会让一切变得更简单——微调、RL、鲁棒性——而且这一规律持续的时间比所有人预期的都要长。2024 年"小模型是未来"的叙事，从前沿能力仍随规模持续复利这个意义上来说，是错的。 Kaiser 更有趣的一个观点是关于硬件的普及化。他桌子下摆着一块 RTX 5090，BF16 精度下能跑出大约 200 TFLOPS——相当于当年跑原始 transformer 研究所用的五台八卡机器。今天，你可以用几千美元的台式机复现所有 transformer 研究。 > *"理论上，你可以用一天跑完相当于一年的人类算力——成本是几百到几千美元，而不是几百万。"* 让他格外兴奋的是：编程智能体现在可以按需编写 CUDA 核函数，扫除了探索非标准架构的最大实际障碍之一。过去的瓶颈是：你的想法不能干净地映射到标准算子，CUDA 又太痛苦，于是你放弃了。这个瓶颈正在迅速消失。 ## [46:21] 多模态仍缺少什么当前的多模态模型把图像拆成小块序列，在像素上做自回归——这套设计与生物感知系统的工作方式在根本上是错配的。人类同时接收来自所有感官的连续、大规模并行信息流，速度远超顺序 token 处理能够模拟的范围。 > *"对我们来说，一切同时发生在所有地方——我们同时看、听、说。我们的模型也应该如此。"* 他提到 Thinking Machines 的多流 transformer 研究是一个有前景的方向。他在实际工作中的沮丧之处：编程智能体必须等 bash 命令跑完才能收到新指令，而自然的交互方式本应是完全并行的。架构层面的修复在概念上并不复杂，但能否在大规模上真正提升能力，仍是未知数。 ## [49:46] OpenAI 押注推理 Kaiser 在 OpenAI 任期内最关键的决策，是转向推理模型。当时，同时维护聊天和推理两套模型族很别扭，推理模型里的个性感觉更难保留，延迟也是真实的顾虑。公司还是义无反顾地做了。 > *"OpenAI 非常善于接受这种艰难的赌注，然后说：好，我们就这么干。"* Kaiser 认为，这种坚定是真实的竞争优势：即使是大型实验室，在 RL 质量上仍在追赶 OpenAI。他现在的担忧是：规模扩大了大约 20 倍的 OpenAI，是否还能做出疯狂的押注，以及在后 transformer 架构开始看起来真正有说服力时，哪个实验室能快速转向。他认为新兴小实验室生态（规模小、专注、GPU 受限但思维不受限）是有价值的反制力量。 ## [55:26] AI 编程之战 Kaiser 对 Codex 和 Claude Code 竞争的看法是：编程市场足够大，容得下两个认真的玩家。更重要的问题是，任何一款产品如何把用户群扩展到软件工程师之外——Codex 至今仍以"你的 GitHub 仓库是什么"开场，这把大多数潜在用户挡在了门外。关于 Anthropic 为何率先攻下编程：他们根本无法在聊天上竞争，所以做出了集中押注。OpenAI 在用 GPT 跑 ChatGPT，服务十亿用户；Anthropic 选了一座不同的山头。Kaiser 从中提炼出一条普遍规律：在快速演进的 AI 赛道里，在一个非共识方向还不受欢迎的时候坚定押注，往往才是赢下下一个周期的方式。 > *"Anthropic 做出了专注于编程的正确决策。OpenAI 当时在做 ChatGPT。ChatGPT 很好，但显然不是 2026 年最厉害的 AI。"* ## [59:26] 专注还是广撒网 Google 的"让每个火种都不熄灭"文化常被批评为：眼睁睁看着别人把 Google 自己的研究成果商业化。Kaiser 的看法更为均衡：保持宽泛意味着，一旦某个领域点火，你已经有了强大的团队，可以迅速追上。他认为 Google 在聊天类模型上已基本追平，但编程智能体的那个拐点目前还没有被完全复制。反驳角度是：Anthropic 在编程上的高度专注让他们率先到达，而"率先到达"在用户获取和反馈循环上至关重要。OpenAI 现在也进入了类似的专注时刻，在 Codex 质量上产生了看得见的效果，但当你服务着十亿用户时，核心产品任何程度的下滑都会造成真实伤害，风险也随之增大。Kaiser 的结论是：实验室不该在前进中砸烂自己，但节奏依然重要。 ## [62:09] 开源与闭源的差距 Kaiser 预计差距会持续，但不会变得绝对。蒸馏让开源模型很好，但不如前沿模型——他在自己的研究工作流中能感受到 Gemini Flash 和 Gemini Pro 的差别。主权 AI 的需求（政府和大型机构不想依赖单一厂商）为开源模型保持相关性创造了持久动力，大型实验室也没有多大意愿去彻底封杀开源的生存空间。 > *"开源模型会有足够的动力存在下去，同时实验室也有很强的动力保持领先。人们持续为此付费——所以感觉这种格局应该会持续相当一段时间。"* ## [65:15] 快问快答 Kaiser 最重要的个人转变：从几乎不用 AI，到每天花几个小时泡在 Codex 里。完全不看代码、只在概念层面指挥智能体的这种工作方式，他曾经主动抵制，后来完全接受了。关于 AI 存在性风险：他的担忧程度大致没有变化，聚焦在近期误用场景上（基础设施攻击、电网破坏），而不是 AGI 接管。关于安德烈·卡帕西加入 Anthropic 研究 RSI：Kaiser 对这个方向感到兴奋，但指出，后 transformer 的突破需要大量大多数时候是错误的探索——即使是今天最强的研究智能体，在从一个完全错误的方向扭转到正确方向上仍然很弱，而这恰恰是人类擅长的事。他最后鼓励研究者：当下这个时刻——台式 GPU 可以媲美 2017 年的五套研究集群、编程智能体可以按需写定制核函数、主流范式真正存在可争之处——是做机器学习最令人兴奋的时代。他以自己在 transformer 之前写的那篇论文《You Don't Need Attention》作结，提醒大家：走错路，往往也是走到对路的必经之途。 ## 实体 - **Lukasz Kaiser**（人物）：《Attention Is All You Need》共同作者；曾在 Google Brain 和 OpenAI 从事研究；本集嘉宾 - **Jacob Effron**（人物）：Redpoint Ventures 董事总经理；Unsupervised Learning 播客主持人 - **《Attention Is All You Need》**（概念）：2017 年引入 transformer 架构的论文，Kaiser 参与共同撰写；现代 LLM 的基础 - **Transformer**（概念）：2017 年以来占主导地位的神经网络架构；关于其泛化局限及潜在继任者的讨论是本集核心 - **强化学习（RL）**（概念）：以奖励信号驱动的训练范式；编程智能体改进的关键，也是"超越可验证任务"讨论的主题 - **Codex**（软件）：OpenAI 的编程智能体；Kaiser 主要的科研生产力工具，据估算为其提速约 10 倍 - **Claude Code**（软件）：Anthropic 的编程智能体；被提及为 Codex 的直接竞争者 - **Waymo**（组织）：自动驾驶公司；被用作物理世界泛化失败的案例，背景是施工路段的适应问题 - **Anthropic**（组织）：AI 实验室；因押注编程的战略决策而率先在编程智能体领域取得领先 - **OpenAI**（组织）：Kaiser 曾供职的 AI 实验室；因率先押注推理模型的关键决策而受到肯定 - **Google Brain**（组织）：Kaiser 在 OpenAI 之前工作的研究部门；在 Google 广撒网与专注押注策略的讨论中被提及 - **Harvey**（组织）：法律 AI 公司；被援引为 RL 在非严格可验证领域取得进展的证据 - **泛化**（概念）：从有限数据将所学概念迁移到全新情境的能力；本集的核心张力所在 - **循环网络/RNN**（概念）：transformer 之前的序列建模范式；Kaiser 认为它可能以组件形式回归到后 transformer 架构中 - **安德烈·卡帕西**（人物）：AI 研究者；其加入 Anthropic 研究 RSI 一事在快问快答环节被提及

#transformer#generalization#reinforcement-learning

56:10

EN/ZH

点开看双语

Unsupervised Learning: With Jacob Effron大约 2 个月前

专访戴密斯·哈萨比斯的传记作者

Sebastian Mallaby 用三年时间、在一家英国酒吧里与戴密斯·哈萨比斯进行了逾30小时的访谈，写成《The Infinity Machine》。这场对话从那份深度采访中抽出了最少被报道的几条线：2015年那次意外催生了 OpenAI 的安全峰会、戴密斯从未真正动用过的那个十亿美元分拆筹码，以及 Mallaby 意想不到的——哈萨比斯对上帝与科学的近乎精神性的信念。贯穿全局的是一个悖论：戴密斯从第一天起就清楚这场竞赛有多危险，但作为一家实验室的掌舵人，哪怕是诺贝尔奖得主，他也无力阻止它。 ## [00:00] 开场 Jacob Effron 介绍 Sebastian Mallaby：他是世界上与戴密斯·哈萨比斯相处时间最长的记者之一，三年间在伦敦的酒吧里面对面聊了30多个小时。Mallaby 的书《The Infinity Machine》覆盖了 DeepMind 从2010年创立到荣获诺贝尔奖的完整历程。节目预告片段里——戴密斯拍桌子谈上帝与科学、里德·霍夫曼的十亿美元承诺、与埃隆的宿怨——都来自后续对话。 > *"戴密斯有诺贝尔奖。萨姆没读完本科。所以戴密斯不太把萨姆放在眼里。"* ## [02:04] AI竞赛不可避免吗？ Mallaby 的判断：不可避免。任何如此强大的技术，都会吸引多个国家的多个实验室前赴后继，中国的技术栈尽管面临芯片短缺，已然有竞争力。令人唏嘘的是，戴密斯在2010年并不这么想。他真心相信一家实验室可以把 AGI 安全地推过终点线——一个由 DeepMind 独挑大梁的单一主体场景。到了2020年代中期，他彻底转向：安全是集体行动问题，只有政府才能解决，因为单一实验室的克制无法约束其他人。 > *"我认为这是必然的。当你拥有这种极度强大的技术，自然会有多个国家的多个实验室拼命想把它造出来。"* ## [04:03] 2015年安全峰会的反效果 2015年夏天，SpaceX 总部：戴密斯召集了一场小型峰会，试图把埃隆·马斯克拉进安全监督框架——计划让他主持一个安全委员会，关键是不要再开竞争对手。然而年底，OpenAI 诞生了。Mallaby 把这一刻定性为戴密斯内心那条信念断裂的瞬间：实验室领导者之间的自愿协作在结构上行不通。他现在认为唯一可行的机制是由政府强制执行统一规则——强制上线前测试、安全减速——美中合作是终极目标，尽管这个前景看起来遥远。Jacob 追问实验室领导者是否真相信政府干预可行；Mallaby 拿 FDA 类比：迟钝、不完美，但它确实在裁定药物是否足够安全可以上市。 > *"你没法信任对方。要获得信任，唯一的办法是让政府来执法，说'这是对所有人的规则，要创造公平竞争环境，大家都要遵守某种安全减速要求。'"* ## [11:27] 为什么谷歌不做集中押注 Jacob 指出这个时代两个标志性的消费级 AI 时刻——ChatGPT 和 Claude Code——都没有来自 Google DeepMind，尽管它在评测榜上一直领先。Mallaby 把这直接追溯到戴密斯的知识底色：神经科学博士、对智能的宏观理论、"每当有两条路，就两条都走，再找第三条"的实验室文化。结果是一个高度分散的研究组合，擅长产出诺贝尔奖和最先进的模型，但在结构上难以做出 Anthropic 押注编程那样的单向产品赌注。Gemini 被捆绑进谷歌搜索，使用量比看起来高——但 Mallaby 承认，在产品热度上的差距是真实存在的。 > *"Anthropic 能做到编程这一点，是因为它愿意做更集中的押注。它从没有同时冲进整个领域、什么都做。"* ## [15:51] 马里奥计划：秘密分拆方案书中最轰动的独家：DeepMind 曾有一个秘密计划——代号"马里奥计划"——从谷歌分拆出去，背后有里德·霍夫曼10亿美元的资金承诺。Mallaby 不得不和谷歌的总法律顾问打一场硬仗才争取到发表。动机不是创业独立，而是安全筹码：戴密斯想要对 DeepMind 模型建立正式的安全监督机制，山景城方面没有提供，可信的分拆威胁是他的谈判筹码。他从未明确告知谷歌霍夫曼的承诺，但知道这张牌在手，就一直在施压。最终他选择留下——分拆的法律风险、对算力资源的依赖，以及相比打企业结构官司更想专注做科学的心态。一年后，他发布了 AlphaFold，并赢得诺贝尔奖。 > *"戴密斯非常非常想对 Google DeepMind 的模型建立安全监督。谷歌总部在山景城那边没有提供这个。所以他必须有一个可信的分拆威胁。他找了里德·霍夫曼，霍夫曼承诺出10亿美元支持分拆——戴密斯用这个向谷歌施压。"* ## [19:43] 戴密斯真正的遗憾关于 AlphaFold 和 AI for science：毫无遗憾——Mallaby 认为这不仅在科学上是正确选择，在政治上也是必要的，因为 AI 需要看得见的社会效益，才能在未来工作岗位遭受冲击引发的强烈反弹中存活下来。真正的遗憾在于速度。戴密斯错过了 Transformer 的时机，而 Ilya Sutskever 没有：论文一发布，Ilya 冲出去找 Alec Radford，要基于 Transformer 架构做语言模型。戴密斯宽泛的组合策略让 DeepMind 研究了 Transformer，却没有把实验室的全部赌注押上去。错过那个窗口——以及随后的 ChatGPT 时刻——是真实的失败，不只是风格上的差异。 > *"Ilya 从椅子上跳起来，冲出去找 Alec Radford，说'嘿，我们要用这个 Transformer 架构来做语言模型。'而在赢得 AlphaGo 的那一天，戴密斯已经心思转到了生物——有人用麦克风捕捉到了他说的话。"* ## [23:46] 风险创业公司 vs. 科技巨头本集最宏观的结构性论点：在 AI 领域，风险投资支持的集中押注能赢过超大规模科技公司的广撒网吗？Mallaby 两者都写过（他的上一本书聚焦风险投资），认为双方真的势均力敌。超大规模科技公司有无限资本，可以支撑多年军备竞赛；问题是无限资源滋生组合思维，注意力由此分散。专注单一押注的创业公司在那个具体赌注上可以走得更快。Mallaby 的现场判断：OpenAI 被收购或倒闭的概率大约是50/50，不是因为技术不行，而是商业模式撑不住在谷歌的资金攻势下无限失血。他还提出 Anthropic 现在就应该 IPO，趁品牌处于最强势的时机。Jacob 拿机器人类比：当前有十五种不同路线同时获得资金，谁押中了那个像 Transformer 一样的突破，谁就能称霸。 > *"我在一月的《纽约时报》写道，我认为 OpenAI 有50%的概率在明年夏天前倒闭。现在还是50%吗？是的。技术没问题，问题在商业模式——而你面对的是谷歌，它有用不完的钱把你耗死。"* ## [34:08] David Silver 与强化学习信徒 David Silver——AlphaGo 首席研究员、与 Rich Sutton 合著"奖励即足够"论文的人——在书出版后离开 DeepMind 去创业了。Mallaby 认为这次离开在结构上是必然的：Silver 是强化学习的纯粹主义者，坚信从人类数据中学习天然低人一等，因为那些数据里编码了人类的错误。他的论点是：自博弈和环境生成的经验，才是通往真正超人表现的唯一路径。戴密斯告诉 Mallaby，这个观点在 AGI 实现之后或许是对的——但整个语言模型革命已经证明，用人类数据来引导才是抵达 AGI 的第一步。Silver 的强化学习纯粹主义超出了同事们当下所能跟随的范畴。 > *"David 在那个愿景上极度坚定——从数据中学习是低人一等的，因为数据里包含错误。机器需要从自身经验中学习，不能依赖通过文本传递下来的人类结晶知识。"* ## [38:21] 戴密斯、埃隆与"邪恶天才"的宿怨起源：2012年，Founders Fund LP 年会，埃隆·马斯克说 SpaceX 最重要，因为就算 AI 毁了地球，人类还可以搬到火星。戴密斯回答：他的 AI 最终将征服太空飞行，然后跟着你们去火星。埃隆沉默片刻，随即开出一张500万美元的支票投入 DeepMind 的 B 轮。两年后，听闻谷歌正在收购 DeepMind，埃隆和 Luke Nosek 在洛杉矶一场派对的储藏室里，深夜通过 Skype 跟戴密斯连线，恳求他不要把公司卖给拉里·佩奇。戴密斯说不，挂掉电话，埃隆便开始叫他"邪恶天才"——这是戴密斯曾经设计过的一款电子游戏的名字。Mallaby 描述戴密斯对萨姆·奥特曼的看法带着一种资历上的不对等：诺贝尔奖得主对上一个没读完本科的人。这些创始人之间的关系，与其说是职业竞争，不如说是十五年来一系列具体的个人怨怼和竞争挑衅的积累。 > *"戴密斯说，'没错，但如果你以为在火星上能安全，记住我的 AI 将能够征服太空飞行，它会跟着你去火星。所以那时你也不会安全了。'沉默了一下。然后埃隆说，'嗯。'然后是：'我想投你的 B 轮。'"* ## [42:39] 伟人理论 vs. 历史必然性 Jacob 引用《经济学人》对这本书的评价——把它定性为伟人理论的一次检验。Mallaby 拿自己写格林斯潘传记作类比：格林斯潘清楚泡沫有多危险（这字面上是他博士论文的研究对象），却没能阻止2008年的金融危机。他一度想给戴密斯这本书起名《那个知道的人》——因为同样的道理：戴密斯从一开始就知道这项技术有多危险，但一家实验室的克制无法约束其他人。个人领袖在边际上确实重要：Dario Amodei 通过 Anthropic 宣言改变了安全叙事；萨姆·奥特曼在 ChatGPT 还在频繁出错时就把它推出去，塑造了这场竞赛的走向；戴密斯游说里希·苏纳克主办了英国 AI 安全峰会。但竞赛本身？在结构上是过度决定的。 > *"我觉得几乎可以把同一个书名用在戴密斯身上——'那个知道的人'——因为戴密斯从一开始就知道这东西有多危险。但作为一家实验室的负责人，哪怕是非常强大有钱的实验室，哪怕他有诺贝尔奖得主的地位——他能做什么？"* ## [45:00] 戴密斯不想让人发表的内容 Mallaby 最没想到的细节：戴密斯受一种近乎宗教感的科学信念驱动。在那些两小时的酒吧长谈里，他会拍桌子谈物质的奥秘——为什么原子聚合成实实在在的桌子，为什么硅和铜能思考——并在没人问的情况下脱口而出："也许如果我们以正确的方式探索科学，我们将会越来越接近某种可以称之为上帝的东西。" Mallaby 把这解读为戴密斯不断推进一项他明知危险的技术的心理引擎：这是一场近乎精神性的追求，而不只是商业野心。关于戴密斯拦截的内容：他的家人（他从一开始就设了这条线），以及他与桑达尔·皮查伊之间的内部争执——他不想动摇自己仍然依赖的谷歌关系。 > *"他会开始拍桌子说，'也许如果我们以正确的方式探索科学，更深入地理解自然，我们将越来越接近某种可以称之为上帝的东西。'我完全没想到他会有这样的感受。"* ## 实体 - **戴密斯·哈萨比斯**（人物）：DeepMind / Google DeepMind 联合创始人及 CEO；因 AlphaFold 获得2024年诺贝尔化学奖；《The Infinity Machine》的传主。 - **Sebastian Mallaby**（人物）：《纽约客》长期撰稿人；《The Infinity Machine》（戴密斯·哈萨比斯传记）及一本风险投资著作的作者；三年间与哈萨比斯进行了逾30小时的访谈。 - **Jacob Effron**（人物）：*Unsupervised Learning* 主持人；Redpoint Ventures 董事总经理。 - **里德·霍夫曼**（人物）：LinkedIn 联合创始人；在"马里奥计划"中承诺出资10亿美元支持 DeepMind 从谷歌分拆。 - **David Silver**（人物）：AlphaGo 和 AlphaZero 首席研究员；与 Rich Sutton 合著"奖励即足够"强化学习论文；书出版后离开 DeepMind 去创业。 - **埃隆·马斯克**（人物）：主办2015年 SpaceX AI 安全峰会；DeepMind 早期投资人；在 DeepMind 出售给谷歌后给哈萨比斯起了"邪恶天才"的外号。 - **萨姆·奥特曼**（人物）：OpenAI CEO；在 ChatGPT 仍有大量幻觉问题时于2022年底将其推出，Mallaby 认为此举不可逆转地塑造了 AI 竞赛的走向。 - **Dario Amodei**（人物）：Anthropic CEO；通过宣言论文的发布和其公开的五角大楼对峙，被认为改变了 AI 安全叙事。 - **DeepMind**（机构）：谷歌子公司；由哈萨比斯、Shane Legg 和 Mustafa Suleyman 于2010年创立；产出了 AlphaGo、AlphaFold 和 Gemini。 - **马里奥计划**（概念）：DeepMind 秘密拟定的从谷歌分拆方案，背后有里德·霍夫曼10亿美元的承诺；作为安全监督的谈判筹码，从未真正执行。 - **AlphaFold**（软件）：DeepMind 开发的蛋白质结构预测模型；让哈萨比斯赢得2024年诺贝尔化学奖；于他拒绝分拆方案后一年、即2020年发布。 - **强化学习**（概念）：AlphaGo 和 AlphaZero 所依赖的机器学习范式；David Silver 对强化学习（从环境经验而非人类数据学习）的绝对主义立场，在 DeepMind 内部引发张力，并最终导致他的离开。 - **《The Infinity Machine》**（概念）：Sebastian Mallaby 所著戴密斯·哈萨比斯传记；曾考虑命名为《那个知道的人》；在谷歌的反对下，完整收录了马里奥计划的独家内容。

#demis-hassabis#deepmind#ai-safety

59:41

EN/ZH

点开看双语

Unsupervised Learning: With Jacob Effron大约 2 个月前

Gemini 联合负责人谈世界模型、RL 下一步与持续学习

Oriol Vinyals（Google DeepMind VP of Research、Gemini 联合负责人）在 Google I/O 第二天坐下来，把 I/O 上发布的产品背后的研究路线一条条摊开：世界模型为什么是 Google 押向 AGI 的独特路径、视频 / 图像的"GPT moment"长什么样、Spark 和 agents 系统为什么必须和模型联合优化、scaffolding 终将由模型自己写、memory 应该走非参数 file-system 而不是塞进权重、当今 RL 在哪些维度上是数据受限的、为什么 math/code 上的训练能意外迁移、以及 Google 内部 Brain + DeepMind 合并后研究下注的取舍。 ## [00:00] 开场 Jacob 用 60 秒铺垫了 Oriol 的背景（Gemini 联合负责人，与 Noam Shazeer、Jeff Dean 并列），以及 I/O 第二天访谈的优势：所有发布都还热乎，可以直接顺着 announcements 追到背后的研究。Oriol 进来打招呼，两人开始热身。 > *"我特别期待这场对话，因为你是最直接塑造 AI 前沿的那群人之一。"* ## [01:36] 为什么是世界模型 Jacob 先问"为什么是世界模型"。Oriol 把它拆成两层：一层是 self-improvement / coding 的角度，另一层是模型本身的对象——多模态、不止 closer 还包括 video / image 这种"world model"。Google 早就押了图像和视频路线，这次"显然押对了"，因为我们其实把整个世界都搬到了互联网上。他也承认中间有一段时间这条路看似不性感：multimodal 模型在 LLM 风口下被边缘化过，但视频和图像里藏着语言抓不到的知识——"the GPT moment for video"还没真正发生，但拐点已经在视野里。 > *"视频和图像里藏着大量知识。视频的 GPT 时刻——我觉得我们还没真正看到。"* ## [04:21] 视频的 GPT 时刻 Oriol 用 Omni（Google 的多模态产品线）当锚点解释：从单纯把视频喂进上下文，到能在长上下文里理解和生成视频，这段曲线已经很陡。下一步是问"能不能像 LLM 一样，在没有 paired text 的纯图像数据上预训练并依然提取出全部意义和细节"——这个 hard challenge 一旦解开，数据维度会从"被人类描述过的"跳到"所有视频"，量级差异巨大。他特别承认现在 video 这块的标注数据相对 image 仍然稀缺，但解锁后的回报会"非常大"。 > *"我们是否同意是另一回事。但如果真能解锁，那量级是巨大的。"* ## [07:51] Omni 凭什么算世界模型 "world model"这个词被滥用了，Oriol 给一个清晰定义：一个纯粹的 world model 必须做 representation learning——把世界压成紧致表征。在这之上，Omni 进一步成为可被语言驱动的 renderer：你用自然语言改一个 prompt，输出的视频内容随之改变，初始 image 之上能持续演化。这是从"被动建模"到"可控生成"的关键区别。 > *"世界模型本身在充当世界的 renderer，你完全可以用语言去改变它。"* ## [10:04] 世界模型与机器人机器人是 world model 最直接的落地场景。Oriol 承认现在数据 mix 还在试错——sim 数据 vs 真机数据怎么配、什么时候 transfer 突然 click。世界模型本身的进步会带来一个 inflection point：一旦模型足够强，sim → real 的鸿沟会缩到 planning 和 gross motor 层面先打通，精细运动控制再慢慢跟上。 > *"也许还不是精细的运动控制，但 planning 和 gross motor 这一层，我们会开始看到事情逐步对齐。"* ## [12:37] 如何评估 AI 学到的物理模型隐式学物理，但你怎么评估它学到没学到？Oriol 把它和无监督机器翻译做类比：如果模型内部确实表征了"重力"这个概念，应该能用某种 decode 把它翻译成显式 explanation。Stefano Gaus 等人 2014 年的早期 unsupervised translation 工作给了一条可借鉴的思路——把内部表征解码出来当 eval。 > *"你需要把'重力'这个概念（在世界模型里可能存在也可能不存在）解码成可被解释的说明。"* ## [14:51] 消费级 Agent 与 Spark I/O 发布的 Spark 是 Google 在 consumer agent 上的最新一步。Oriol 强调："action 作为一种 modality"已经被 DeepMind 早早识别为关键。但 agent 不是把模型塞进 generic scaffold 就行——模型能力必须先到某个门槛，你才能 dream 出下一阶段的产品形态。他给一个工程判断：在 train 阶段就把"我有这些能力，怎么挑用哪些"内化进模型，比在 inference 时让外部 scaffold 临时决策更高效。 > *"系统稍微围着你真正在乎的那件事去窄一点构建，这种方式是有用的。"* ## [18:39] Scaffolding 与 bitter lesson Oriol 多年支持 Sutton 的 bitter lesson。Jacob 把它推到 agent 时代：scaffolding 看起来违背 bitter lesson 因为是手写的胶水。Oriol 的答案是——"scaffold 本身就是一段 code，最终应该是模型自己 on the fly 写出来"。短期内人写、长期模型写，bitter lesson 仍然站得住。同时优化 model 和 scaffold 两端，而不是把所有赌注押在一端。 > *"系统本身就是一段代码，最终模型可以自己 on the fly 写出来。"* ## [22:06] 记忆与持续学习 Memory 这个话题 Oriol 谈得最深——他有 cognitive neuroscience 背景。他把 memory 分成两类：塞进权重（参数化）和挂在外部 file system（非参数化）。在 serving 规模下，把每次 user interaction 都 bake 进 weight 是不切实际的，非参数式 file-system memory 更可行。真正的难点是"consolidate"：怎么把之前 session 的信息整合到新 session，让模型像人一样积累知识。这部分 momentum 很大但远未饱和，未来几年评估方式和工程实践都会迭代。 > *"我们会看到更好的评估方式，以及这些模型在使用过程中逐步积累知识的方式。"* ## [26:54] 大厂内部的研究下注在 Google 内部主导 Gemini 是什么体验？Oriol 谈三个维度的优势：TPU 联合设计（不用看 Nvidia 脸色）、广告/搜索带来的现金流稳定性、Brain + DeepMind 合并后端到端的研究强度。劣势是：组织太大没法对所有方向有全视野，必须靠直觉判断哪些早期研究值得 pull in，并接受"trade-off 不可能每次都做对"。 > *"Google 处在一个独特的位置。我们有硬件采购上的稳定性，也有资本投入上的稳定性。"* ## [32:30] 后训练 RL 仍是片处女地 post-training 这块仍然是一片 greenfield。在 coding 和 math 上 LLM 已经走出指数曲线，但其他领域为什么没跟上？Oriol 的核心判断是"投入还远远不够"——相对预训练的算力消耗，post-training 至今只用了很小一部分。算法的 beauty 还在迭代，"cracking that recipe could be big"。 > *"把这个配方破解出来会是大事，至少从算法之美的角度看。"* ## [35:57] 真正的智能长什么样真智能长什么样？Oriol 用 2015 年的一个老 eval 来当锚——简单的 game-playing 任务，当时是 RL 的天花板，现在 LLM 一上来就能做。他想看到下一个数量级的跃迁：不是在熟悉的 benchmark 上推数字，而是在新的、人类没法立刻给出答案的问题上看到模型"主动产出洞察"。 > *"我喜欢游戏。"*（这句简单的自陈背后是他对 game-playing RL 长期偏爱的注脚） ## [39:11] RL 的泛化游戏曾经是 verifiable reward 的典型样板。现在的挑战是找新的 hard problem source，让 RL 在更广的领域诱发出深度推理和泛化。Oriol 抛出一个不对称观察：create solution 和 evaluate solution 之间存在 gap——如果 evaluation 比 generation 容易，RL 就有机会撬动。让他意外的是：在 math/code 上的训练能 surprisingly 迁移到其他领域，"很多泛化能力可能其实来自 pre-training"。这是接下来几个月到几年研究者要破解的关键题。 > *"很可能是通过预训练完成的——这是研究者未来几个月到几年要破解的关键问题之一。"* ## [42:55] 给创业者的建议给 founder 的建议直白：evaluation 和 data 是绕不开的 moat。早期专注垂直产品、在 model 上叠一层 specialized scaffolding，等到 scale 起来再考虑 model layer 的差异化——这个路径"比较 scalable，也更适合早期玩家"。 > *"我想跟大家说的是 evaluation 的价值——我们刚才稍微提到过——它作为一连串数据的价值。"* ## [46:40] AI 真的能创新吗 Oriol 2016 年加入 DeepMind 后最痴迷的方向是 meta-learning——模型自己产出 idea。但他承认到目前为止，"我没看到模型生成真正 outstanding 的 idea"。他比喻：你让一万个人尝试，挑出对的那个再 glorify，但模型真正自主提出方向的能力——quite limited。但他相信 "soon"。 > *"我目前还没看到模型自己生成出真正出色的想法，但我确信很快就会看到。"* ## [49:48] 递归自我改进递归自我改进可以分层看：第一层是 researcher / engineer 用 AI 工具加速自己；第二层是模型直接自动化某些研究任务。当模型写英文比你好的那一天，下一个 ceiling 在哪里？Oriol 说："maybe there's no ceiling, or the ceiling is still far away" —— 我们甚至不一定能看到 ceiling 在哪里。 > *"当模型写英文比你写得还好那一天，也许就根本没有天花板，或者天花板还非常远。"* ## [52:14] 快问快答最后 8 分钟快问快答覆盖了 TPU 投资历史、给年轻研究员的算力直觉、当下 AI 阶段的总体感受。Oriol 留下一句总结："I think it's a fascinating time as anything in AI"。Jacob 用 podcast 致谢和 outro 结束。 > *"我觉得这是 AI 历史上少有的迷人时刻。"* ## 实体 - **Jacob Effron**（人物）：Redpoint Ventures Managing Director，Unsupervised Learning 主持人。 - **Oriol Vinyals**（人物）：Google DeepMind VP of Research，Gemini 联合负责人（与 Noam Shazeer、Jeff Dean 并列）。 - **Gemini**（产品）：Google 的旗舰多模态 / agent 模型族；本期主要谈 I/O 第二天的发布。 - **Omni**（产品）：Google 的多模态产品线，被用作"video / image 的 GPT moment"参照系。 - **Spark**（产品）：I/O 发布的 consumer agent 产品。 - **世界模型**（概念）：可被语言驱动的世界 renderer；representation learning 是其核心要素。 - **Bitter Lesson**（概念）：Sutton 的论点；本期延伸为"scaffold 长期应由模型自己写"。 - **记忆 / 持续学习**（概念）：非参数 file-system memory vs 把记忆塞进权重；consolidation 是关键难点。 - **后训练 RL**（概念）：相对预训练的算力投入还很少，被定性为 greenfield。 - **Move 37**（概念）：AlphaGo 那一手；Oriol 用它指代"真正的 RL/research breakthrough"基准。

#unsupervised-learning#redpoint-ai#oriol-vinyals

1:21:56

EN/ZH

点开看双语

Unsupervised Learning: With Jacob Effron2 个月前

杨立昆谈 LLM 之后的路

图灵奖得主、AMI Labs 创始人杨立昆明确指出：LLM 是条有成效的死胡同——它能做出实用的产品，但从结构上就无法对物理现实建模，无法规划，也无法预判行动的后果。他以 JEPA 架构作为替代路径，介绍了面向非美非中国家的主权 AI 项目 Tapestry，并首次详细披露在 Meta 离职的原委：GenAI 部门短期业绩压力不断积累，最终让突破性研究无法为继。他预测范式转变的时间节点是 2027 年初。 ## [00:00] 开场 Jacob Effron 用快剪预览开场——杨立昆调侃"五年之内，统治全世界"，顺带谈及他与 Meta Llama 项目关系的直白看法，并说明自己对无监督学习的长期研究，最终让他与 LLM 路线背道而驰。Jacob 将本集定位为一次难得的机会：邀请一位亲手构建了开源 LLM 基础、如今却公开且一贯地坚持认为继续扩展 LLM 是押错了注的人，来讲清楚他的理由。 > *"让突破性研究涌现的最好方式，就是招到最好的人，然后滚开，别碍事。"* ## [01:45] 为什么 LLM 不是通往智能的路杨立昆在"LLM 作为产品"和"LLM 作为通往智能的路径"之间划了一条清晰的界线。LLM 之所以奏效，恰恰是因为语言是特殊的——低维、离散、高度结构化，自回归预测在这里是可行的。现实不是这样。物理世界是高维、连续且混沌的：机器人拿起一只杯子、自动驾驶汽车穿越施工路段、细胞对药物产生反应——这些都不是语言问题，针对语言优化的架构无法建立推理所需的内部模型。他的公司 AMI（Advanced Machine Intelligence）建立在一个反向命题上：正确的路是让系统从原始感官数据（视频、传感器数据流、工业遥测）中学习抽象的世界表示，并通过在这些表示内部模拟候选行动的后果来完成规划。 > *"LLM 根本不是通往人类水平智能、类人智能甚至动物级智能的路。这是我的主张。我不是说它们没用，我只是说它们不是那条路。"* ## [07:51] AMI 与世界模型 "世界模型"已成为行业热词，杨立昆指出，该领域分成了两个阵营：生成式方法（视频模型、VLA）和以 JEPA 为代表的联合嵌入方法。他对 VLA 不以为然，认为这类视觉-语言-动作模型脆弱、数据饥渴、泛化能力差，失败已被业界广泛承认。生成式视频方法与 LLM 有同样的结构性缺陷：它预测每一个像素，而非学习底层的抽象结构。真正意义上的世界模型，是让智能体在采取行动前就能预判后果的系统。没有这个能力，任何智能体系统都是盲目运行的，无从验证一系列规划好的动作是否真能达到目标。 > *"我无法想象，怎么能在系统没有预判自身行动后果能力的情况下，去构建一个智能体系统。"* ## [12:07] JEPA 架构详解 JEPA 的核心洞见，来自杨立昆在多年自监督学习研究中发现的一个规律：所有成功学到有用图像与视频表示的架构，都是非生成式的。生成式架构——VAE、掩码自编码器、像素预测模型——始终表现欠佳。JEPA 将一个受损或不完整的输入和原始输入分别通过编码器，训练预测器去匹配表示，而非原始像素。这层抽象才是关键所在。 2022 年那篇"迈向自主机器智能的路径"论文，是他将完整蓝图写下来的尝试：JEPA 作为感知主干，上面叠加目标驱动的规划，以及不同时间尺度的世界模型层级结构。他把发表这篇文章形容为"把所有秘密都抖出来"——一个刻意的赌注：公开能招来更多人才投身这一范式，远比保密更有价值。 > *"我对通过预测来学习世界模型这个问题一直很感兴趣，大约五年前突然想通了：所有成功学到图像和视频表示的架构都是非生成式的，而所有生成式的架构基本上都失败了。"* ## [15:55] 当前机器人模型的问题当前的机器人演示令人印象深刻，但背后依赖海量模仿数据——遥操作录像、手部跟踪示范，再加上主要在仿真环境中进行的强化学习微调。这套流程只能产出脆弱的专用模型。一个 17 岁的年轻人大约花 20 小时就能学会开车；我们有数百万小时的驾驶录像，却依然没有 L5 级自动驾驶汽车。模仿学习与真正泛化之间的鸿沟，正是死记例子和拥有世界内部模型之间的差距。杨立昆对基于世界模型的系统的主张是零样本任务泛化：给定新目标，拥有精准内部世界模型的系统无需针对该任务专门训练，就能规划出达到目标的动作序列。他近期瞄准的工业应用——控制喷气发动机、化工厂、生产线——输入本就是数值型的，世界模型可以直接从运营数据中训练。 > *"基于世界模型的系统能带来的泛化程度，远远超过模仿学习训练出来的系统——用更少的训练数据覆盖更宽的任务谱系。"* ## [20:37] 硅谷的羊群效应杨立昆对整个行业为何都扎进扩展 LLM 给出了结构性诊断：一旦落后，你就无力做别的。竞争赛跑给每个大型实验室制造了一种理性激励，让大家都去挖同一条沟。他特意把 AMI Labs 建在巴黎，美国办公室也选在纽约而非硅谷，且没有从硅谷 VC 融资。他预测范式转变的时间节点是 2027 年初。"世界模型"已成为研究热词；业界已承认 VLA 失败；机器人领域悬而未决的泛化问题是一个强制函数。他并不声称 AMI 届时会有完整解决方案，但他预期到那时，所有人都会觉得范式转变的必要性是不言而喻的。 > *"我认为，对范式转变必要性的认识正在发生，而且到 2027 年初，这对所有人来说都会变得无比显然。"* ## [28:18] Tapestry：为世界其他地方打造主权 AI Tapestry 是独立于 AMI 的项目，出发点是一个观察：随着智能眼镜和 AI 助手成为主要信息接口，控制底层模型的人就控制了数十亿人的信息食谱。印度的农民、德国的哲学家、摩洛哥的公民——他们都不会因为一个训练数据、价值观和政治预设都由加州或深圳少数几个人决定的模型而受益。解决方案是联邦训练：各国和机构贡献数据与算力，但彼此之间从不共享原始数据，只共享参数向量。每个参与方在本地训练，定期交换参数更新，并拉取一个持续更新的共识模型——这是一个没有任何单一方控制的全人类知识库。从印度到哈萨克斯坦到法国，多国已表达兴趣，因为 AI 主权已成为独立于任何技术选择的政治优先事项。 > *"你所有的信息摄入都将由 AI 助手中介，而如果那个 AI 助手是在加州或北京造的，对你来说并不是好事。"* ## [35:49] OpenAI 是下一个 Sun Microsystems 专有 LLM 提供商已经耗尽了公开可用的文本数据。剩下的路——授权版权内容或生成合成数据——代价高昂且有上限。开源模型在没有这个约束的情况下一直在缩小差距。杨立昆以 1990 年代 Unix 工作站市场作类比：Sun Microsystems、HP 和 SGI 都有技术上更优越的专有系统，也有充分的理由说明你不会在 Windows NT 上跑 Web 服务器——结果全被 Linux 消灭。如今整个互联网跑在 Linux 上。他说，今天的 OpenAI 和 Anthropic，就是这一轮的 Sun Microsystems。 > *"今天的 OpenAI、Anthropic 等，就是昨天的 Sun Microsystems 和 HPUX。"* ## [40:51] 杨立昆与 Hinton、Bengio 为何分道扬镳分歧发生在 2023 年。杨立昆的立场没有变，变的是 Hinton 和 Bengio。Hinton 遇到 GPT-4 后，根据对大脑皮层神经元数量的粗略估算，得出 GPT-4 已接近人类智能水平的结论。杨立昆认为这个论证是错的，并将其解读为 Hinton 找到了一个宣告胜利、从主动研究中退休的理由。Bengio 的转变则不同——更专注于 AI 权力集中带来的社会风险——杨立昆对这种担忧更有共鸣，尽管他不认同其中的末日叙事框架。 > *"我根本不相信这个说法。这基本上是 Jeff 说：好，我可以退休了，我可以宣告胜利了。"* ## [44:32] LLM 本质上不安全杨立昆最强的论断：LLM 无法被做成可靠安全的系统，不是因为对齐很难，而是因为架构从结构上就无法预判自身行动的后果。没有任何硬连线约束能保证被提示的 LLM 真正完成预期任务；它完成的是训练使它趋向的事情，而训练分布和真实世界的提示之间始终存在落差。编程智能体清空硬盘、医疗建议出错、智能体系统采取不可逆行动——这些不是可修补的 bug，而是架构的属性。他的替代方案，目标驱动 AI，工作方式截然不同：系统有一个明确的世界模型、一个代表目标的明确代价函数，以及一组硬性安全约束。优化器找到一个满足所有约束并最小化代价的动作序列——这意味着它在构造上就无法采取违反安全约束的行动。这种保证对 LLM 来说是不可能的。他也反驳了 Anthropic 在 AI 风险上的游说叙事，认为真正的危险来自坏人利用现有系统，而非涌现的超级智能，且监管压力主要有利于现有头部玩家。 > *"LLM 本质上不安全。我不认为它们能被做成可靠且安全的。它们无法做到可靠，因为你无法阻止它们幻觉。"* ## [58:00] 杨立昆为什么离开 Meta 杨立昆纠正了一个广泛流传的误解：他对 Llama 的技术影响力为零。Llama 1 是 FAIR 的一个小项目；2023 年初 GenAI 部门成立后，Llama 团队转入其中，承受着巨大的短期产品压力。Llama 1 的两位作者离职创立了 Mistral。GenAI 日趋保守，发表限制也越来越多。与此同时，FAIR 正被重新定向，去支持 GenAI 的 LLM 工作，而非推进杨立昆、扎克伯格和 CTO 最初都认可的 AMI 研究议程。到 2024 年初，这个环境已经不再适合突破性研究。 > *"关于我的角色、我与 Alex 的关系，以及 AI 在 Meta 如何运作，存在一个很大的误解。"* ## [01:00:26] 回望 FAIR 杨立昆于 2013 年底加入 Facebook，担任 FAIR 负责人长达四年半，后主动卸任转任首席 AI 科学家——他坦言自己不是天生的管理者。AMI 内部项目脱胎于他 2022 年的愿景论文，扎克伯格、CTO 和 CPO 都读过并表示支持。但中层管理者看不到其中的价值，而 Meta 关停整个机器人 AI 团队的决定——该团队由 Gita Matarić 领导，她后来去了亚马逊——清楚地表明公司对世界模型所针对的应用场景毫无兴趣。发表限制收紧，优秀研究员离职，杨立昆的研究议程与 Meta 产品优先级之间的错配，到 2025 年初已无从调和。当他出去为 AMI 融资时，投资人早从他多年的公开演讲中了解了他的立场，对 LLM 存在根本性局限这一判断已有准备。 > *"让我们在 FAIR 早期以及贝尔实验室时期获得突破性研究成果的最好方式，就是招到最好的人，给他们成功的条件，然后滚开，别碍事。"* ## [01:12:11] 给博士生的建议杨立昆首先反思，他预测自监督学习能在视频上成功的判断，机制方向是对的，但首先成功的地方判断错了：LLM 是"自监督学习的一个惊人成功案例"，只不过用在语言上而非感官数据上。他随后点出 JEPA 的核心技术挑战：表示坍塌。如果训练预测器将一个嵌入映射到另一个，最显然的最优解是让两个编码器都输出常量。对比学习（他在 1993 年的发明）能防止坍塌，但难以随维度扩展。DINO 等蒸馏方法有效，但原理尚不明朗。他目前最好的答案是 SIGreg（Sketched Isotropic Gaussian Regularization），它强制编码器输出分布为高斯分布，在不需要负样本对的情况下最大化信息量。他推荐 LeWorldModel 论文——第一个用这一方法训练的小规模世界模型——作为了解 AMI Labs 方向的最佳入口。给博士生的建议：不要做 LLM——学术界没有前沿算力就无从贡献，而研究 LLM 为何有效是描述性科学，不是创造性研究。 > *"LLM 之所以有效，是因为当你有一串离散符号时，做预测是容易的。如果面对的是真实世界，你不能用生成模型，你必须训练一个学习表示并在表示空间中做预测的系统。"* ## 实体 - **杨立昆** (人物): 2018 年图灵奖共同得主；Meta FAIR 前首席 AI 科学家；AMI Labs 创始人；NYU 教授；卷积神经网络发明者，JEPA 共同创造者 - **Jacob Effron** (人物): Redpoint Ventures 合伙人；Unsupervised Learning 播客主持人 - **杰弗里·辛顿** (人物): 图灵奖共同得主；在遇到 GPT-4 后改变了对 LLM 能力的立场；2024 年以来较少公开谈论 AI 危险 - **约书亚·本吉奥** (人物): 图灵奖共同得主；专注于 AI 权力集中带来的社会风险，而非涌现的超级智能 - **JEPA** (概念): 联合嵌入预测架构——在表示空间而非像素空间做预测；构成杨立昆世界模型框架的感知主干 - **世界模型** (概念): 让智能体在采取行动前预判后果的内部模型；在杨立昆的框架中，是安全智能体 AI 的前提条件 - **Tapestry** (概念): 联邦 LLM 训练项目，通过参数向量交换让各国和机构共同训练基础模型，同时保留数据主权 - **AMI Labs** (机构): 杨立昆的公司（Advanced Machine Intelligence）；总部位于巴黎，美国办公室在纽约；专注于面向机器人、工业控制和医疗健康的基于 JEPA 的世界模型 - **Meta FAIR** (机构): Facebook AI Research；Llama 1、I-JEPA、V-JEPA 和 AMI 内部研究项目的发源地；在杨立昆离职前已逐渐被重定向为支持 GenAI 的 LLM 工作

#llm-critique#world-models#jepa

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, & Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

AI 全面体检：实验室军备赛、API 或将消失与未来预测

AI 研究传奇人物的清醒自白

专访戴密斯·哈萨比斯的传记作者

Gemini 联合负责人谈世界模型、RL 下一步与持续学习

杨立昆谈 LLM 之后的路

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, &amp; Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

AI 全面体检：实验室军备赛、API 或将消失与未来预测

AI 研究传奇人物的清醒自白

专访戴密斯·哈萨比斯的传记作者

Gemini 联合负责人谈世界模型、RL 下一步与持续学习

杨立昆谈 LLM 之后的路

No Priors: AI, Machine Learning, Tech, & Startups