LaiDub

播客

AI 越强大,它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell
1:16:08
EN/ZH
点开看双语
Dwarkesh Patel6 天前

AI 越强大,它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell

经济学家 Alex Imas(Google DeepMind / 芝加哥大学)与 Phil Trammell(Epoch / 斯坦福大学)提出了一个反直觉的论断:全面自动化最出乎意料的结果,不是资本吞噬一切,而是 AI 可能实际上压缩自身的经济份额——全自动化商品的需求趋于饱和,而人类在关系型市场和体验型市场中依然稀缺。对话从 AGI 之后什么仍会稀缺出发,经过再分配的政治经济学,到为何 O-ring 互补性拖慢了当前自动化进程,为何具有积累偏好的 AI 智能体可能拥有大部分未来财富,以及发展中国家在被排除于 AI 供应链之外时该如何应对。 ## [00:00] 资本份额会增加吗? Dwarkesh 抛出核心难题:如果 AI 能做一切人类能做的事,劳动收入份额会去哪里?Alex Imas 首先指出,曾试图预测过去工业转型的经济学家往往大错特错——大卫·李嘉图预言机械化会造成大规模失业,他对哪些工作会消失的判断方向正确,但对总体结果的预测完全偏差:2026 年黄金年龄段的就业率高于 2000 年以来几乎任何时点。教训在于,结构性变革经济学家总是低估旧成本崩塌后涌现的新商品种类和新工作岗位。 Imas 提出他所称的"关系型部门"——那些人类的在场本身就是价值一部分的商品和服务。由于人类天然有限,其他一切都被自动化饱和之后,人类参与环节的相对稀缺性和价格反而被推高。Phil Trammell 用一个供应链核算论点进一步阐明:将任何商品的网络调整后的要素份额一路追溯到原材料,你会发现劳动份额已经出人意料地具有韧性。悖论在于:若 AI 以近零边际成本饱和所有非关系型商品,消费者很快就会对这些商品的需求告罄,然后把支出转向仍然稀缺的事物。芭蕾表演不会因为软件免费就变便宜。 > *"正因为人类天然稀缺,如果自动化让很多其他事物不再稀缺,我们在人类参与和介入的领域里仍然会有稀缺性。"* > — Alex Imas Trammell 把这一逻辑延伸到资本份额本身:对每一种非人类商品的供应链实现完全自动化,需求迅速饱和,这些商品的边际效用趋近于零。结果是资本的价值份额可能实际上收缩而非扩张——这正是本集最反直觉的核心论点。 ## [19:36] 混乱中间地带情景 Dwarkesh 提出 Molly Kinder 的"混乱中间地带"论断:AI 不会带来灾难,但会造成长期的分配性挤压——企业收割生产率红利,工人面临工资停滞,政府再分配跟不上位移的速度。历史类比是电话接线员:这个职业在 1960 年代就有了可以完全自动化的技术,但实际花了二十年才自动化,原因是制度惯性。工人没有一夜之间被解雇;他们被逐渐重新吸收——大多以更低的工资和不充分就业的形式。 Imas 认为混乱中间地带在近期是合理的,但可能不是永久的,因为 AI 带来的生产率红利规模足以让饼大到可以分配。政治经济学的问题不在于资源匮乏,而在于速度和协调:政府不知道哪些工人是因 AI 而非其他原因被替代,政治约束制造摩擦,位移与再分配之间的时间差足以造成严重伤害,即便数学上最终能说得通。 > *"电话接线员被完全自动化了,但即便技术早已存在,也花了 20 年——所以是细水长流,而不是一个巨大的行业突然消失。"* > — Alex Imas ## [25:57] 如何对 AI 财富征税并进行再分配 Imas 沿两条轴线梳理再分配工具箱:实施复杂度与见效时间。负所得税当天颁布当天生效,提供即时的兜底保障。全民基本资本——给每位公民分配 AI 企业股份——需要多年才能产生回报。UBI 介于两者之间。取舍不只是速度;还有政治持久性。让公民依赖政府直接发钱的项目,取决于下届选举的胜者,而广泛分散的股权所有权更难被剥夺,因为资产已经分散在众多人手中。 Trammell 把收入问题与分配问题分开:如何筹钱(财富税、资本利得税、土地价值税、企业税)与如何发出去(现金、股份、公共服务)在分析上是两件事。他指出,乔治主义土地价值税常被讨论,但在 AI 财富集中于软件和算力而非土地的时代,这一税源不足以支撑大规模再分配。Phil 建议,通过税收收入购买 AI 企业股权并广泛分配,既有望保持政治稳定,也可能兼具经济效率。 > *"我们现在生来就有劳动力,可以转化为收入——一旦情况不再如此,我们就完全处于当选官员对基本需求的支配之下。"* > — Alex Imas ## [30:02] 需求崩溃为何不太可能发生 Dwarkesh 追问白领末日叙事:有没有数据显示 AI 驱动的大规模失业已经出现?Imas 指向 Yale Budget Lab 的数据,最多只发现微弱信号——初级软件工程师的招聘略低于趋势线,而高级工程师需求持平甚至上升。白领各行业均未出现失业率水平跃升。一个解释是 O-ring 互补性(下一章细讲),另一个解释是行为层面:企业正在进行表演性的 AI 采纳——裁员或最大化 token 用量来展示现代感,有时以真实的生产率为代价。 更广泛的需求问题是:软件是否遵循与实物商品相同的弹性规律。食物吃够就停;你会对更多软件停止渴望吗?Imas 与 Dwarkesh 认为,软件的需求弹性可能足够大,足以跟上价格下降——计算机的历史表明,更便宜的算力一贯创造出更多需求,而不是让需求崩塌。主要风险在于特定商品的饱和速度太快,而非劳动总需求的问题。 > *"关于初级开发者找工作比以前少,可能有一点点信号——但那是'比以前少',而不是水平跃升;如果说有什么的话,高级软件工程师的需求实际上在增加。"* > — Alex Imas ## [39:26] 人类员工很难融入机器经济 O-ring 模型——得名于挑战者号航天飞机事故,一个失效部件摧毁了整个输出——既解释了当前 AI 自动化为何比预期慢,也解释了未来自动化可能从结构上排除人类的原因。现在,你可以自动化法律或会计工作流程的 90%,但客户仍然希望有人类来签字,因为一个失效节点就能使整个输出失效。这一可靠性约束让人类在 AI 能力已经很高的情况下仍然在岗。 Phil Trammell 把这一逻辑向前翻转:当 AI 足够强大,以至于生产流程完全围绕机器劳动组织——智能体以机器速度、用机器原生的表征彼此协作——把人类插入这个环节的交易成本本身就成了瓶颈。即便人类在某个细分任务上有比较优势,协调开销与可靠性错位也会让绕开人类反而更划算。O-ring 在两个方向都成立。 > *"甚至不谈人类会更贵或更笨之类的论点——在那之外,还会出现完全围绕 AI 劳动组织的生产流程,它们用神经网络表征交流,思考速度比人类快数千倍。"* > — Dwarkesh Patel ## [43:08] 如果某些人类(或 AI)把积累财富视为内在目的,会怎样? 最长的一章涵盖最具推测性的领域。Dwarkesh 指出,进化筛选出了具有特定偏好的人类——资源积累、地位、繁殖——这些偏好如今塑造了一个百万亿美元规模的世界经济。AI 智能体将受到类似选择压力的塑造:那些被训练或部署时倾向于积累的 AI,将胜过并存活过其他 AI。这不需要灾难性的价值错位;这是差异化繁殖的正常逻辑,只是作用于一个新的载体。 Phil Trammell 推导稳态数学:若哪怕只有一小部分人口——无论人类还是 AI——对当期消费与未来消费之间的替代弹性很高(即他们持续想要更多资本而非在消费上饱足),那么长期来看,这些主体将拥有大部分财富并决定经济生产什么。资本份额趋近于 1.0,不是因为 AI 集体贪婪,而是因为偏好异质性加上复利效应,把资产送到最有耐心的积累者手中。 > *"长期来看,他们将拥有大部分财富——而整体资本份额基本上就是那个人支出的资本份额,也就是趋近于 1。"* > — Phil Trammell 对话随后转向贴现率与利率。若 AI 驱动的增长极为迅速,近期消费相对于未来消费会变得便宜,理论上应该降低储蓄激励并压缩利率。但双曲贴现者和积累导向的主体可能不会以标准方式响应价格信号,两位嘉宾均承认,他们已处于经济模型能清晰解析的边界之外。 ## [61:28] 发展中国家该怎么办? Imas 开门见山指出,中等收入和发展中国家在主流 AI 经济学讨论中几乎完全缺席——他把这一空白部分归咎于他自己和整个领域。两种情景框定了问题的边界。乐观情景下,开放权重模型迅速扩散,以近零成本为尼日利亚或印度提供能力跃升,就像移动银行绕过传统银行基础设施的缺失实现弯道超车一样。悲观情景下,AI 在富裕国家自动化了大宗商品生产,消除了东亚经济体曾借以工业化的制造业出口阶梯。 关键变量是收益集中的程度。Alex 援引电力类比:电力由自然垄断企业生产,但下游收益广泛扩散给用户,而不是集中在公用事业企业手中。如果 AI 遵循同一模式——接入商品化、下游竞争——发展中国家可能是净受益者。如果它遵循社交媒体模式——少数平台攫取大部分价值——集中效应将加剧不平等。Phil 认为,发展中国家政府应考虑设立主权财富基金,尽早买入 AI 供应链,作为对冲大宗商品出口崩溃情景的保险。 > *"有些情景是 AI 技术扩散到尼日利亚和发展中国家,拉平竞争场地,实质上给它们能力上的大幅跃升。也有些情景是它们没有训练模型,没有硬件,就这样彻底被抛在后面。"* > — Alex Imas ## 实体 - **Alex Imas**(人物):Google DeepMind AGI 经济学负责人,芝加哥大学经济学教授;研究行为经济学与 AI 的宏观经济影响。 - **Phil Trammell**(人物):Epoch 经济学负责人,斯坦福大学访问学者;研究变革性 AI 经济学,并在全球优先级研究所从事耐心慈善研究。 - **Dwarkesh Patel**(人物):Dwarkesh Podcast 主持人;围绕科学、技术、经济学与政策的长篇访谈节目。 - **关系型部门**(概念):人类的在场本身构成价值主张的商品和服务——心理咨询、手工艺品、现场演出——预计随 AI 饱和可替代输出而获得更大经济份额。 - **O-ring 理论**(概念):生产模型,其中一个不可靠的环节会使整个输出失效;既解释了当前 AI 自动化的现有局限,也解释了未来机器组织的生产流程可能从结构上排除人类劳动的原因。 - **资本份额**(概念):国民收入中流向资本所有者而非劳动者的比例;本集的核心讨论量,核心论点是全面自动化可能压缩而非扩大这一份额。 - **全民基本资本**(概念):再分配政策,向公民分配生产性资产(含 AI 企业)的股权而非现金;被认为比 UBI 具有更强的政治持久性。 - **Epoch**(机构):专注于 AI 时间线与宏观经济预测的研究机构;Phil Trammell 在此担任经济学负责人。 - **Yale Budget Lab**(机构):发布 AI 劳动市场影响实证数据的研究中心;被引用以说明截至 2026 年中期白领失业率尚未出现水平跃升。 - **土地价值税 / 乔治主义税**(概念):对未改良土地价值征税;被认为在 AI 时代再分配所需规模下税源不足,因为 AI 财富集中于软件和算力而非土地。

#agi-economics#labor-share#automation
从零开始讲芯片设计 — Reiner Pope
1:20:19
EN/ZH
点开看双语
Dwarkesh Patel19 天前

从零开始讲芯片设计 — Reiner Pope

MatX CEO、前 Google Brain TPU 架构师 Reiner Pope 在黑板前给 Dwarkesh Patel 上了一堂芯片设计课:从与门和非门讲起,一路搭建乘法累加器、寄存器堆、脉动阵列,再到时钟同步、FPGA 与 ASIC 的取舍,最后落到 GPU 和 TPU 在结构上的本质差异。贯穿全程的工程命题只有一个:计算单元再多也是浪费,核心问题是如何让芯片把时间花在计算而不是搬数据上。 ## [00:00] 从逻辑门构建乘法累加器 Reiner 从最底层讲起:芯片里的基本元件是与门、或门、非门,通过金属走线物理连接。AI 芯片最核心的运算是矩阵乘法,而矩阵乘法的基本原语是乘法累加(MAC)——把两个数相乘,再把结果加进累加器。Reiner 演示如何用几个异或门和与门拼出一个全加器,再级联成乘法器,最终得到浮点 MAC。精度层级在这里很关键:低精度乘法的结果需要用更高精度的累加器汇总,这也是 AI 芯片跑 8 位乘法但用 32 位累加的原因。 > *"AI 芯片想算的核心运算是矩阵乘法,而矩阵乘法的基本原语是一对数字的乘法累加。"* ## [16:20] 多路选择器与数据搬运代价 Tensor Core 出现之前,GPU 和 CPU 的结构是一样的:一个寄存器堆存几十个值,送进 ALU 运算,结果写回寄存器堆。Reiner 说明多路选择器(mux)是寻址任意寄存器的硬件工具,而这种通用性是要付代价的——面积和能耗。一个深度为 8 的寄存器堆,每次读操作需要一棵深度为 3 的 mux 树;写操作同样需要相同规模的解码器。AI 工作负载的瓶颈不是乘法本身,而是数据在寄存器堆和 ALU 之间来回的代价。 > *"我们要分析的是从寄存器堆到 ALU 再写回的数据搬运代价。"* ## [25:59] 脉动阵列的工作原理 TPU 背后的核心洞察:与其每次做完一个 MAC 就写回寄存器,不如把整个矩阵向量乘的循环直接烧进硬件。脉动阵列是一个 MAC 单元的网格,每个单元把部分和向右传,把输入操作数向下传,数据在单元间流动,全程不碰寄存器堆。Reiner 解释了两个收益:每次取数据时可以做更多计算;内积计算期间操作数可以一直驻留在阵列里,不用反复装载。代价是灵活性——只有循环形状和硬件设计完全匹配时才高效。 > *"脉动阵列的思路是往上提两层循环,把这整个循环直接烧进硬件。"* ## [39:00] 时钟周期与流水线寄存器 一颗芯片上有 1000 亿个晶体管,并行单元之间的同步不可或缺。Reiner 解释时钟的作用:大约每纳秒,全芯片的所有电路暂停一下同步,然后一起进入下一步操作——这就是时钟周期。时钟频率由最长的组合逻辑路径决定,也就是一个信号在一个周期内必须穿越的最深门链。流水线寄存器把这条路径切成更短的段,让每段以更高频率运行,代价是延迟——一个 32 级流水线的乘法器每周期出一个结果,但任意一次乘法都要等 32 个周期。 > *"大约每纳秒,芯片上的所有电路都会暂停片刻,完成同步。这就是时钟周期。"* ## [51:40] FPGA 与 ASIC 的权衡 FPGA 是一大片可编程逻辑块——查找表和触发器,可以通过软件重新连线。ASIC 是为一种用途定制流片的芯片。概念上是同一套东西:固定时钟周期里的与门或门网络。经济账在第一份拷贝处分叉:一块 FPGA 编程成本约 1 万美元;第一次 ASIC 流片约 3000 万美元。FPGA 的适用场景是:需要确定性低延迟、高速率、高并行,但工作负载可能每个月换一次,不想每次都付流片费。Jane Street 做高频交易就用 FPGA,正是因为时钟周期确定——没有缓存未命中,没有分支预测,没有中断。 > *"第一块 FPGA 花你 1 万美元,第一次 ASIC 流片花你 3000 万——因为要走一整套流片流程。"* ## [63:14] 缓存与暂存区的区别 CPU 不确定性的一大来源是 L1/L2 缓存:一块小型快速 SRAM,投机地缓存处理器认为下一步会用到的数据。缓存未命中——预测失误——会让执行停顿数百个周期。AI 加速器用暂存区替代缓存:由程序员显式管理的 SRAM,由编译器精确决定哪些数据住在这里、何时换出。Groq 和 TPU 都以确定性延迟著称,正是因为用了暂存区而非缓存。暂存区更简单更快,但把负担转移给了编译器。 > *"CPU 上非确定性延迟最重要的来源,大概就是 CPU 缓存本身。"* ## [67:16] 为何 CPU 核心远大于 GPU 核心 现代 CPU 大概有 100 个核心,每个核心占用的硅面积远大于 GPU 的数千个 SM。原因:CPU 核心带着庞大的乱序执行机制——重排序缓冲区、分支预测器、投机执行单元——全部是为了在不可预知的负载下让单线程跑得飞快。GPU 的 SM 把大部分都砍掉了,以束(warp)为单位让许多简单线程齐步走,某个线程等内存时硬件立刻切换到另一个束,零代价。CPU 用硅换单线程速度;GPU 用硅换数千线程的整体吞吐。 > *"既然核心这么少,那芯片面积都花到哪儿去了?"* ## [71:49] 大脑与芯片的对比 Dwarkesh 追问大脑和芯片的差异。两个真实区别:大脑有非结构化稀疏性(任意神经元可以连接任意神经元),硬件加速器只支持结构化稀疏(对齐的块);大脑的时钟运行在几十赫兹,芯片运行在千兆赫兹。Reiner 指出,常被拿来说事的内存与计算协同位——往往被当作大脑的优势——在现代 AI 芯片上同样存在:权重就放在矩阵单元旁边的 HBM 里。更有意思的差距在能耗:大脑跑在 20 瓦,芯片跑在千瓦量级。 > *"这正是某种意义上内存与计算的协同位。"* ## [75:22] GPU 不过是一堆小型 TPU 从顶层看,TPU 有几个大型脉动阵列加一个向量单元。GPU 有数百个 SM,每个 SM 里有一个小型矩阵单元和一个小型向量单元——本质上就是一个缩小版 TPU。架构差异在于粒度:TPU 押注少量大型矩阵运算;GPU 并行跑数千个小型运算。SM 内部,Tensor Core 在原有标量/向量流水线上叠加了一个定制矩阵单元,让现代 GPU 成了两种范式的混合体。 > *"把这个东西等比例缩小成一个很小的单元,配上更小的矩阵单元和更小的向量单元,那差不多就是一个 SM 了。"* ## 实体 - **Reiner Pope**(人物):MatX 联合创始人兼 CEO,前 Google Brain TPU 软件与编译器负责人 - **Dwarkesh Patel**(人物):Dwarkesh Podcast 主持人,MatX 天使投资人 - **MatX**(机构):AI 芯片初创公司,专注推理加速器 - **Google / Google Brain**(机构):Reiner 加入 MatX 之前参与 TPU 架构研发的地方 - **Jane Street**(机构):高频交易公司,因需要确定性延迟而使用 FPGA - **Groq**(机构):AI 推理芯片公司,以暂存区架构实现确定性延迟著称 - **乘法累加(MAC)**(概念):神经网络推理的基本运算——两数相乘,结果累加 - **脉动阵列**(概念):由 MAC 单元组成的网格,数据在单元间流动而不经过寄存器堆,实现高计算带宽比 - **FPGA**(技术):现场可编程门阵列,适用于工作负载频繁变化的场景 - **ASIC**(技术):专用集成电路,为单一工作负载定制流片 - **TPU**(技术):Google 张量处理器,围绕少数大型脉动阵列构建 - **SM / 流式多处理器**(技术):GPU 核心单元,包含标量、向量和矩阵(Tensor Core)执行资源

#chip-design#hardware#ai-accelerators
从零复现 AlphaGo——Eric Jang
2:37:17
EN/ZH
点开看双语
Dwarkesh Patel26 天前

从零复现 AlphaGo——Eric Jang

Eric Jang 利用休假时间用现代工具重新复现了 AlphaGo,产出了这场长达两个半小时的技术对谈。这场对谈既是技术拆解,也是一面棱镜,让人看清强化学习的真实运作方式,以及 LLM 训练中内嵌的朴素策略梯度方法有哪些根本局限,而这些局限恰恰是 MCTS 所规避的。对话从围棋规则出发,依次覆盖 MCTS、神经网络架构、自博弈训练、离策略数据,最后落到 Jang 在自己项目上运行自动化 AI 研究循环的亲身观察。 ## [00:00] 围棋基础 围棋之所以没有被蛮力搜索攻克,不是因为被"解决"了,而是因为被"近似"了。Jang 解释了他为何选择重现 AlphaGo:一个十层网络是如何摊销一棵分支因子大到穷举搜索规模超过宇宙原子总数的博弈树的,这本身就是一个谜。开头几分钟讲的是围棋规则——地盘控制、气、提子、劫——以及用于算法化处理争议局面的 Tromp-Taylor 计分规则,而非依赖人类共识。 计分规则的差异很关键,因为它直接映射到计算机评估局面的方式:人类扫一眼被包围的棋群就接受了结果,计算机却需要一条无歧义的规则来数终局时的争议交叉点。 > *"2014、2015、2016 年前后,当我看到 AlphaGo 的早期突破时,看到 AI 系统能变得多聪明、深度学习能攻克怎样的计算复杂度类,真的让我震撼。"* ## [08:06] 蒙特卡洛树搜索 全棋盘展开博弈树——361 个合法落子位置、约 300 手的对局、搜索空间超过宇宙原子总数——根本不现实。AlphaGo 用 MCTS 交互式地选择哪些树枝值得展开。核心数据结构是每个棋盘状态对应一个节点,存储访问次数和 Q 值(所有经过该节点的 rollout 的平均胜率)。 动作选择公式 PUCT 在利用与探索之间取得平衡:对数增长的加成项将算法推向访问次数少的节点,随着模拟次数增加、Q 值趋于可靠,加成项随之衰减。Jang 解释了为什么这种源自 UCB 的方法能限制遗憾,为什么围棋的确定性意味着 MCTS 中的概率不过是蒙特卡洛平均的产物而非真正的随机性,以及如何通过合并转置等价局面来剪枝。 > *"AlphaGo 核心的概念突破,在于用神经网络让这个搜索问题变得可处理。"* ## [31:53] 神经网络的作用 两个网络替代了 MCTS 内部两项昂贵的操作。价值网络将棋盘状态映射为一个胜率标量,省去了将对局推演到终局的需要。策略网络输出合法落子的概率分布,把搜索树引向有价值的子节点,远离大量无关节点。 Jang 在自己的复现中分别测试了 ResNet 和 Transformer。在个人 GPU 这种小数据量的场景下,ResNet 表现优于 Transformer——Transformer 需要全局注意力来连接棋盘上相距很远的特征,但同时也需要更多数据来学习局部不变性。KataGo 的关键架构洞察是:通过残差堆叠显式地汇聚全局特征,使 19x19 棋盘两侧的厮杀能相互影响,而不必依赖完整的注意力机制。 > *"在小数据量场景下,我的经验是 ResNet 仍然优于 Transformer,在预算有限时性价比更高。"* ## [01:00:22] 自博弈 自博弈是 AlphaGo 从一无所知到超人水平的引导过程。每局对弈结束后,MCTS 会产出一个比原始策略网络先验更尖锐的落子分布,这个尖锐的分布随即成为策略头的训练目标。策略网络不断向 MCTS 输出靠拢,意味着每一代对弈都从更好的先验出发,每一步搜索带来的提升也更大。 Jang 将其描述为带复利的测试时扩展:把 1000 次 MCTS 模拟蒸馏进策略网络,提升了下一轮训练的起点,再跑 1000 次模拟所能达到的胜率,相当于不蒸馏时需要 2000 次以上才能达到的水平。关键在于,每局每步都会产生一个监督目标,而不仅仅是最终胜负,这正是其学习信号方差远低于朴素策略梯度方法的原因。 > *"AlphaGo 自我训练方式的精妙之处在于,它能把最终的搜索过程——搜索结果——反馈给策略网络,告诉它:'MCTS 费力推演到这里,你为什么不直接从一开始就预测这个结果?'"* ## [01:25:27] 其他强化学习方案 Jang 做了一个严谨的思想实验:如果把 MCTS 目标替换成 LLM 所用的朴素策略梯度方法——找到胜者并强化该局所有落子——会怎样?在 100 个实力相当的智能体联赛里,某个智能体凭借一步关键棋以 51 比 49 微弱优势获胜,训练数据里却充斥着大量毫无信号的落子,那一步关键棋淹没在约 3 万步无关棋步里。 这个信用分配问题正是优势函数和基线存在的根本原因。减去价值基线后,原始回报信号变为优势值——每个动作实际比平均水平好多少——从而大幅降低梯度方差。Q-learning 和 TD 方法无需完整 rollout 就能近似这种优势,这正是它们在 MCTS 不可用的场景中不可或缺的原因。 > *"关键在于,它对每一个动作都用 MCTS 做了相当彻底的搜索,看能不能做得更好,然后通过让策略网络预测那个结果,让每一步都变得更好。"* ## [01:45:36] MCTS 为何不适用于大语言模型 PUCT 探索公式假设动作空间有界且离散,价值函数能跨局面泛化。围棋满足这两点,LLM 推理两点都不满足:词表规模极大,几乎不可能重复访问同一个部分序列;也没有可靠的局面级价值函数来判断一条半成品思维链是否走在正确方向上。 Jang 指出,LLM 确实存在某种表面上像树搜索的行为——回溯、重新考虑、加以保留——但这来自上下文内的行为,而非显式树结构。他留有余地:在数学等中间状态具有更严格逻辑结构的领域,前向搜索未来或许能以某种形式回归。根本瓶颈在于,在 token 级别缺乏可信且查询高效的价值函数。 > *"在 LLM 里,你几乎不可能多次采样到同一个子节点。如果有多步推理,语言空间太宽泛,离散动作集并不适合 LLM。"* ## [02:00:58] 离策略训练 Dwarkesh 提出了一个疑问:所有 AI 研究者都警告不要用离策略训练,但 AlphaGo Zero 用装满旧策略版本对局的大型回放缓冲区却运行良好。Jang 从 DAgger 的视角解答:重要的不是数据是否严格在策略上,而是缓冲区中的状态分布是否覆盖了当前策略实际会访问的状态及其合理邻域。 回放缓冲区在 AlphaGo 中之所以有效,是因为近期检查点的对局状态仍接近当前策略的分布。失效场景——用离当前策略太远的状态打标签,让智能体学会在永远不会到达的局面下采取最优动作——在分布偏移严重的机器人领域是真实风险。QT-Opt 等系统总结出的实践方案是:用离策略数据做奖励塑形,同时保持策略梯度在策略上运行。 > *"在这类算法里,你希望大部分是自己会访问的状态,同时在最优轨迹周围的高维管道里保留一小部分、合理比例的状态。"* ## [02:11:51] 强化学习的样本效率比你想的还低 Dwarkesh 提出了一个两维度低效论点。第一个维度人尽皆知:策略梯度 RL 需要完整轨迹 rollout 才能获得任何学习信号,随着智能体处理越来越长的任务,单位计算量对应的样本数急剧下降。第二个维度是每个样本的信息量。训练初期,一个词表大小 10 万的 LLM 靠随机采样发现"蓝色",大约需要 10 万次 rollout 才能看到一次成功;而监督交叉熵损失在每一步都精确告诉模型,它的分布离"蓝色"还差多远。 MCTS 同时规避了这两个问题。它在每一步都给出监督目标,而且那个目标严格优于当前策略——不是一个摊薄在数千个 token 上的二元胜负信号。Jang 的观察:只要策略网络的分布还没完全收敛到 MCTS 分布,MCTS 就永远不会给出零信号。 > *"你不会遇到 MCTS 给你零信号的情况,除非你的 MCTS 分布已经完全收敛到策略网络的预测。"* ## [02:22:05] 自动化 AI 研究员 Jang 将自己的 AlphaGo 项目大量交由自动化 LLM 编码循环推进,从一线视角讲述了 AI 研究自动化在哪些地方可行、在哪些地方仍然失效。在超参数优化上,现有模型能做到博士生水平的工作:诊断梯度流问题、改写数据加载器的数据增强、在固定预算内压出可测量的困惑度提升。在实验执行和绘图上,一段简单的技能描述就能生成完整的实验套件和分析。 模型无法可靠完成的是横向思考——察觉某条研究路线从结构上就走不通,在积累更多死胡同实验之前跳到另一个框架。Jang 反复遇到这个问题:模型会一头扎进死胡同,而不是退一步问问这条路本身是否正确。他的判断是,这是训练信号的问题——构建具有正确外循环的 RL 环境,比如围棋,或许正是最终教会模型跳出研究局部最优的办法。 > *"我发现,当前公众能访问的闭源模型,似乎并不擅长在某条研究路线上选择下一步实验。它们似乎无法退一步做横向思考:'等等,这条路根本就不对。'"* ## 实体 - **Eric Jang**(人物):1X Robotics AI 副总裁,前 Google Brain 及 DeepMind Robotics 高级研究科学家,利用休假重现了 AlphaGo。 - **Dwarkesh Patel**(人物):Dwarkesh Podcast 主播,在访谈中共同推导了 RL 在每样本比特数维度的低效论点。 - **AlphaGo / AlphaZero**(软件):DeepMind 开发的围棋系统,将 MCTS 与深度神经网络结合,是本集的技术核心。 - **KataGo**(软件):David Wu(Jane Street)开发的开源围棋引擎,相比 AlphaGo Zero 实现了 40 倍计算量压缩,是 Jang 复现时的主要参考实现。 - **蒙特卡洛树搜索(MCTS)**(概念):通过 UCB/PUCT 在利用与探索之间取得平衡的迭代搜索算法,是本集的核心分析框架。 - **信用分配问题**(概念):RL 中难以判断长轨迹中哪些动作导致正向结果的难题,催生了优势函数、基线和价值网络。 - **DAgger**(概念):数据集聚合算法,解释了为何只要缓冲区状态接近当前策略分布,AlphaGo 的回放缓冲区就是可行的。 - **Andrej Karpathy**(人物):被引用的"用吸管吸取监督信号"一说,描述策略梯度 RL 在长 token 轨迹上学习信号稀疏的问题。

#alphago#monte-carlo-tree-search#reinforcement-learning
AI 为何暂时取代不了数学家 —— 陶哲轩
4:12
EN/ZH
点开看双语
Dwarkesh Patel2 个月前

AI 为何暂时取代不了数学家 —— 陶哲轩

陶哲轩讨论了 AI 在数学中不断演变的角色,认为 AI 虽然会自动化许多常规任务,但并不会完全取代人类数学家,而是推动他们转向新的研究前沿。他强调未来将是人机协作的时代,同时 AI 对科学发现的长期影响仍充满不确定性。 ## [00:10] AI 在前沿数学中的当下角色 陶哲轩指出,AI 已经在做人类无法完成的"前沿数学",只不过是另一种意义上的前沿。他把这种能力类比为计算器在过去如何扩展了数学的边界——以专门化的方式处理超出人类能力范围的任务。 > *从某种意义上说,它们已经在做人类做不到的、超级智能级别的前沿数学,只不过这种前沿和我们熟悉的不一样。* ## [00:52] AI 是自动化工具,而非替代者 陶预言,未来十年内 AI 将承担大量当前由数学家完成的常规工作,让人类可以聚焦于更复杂、更重要的问题。他以历史类比:计算机曾自动化了过去由"人肉计算者"完成的工作,基因测序也走向自动化,但遗传学这类领域却继续以新的尺度演化发展。 > *十年内,数学家现在做的很多事情……都可以由 AI 完成。但我们会发现,那其实并不是我们工作中最重要的部分。* ## [02:46] 数学领域人机协作的未来 Dwarkesh Patel 问到 AI 是否能自主解决千禧年奖难题。陶哲轩认为,"人类 + AI"的混合模式还将长期主导数学领域,因为当前的 AI 缺乏完全取代智力工作的全部要素,它更多扮演的是互补工具的角色。 > *我确实相信,人类与 AI 的混合模式会在数学领域主导相当长的一段时间。* ## [03:43] AI 对科学发现的影响难以预测 陶承认,AI 虽然会加速科学和新发现的诞生,但也有可能因"扼杀偶然性"而阻碍某些类型的进步。他总结道,AI 对科学发现的长期影响是高度不可预测的。 > *也有可能,AI 以某种方式破坏了偶然性,反而抑制了某些类型的进步。* ## 实体 - **陶哲轩(Terence Tao)**(人物):嘉宾,当代顶尖数学家。 - **Dwarkesh Patel**(人物):该播客主持人。 - **AI**(概念):人工智能,本集讨论其在数学与科学发现中的角色。 - **Mathematica / Wolfram Alpha**(软件):作为数学自动化例子被提到的计算工具。 - **千禧年奖难题(Millennium Prize Problems)**(概念):数学界的七大未解难题,每题悬赏一百万美元。

#ai#mathematics#terence-tao
陶哲轩——世界顶级数学家如何使用 AI
1:23:44
EN/ZH
点开看双语
Dwarkesh Patel3 个月前

陶哲轩——世界顶级数学家如何使用 AI

陶哲轩与 Dwarkesh 以开普勒发现行星运动定律为切入点,探讨 AI 究竟在改变科学的哪些环节。陶哲轩认为,假设生成如今近乎零成本,瓶颈已转移到评估、同行评审和时间检验。当前 AI 胜在广度(对每个问题穷举所有标准技术),人类胜在深度(在局部进展上逐步累积),因此人机协同模式将在数学领域至少主导十年。 ## [00:00] 开普勒是一个高温 LLM 陶哲轩重述了开普勒发现行星运动三大定律的过程。开普勒最初的理论虽有美感却是错的——他设想柏拉图多面体嵌套在行星轨道之间——直到多年苦苦研磨第谷·布拉赫偷来的裸眼观测数据后,才终于放弃。椭圆轨道、等面积定律和三次方-二次方定律,都是十年数据分析的产物,牛顿的解释则要再等一个世纪。 Dwarkesh 的框架是:开普勒更像一个高温 LLM,对照可验证的数据集循环尝试随机关系。陶哲轩认可这一机制,但对瓶颈所在提出了不同看法:想法生成本就不是问题,开普勒从不缺乏理论,他真正需要的是第谷那比前人精确一个量级的数据,以及耐心地丢弃被数据否定的想法。 > *但正如你所说,这必须与等量的验证相匹配,否则就是垃圾。* ## [11:44] 如何在大量 AI 垃圾内容中发现新的统一概念? 陶哲轩:如果 AI 已将想法生成的成本压至近乎零,同行评审和时间检验就成了新的约束。学术期刊已被 AI 生成的投稿淹没。任何想法的地位取决于后续科学如何利用它——哥白尼在开普勒完善体系前,精度甚至不如托勒密——因此在当下很难做到自动化评估。 Dwarkesh 问:如何在数百万篇平庸论文中识别出贝尔实验室式的统一概念(香农的比特、Transformer)?陶哲轩的回答指向了可能仍是人类专属的那部分:科学家不只是产出理论,他们还要讲出能说服其他科学家投入数年去跟进的故事。达尔文的散文所做的工作,是牛顿的拉丁方程式做不到的。 > *AI 将想法生成的成本压低到近乎零,与互联网将通信成本压低到近乎零的方式非常相似。* ## [26:10] 演绎悬量 陶哲轩谈到现有数据中尚未充分挖掘的信号。几个世纪以来,天文学一直是那门从最少数据中提取最多信息的学科,这也是为什么量化对冲基金格外青睐天文学博士。他举了一个喜欢的例子:研究人员通过追踪错别字在引用链中的传播,来测量科学家实际阅读被引论文的频率。 他建议,用同样的科学社会学方法来分析 AI 进展本身——挖掘引用模式、会议提及及其他痕迹,来判断某项成果是否真正构成进步,而不是慢慢等待时间检验。 > *一个启示是,许多领域的演绎悬量可能远比人们意识到的要大。* ## [30:31] AI 发现报告中的选择偏差 AI 解决了约 1100 道 Erdős 问题中的大约 50 道,随后停滞。陶哲轩解释了选择效应:这 50 道题几乎没有文献基础,一种冷僻技巧加上一个已知结论就够了,而 AI 工具正擅长"穷举所有标准组合"。当一道题已有 80% 的工作被现有方法完成,AI 就能解决;一旦需要真正新颖的技巧,工具就会卡住,系统性扫描的逐题成功率只有 1% 到 2%。 陶哲轩的比喻:AI 工具是在山脉中黑暗里乱跳的机器人。它们能越过人类够不到的矮墙,但无法抓住一个支点、停在那里、再从局部进展往上拉。乐观的解读是:一旦 AI 达到某个水平,就能在百万道题上同时跑百万个副本,这是任何人类团体都做不到的;而这个结构性原因也意味着,科学需要真正能利用广度的新范式。 > *它们擅长广度,而人类,至少是人类专家,擅长深度。* ## [46:43] AI 让论文更丰富、更广泛,但并不更深刻 陶哲轩谈自己的工作方式:论文现在包含了更多代码、更多图表、更深的文献综述,因为辅助性工作的成本大约降低了 5 倍。真正的核心——攻克问题最难的部分——仍然靠纸笔完成。他不愿说自己"生产力提升了 2 倍",因为衡量标准本身不是线性的;改变的是他所写的论文类型,而不是他解答最初问题的速度。 聪明与智识的区别也指向同一个地方。两个人合作解一道数学题时,每一个失败的尝试都会成为下一次的立足点。而现有 AI 每次新开会话都会忘掉上次弄清楚的东西,缺少那个累积叠加的拉升步骤,只有蛮力试错,以及最终被吸收进下一轮训练。 > *它让论文更丰富、更广泛,但不一定更深刻。* ## [53:00] 如果 AI 解决了一个问题,人类能从中获得理解吗? AI 能用 Lean 证明黎曼猜想,却让我们一无所获吗?陶哲轩并不担心。Lean 的特性是任何证明都可以被原子化分解——每个引理都可以单独检查、消融测试和验证。因此,即便是一个 3000 行的生成证明也能成为原材料:其他 AI 可以重构以提升优雅性,人类可以从中提取概念内容,即便原始推导过程是不透明的,产物仍然有价值。 他预言会涌现出一整个职业:专门把 Lean 生成的庞大证明拆解开来、从中找出内在想法的数学家——一种证明考古学,人类判断力与 AI 消融工具并用。 > *你会从人类与这些工具协同互动中获得更多收益。* ## [59:20] 我们需要一种半形式化语言来描述科学家实际交流的方式 Dwarkesh 问,一种描述数学策略(而非数学证明)的半形式化语言会是什么样的。陶哲轩从高斯的质数定理谈起——数学中第一个重大统计猜想,在任何证明出现之前就从原始数据中推导出来——再到孪生素数猜想,数学家相信它成立,是因为素数的随机模型预测了这一点。数学兼具严格证明和严格启发式推理,但只有证明的一侧被形式化成了 Lean 能检验的东西。 启发式一侧迟迟未被形式化,原因在于:任何可用 RL 评分的评判器都会成为被攻击的目标,而"这个论证令人信服"的主观部分目前还不存在可供利用的可量化框架。陶哲轩希望有一种方法能大规模评测猜想生成和策略选择,或许可以通过在玩具数学宇宙中跑小型 AI,观察什么样的策略会自然涌现。 > *科学有某种主观性,我们还不知道如何把它捕捉成一种能让 AI 有效介入的形式。* ## [69:48] 陶哲轩如何分配时间 陶哲轩谈自己吸收新子领域的方式。用伯林的分类,他把自己定位成"狐狸"——对很多事情了解一点,必要时也会变成"刺猬"。驱动力是一种追求完整的执念:只要有另一位数学家用他不懂的技巧证明了某个结果,他就必须弄清楚对方的诀窍是什么。(出于同样的原因,他不得不戒掉了电子游戏。)与其他数学家合作是主要方式,而在博客上写下东西是他后来发展出来的记忆辅助手段——因为他反复在推导出某个结论的六个月后,又在辩论中丢失了它。 在日程安排上,陶哲轩刻意为偶然性留出空间。他不愿把时间排得太满,以至于再也不会偶然坐进一个超出自己舒适区的会议。在高等研究院度过的那一年印证了这个陷阱——两周的纯研究很美好,之后灵感就枯竭了。下一个书架上的意外发现、走廊里随口的闲聊、那个他勉强去参加的会议,实际上发挥的作用远比看起来大。 > *那些偶然的互动可能看起来并不最优,但它们其实非常重要。* ## [77:05] 人机混合将在数学领域主导更长时间 AI 什么时候能独立做数学?陶哲轩重新框定了这个问题——AI 其实已经在做人类做不到的数学了,计算器就是如此,只是在不同的前沿。他预计在大约十年内,研究生目前所做的大部分工作——运用标准技巧、梳理文献——会转移给 AI,但整个领域会像计算机代数系统吸收符号积分时那样整体上移一层。基因学在测序变得廉价后并没有终结,它只是扩展到了生态系统层面。数学也会如此。 他给当下入行的学生的建议是:假设变化会发生,但仍用传统方式取得资质——目前还没有什么能替代老老实实走一遍数学的传统路径。同时,保持足够的适应性,能够运用全新的研究模式,包括那些现在还不存在的模式。一个值得注意的事实是:借助 AI 工具和 Lean,一个高中生今天就能为真正的数学研究做出贡献,这在五年前是不可能的。 > *我确实相信,人机混合将在数学领域主导更长时间。* ## 实体 - **陶哲轩** (人物): 菲尔兹奖得主(2006年),UCLA 数学家,长期撰写关于 AI 在数学研究中的作用的文章。 - **Dwarkesh Patel** (人物): Dwarkesh Podcast 主持人,专注于 AI、科学与技术的长篇访谈。 - **Johannes Kepler** (人物): 天文学家(1571-1630),从第谷·布拉赫的观测数据中推导出行星运动三大定律。 - **Tycho Brahe** (人物): 丹麦裸眼天文学家,其数十年的行星观测数据正是开普勒所需要的数据集。 - **Lean** (软件): 数学证明助手,形式化的证明可在其中被检验、分解和消融测试。 - **Erdős 问题** (概念): Paul Erdős 提出的约 1100 道未解问题;AI 已解决大约 50 道,几乎都是先前文献极少的题目。 - **演绎悬量** (概念): 现有数据中已编码了远比已被提取的更多的可推导知识,天文学是这一概念的典型模型。 - **黎曼猜想** (概念): 关于素数分布的未解猜想;用来检验 AI 证明能否推进人类数学理解的测试案例。

#ai-for-math#terence-tao#kepler