LaiDub

播客听见世界的声音，看见思想的刻度

浏览频道

全部 AI 与科技商业科学文化政治哲学健康

下一个训练范式将走向何方？

Dwarkesh Patel 朗读了他关于 AI 训练走向的文章。各大实验室押注于：在数百万个可验证任务上大规模跑 RL，就能通往 AGI。但 Dwarkesh 认为这个赌注留下了两个缺口：大多数有价值的技能不够"可磨练"，无法在模拟器里批量刷出来；而模型在实际工作中学到的东西，始终无法写回权重。他梳理了样本效率与持续学习其实是同一个问题，提出两种候选方案——在线策略自蒸馏（OPSD）与"梦境训练"——并描绘了一种越用越聪明的 AI，其智能来源从预训练转向实际部署。 ## [00:00] 各大实验室押注的核心研究方向各大实验室的工作假设：在数千个 RL 环境、数百万个可验证任务上训练 AI，就能得到一个能在开放性工作上持续磨练数周的通用问题求解器。乐观派认为，已知的缺陷——数据低效、没有持续学习——会随算力增加而消失，就像经典 NLP 问题在 LLM 规模扩张后全面瓦解一样。 Dwarkesh 随后给出对自身怀疑论最有力的反驳：他在上一篇文章里提到的百万倍样本低效率，只是训练时的成本，摊薄到数十亿次会话上便不值一提。真正重要的是模型在单次会话内的能力，而这一能力持续在提升。如果上下文窗口大到足以装下数月的在职经验，持续学习或许根本不是问题。 > *人们常说，新员工要六个月甚至更久才能产生净正效益。所以，在线学习显然是胜任工作的必要条件。但如果六个月的经验都能塞进上下文窗口呢？* ## [02:12] 可磨练性与可验证性同等重要计算机操作（computer use）为何落后于编程和数学？明明三者同样可验证。Dwarkesh 给出一个被低估的答案：光有可验证性还不够，一个领域还得"可磨练"——也就是能从同一起始状态出发，在确定性、可重放的模拟器里并行跑出数千条轨迹。一个代码仓库可以轻松克隆到容器里；亚马逊的结账流程做不到。这是 AI 进步只能缓慢凿穿的峭壁。偶尔可以搭建可批量训练的模拟器（克隆 Slack、克隆 Gmail），但大多数高价值技能——建立一家企业、打赢一场官司、做出一个盈利的交易日——都需要与现实世界进行无法复现的交互，验证需要数月时间，也无法跨并行轨迹重复观察。 > *要让 AI 在政治上比肩林登·约翰逊，或者在商业航天上媲美埃隆·马斯克，RL 环境该怎么搭？* ## [06:10] 单靠 RLVR 能泛化吗？各大实验室押注 RLVR 能够泛化——足够多的容器化环境，能让一个 agent 在单次会话内学会规划、适应和获取新技能，足以在 1948 年参议院选举上给 LBJ 出谋划策，或凭一亿美元资金再造一个 SpaceX。泛化能否达到这种程度，是个实证问题。Dwarkesh 援引 Dario Amodei 的一段话，暗示泛化并非无限延伸：短周期训练未必能迁移到长周期表现上。即便单次会话的上下文经验能把一个模型临时变成亨利·福特，只要这些学习无法写回权重，一切都付诸东流。实验室 30%-50% 的算力花在推理上，却对模型改进毫无贡献——而部署恰恰是最有价值的信息被揭示的地方。 > *我们有一个天才研究生，却从不让它去实习，只是不断给它越来越多的课堂案例——那些 RL 环境里的训练，就是这些案例。* ## [08:41] 将学习写回权重持续学习的核心是更新权重，而不是无限膨胀 KV cache——大脑不把参数和激活值分开存放，而且会压缩所学的内容。但把学习写进权重，会丧失上下文学习的样本效率，因为梯度更新是粗粒度的。这正是所有已落地的在线学习模型（比如 Cursor 的 Tab 模型，每天在 4 亿次以上的接受/拒绝请求上学同一个目标函数）只能让所有用户学到同一件事的原因——而每份工作、每家公司都各有不同，这恰恰失去了意义。 Dwarkesh 把样本效率和持续学习归结为同一个问题，并指出瓶颈不在架构——稀疏注意力和 KV 压缩的新论文每周都在涌现——而在损失函数。他的候选方案是在线策略自蒸馏（OPSD）：训练基础模型，让它做出与一个拥有丰富上下文的"老手版"自身相同的预测。OPSD 不需要外部循环奖励，每个 token 都能提供比 RL 更密集的监督信号，同时保留 RL 稀疏更新的特性，确保在职学习不会覆盖模型已有的知识。 > *你进步的方式，不是把每天发生的每件事都以完美保真度回忆一遍，而是把真正让你变得更好的那几条洞见和知识点内化沉淀下来。* ## [15:22] 梦境训练第二种更具推测性的方案：让 AI 建立一个现实的仿真模型，在其中反复演习，每单位实时时间内可以经历数量级更多的样本。先例是 EfficientZero——它让模型在脑内模拟数十局游戏再走一步现实棋局，从而在陌生 Atari 游戏上击败了人类新手。模拟整个世界远比模拟围棋难得多，这也是 Dwarkesh 把此方案标记为推测性的原因。但如果它奏效，就成为继预训练、RL、推理时计算之后的第四条扩展轴线。到那时，你不是按 `/compact` 压缩会话，而是按 `/dream`，烧掉大量算力，让模型对照一个"电子游戏版"的现实世界进行演习。 > *于是你按的不是 Codex、Cursor 或 Claude 里的 /compact……而是 /dream。这会消耗大量算力，去构建并训练一个模型所目睹的现实世界的电子游戏版本。* ## [17:23] 2027 年的图景 Dwarkesh 描绘的场景：RLVR 培养出足以积累真实世界经验的 agent，上下文窗口扩展到容纳完整一周的协作，周末一个大拇指触发基础模型蒸馏本周所学——通过 OPSD、梦境训练或两者的混合。如此循环，模型不断扩展到上一轮训练或部署所邻近的新领域。终局翻转了 AI 能力的来源：能力主要来自在经济体中的广泛部署，而非发布前的预训练。每一次交互都让模型变得更聪明——从你过去的会话和所有人的会话中汲取学习——这让 Dwarkesh 感到既惊惧又兴奋，也与今天截然不同。 > *正如预训练造就了一种足够聪明、可以在足量 RLVR 加持下成为称职 agent 的基础智能，RLVR 也造就了一种足够称职、可以被广泛部署于现实世界的 agent。* ## 实体 - **Dwarkesh Patel**（人物）：播客主持人与专栏作者，亲自朗读他关于 AI 训练范式的博客文章。 - **Dario Amodei**（人物）：Anthropic CEO，被引用就模型在长上下文下性能退化的原因发表观点。 - **RLVR**（概念）：基于可验证奖励的强化学习——在可复现、可检验的任务上训练模型；各大实验室通往 AGI 的主要押注。 - **持续学习**（概念）：在实际部署过程中更新模型权重，而非仅靠发布前的训练积累能力。 - **可磨练性**（概念）：Dwarkesh 提出的术语，指一个领域能否在确定性、可重放的模拟器上并行运行大量轨迹来批量训练。 - **在线策略自蒸馏（OPSD）**（概念）：将一次富含上下文的会话所积累的学习，以密集的逐 token 监督信号蒸馏回基础模型权重。 - **梦境训练**（概念）：推测性的第四条扩展轴线——让模型构建并对照自身的现实仿真进行演习。 - **EfficientZero**（软件）：样本高效的 RL 模型，通过每一步现实行动前在脑内模拟多局游戏，在未见 Atari 游戏上击败人类新手。 - **Mercury**（组织）：金融科技银行平台，本集赞助商，在账单支付示例中被提及。

#ai-training#reinforcement-learning#rlvr

2:08:20

EN/ZH

点开看双语

Dwarkesh Patel大约 1 个月前

马基雅维利是史上被误解最深的思想家——Ada Palmer

历史学家兼小说家Ada Palmer与Dwarkesh Patel一起拆解"马基雅维利式奸雄"的神话，还原真实的尼科洛·马基雅维利：一位爱国者，曾近距离目睹切萨雷·波吉亚征服半个意大利，被美第奇家族拷打流放，然后写下*《君主论》*作为秘密求职信，寄给那个曾经伤害过他的政权。Palmer追溯了塑造马基雅维利分析的结构性力量——意大利城邦接连崩溃的合法性、像世袭诸侯一样打仗的教皇，以及让任人唯亲看起来像稳健风险管理的庇护制度。对话以一个辛辣的讽刺收尾："马基雅维利式"如今意味着自私算计，而这个人本身宁可放弃收入、名声和自由，也不愿为任何非佛罗伦萨的事业效力。 ## [00:00] 佛罗伦萨如何与切萨雷·波吉亚讨价还价求生存 1513年的意大利，合法性正在接连崩塌。Palmer解释说，当一个延续已久的政权倒台，继承者什么信誉都继承不到，这使得迅速的再次颠覆几乎不可避免——她称之为连续性纽带被切断。等到马基雅维利动笔写*《君主论》*时，这股浪潮已经席卷了数十个意大利城邦。雪上加霜的是教皇位置的不稳定：因为教皇是选举产生而非世袭，下一任教皇几乎总是由一批最厌恶现任的人推选出来的联合候选人，这保证了政策每十年就彻底逆转一次。马基雅维利当时的职责，是站在切萨雷·波吉亚——"瓦伦蒂诺"——身边，不停地耳语佛罗伦萨是忠诚的，换取Palmer所说的"波吕斐摩斯的恩赐"：征服者承诺最后再来吃你。他给佛罗伦萨的建议是出卖盟友、缴纳贡赋、提供军事支持、拖延时间，因为他清楚，只要教皇亚历山大六世还活着，佛罗伦萨被完全吞并不过是推迟而已。他的传记作者至今仍能感受到他对波吉亚的迷恋：在描述"瓦伦蒂诺"的衰落时，马基雅维利突然从第三人称滑向"他亲口告诉我"——历史学家从帘幕后面露出了真身。 > *"马基雅维利处理切萨雷·波吉亚事务的差事……很明显，波吉亚的计划是征服意大利中部的教皇国。"* ## [15:08] 马基雅维利的分析创新马基雅维利不是漫画里那个粗糙的"目的正当手段"论者。Palmer指出，他痴迷的恰恰是手段本身——具体来说，是哪些夺权手段能维持稳定，哪些不能。背叛盟友是否奏效，取决于你的权力基础性质：波吉亚可以背叛盟友，因为他的恐怖统治让剩余盟友更紧密地靠拢；而萨沃纳罗拉的权力依托于信众相信他具有神圣的无误性，所以他的反复横跳毁了自己。结论是有条件的，不是放之四海而皆准的。马基雅维利还给出了欧洲史上第一个有据可查的论断：多个政党可以稳定共存并对国家有益，而无需彼此消灭。佛罗伦萨自身的历史恰好是反面教材：这座城市曾真的在己方吉柏林派对手的房屋旧址上撒盐。他观察锡耶纳作为反向参照——各派竞争却不互相摧毁——这在当时是真正的新见解。 > *"马基雅维利是欧洲传统中第一个提出：一个国家可以同时存在不止一个政党，而且这是可行的。"* ## [23:58] 为何教皇变成了军阀离罗马越近，教廷就越不抽象。Palmer的对比很鲜明：一个丹麦臣民眼中的教皇是精神上的至高威严；一个佛罗伦萨人眼中的教皇是"跟你哥哥一起上过大学的那个混蛋"。意大利人把教皇当作具体的人来评判——有丑闻、有家族恩怨、有派系立场——这就是为什么世代效忠教皇的圭尔夫派城市，有时却和在位教皇打仗，只因为那位教皇碰巧出身吉柏林家族。腐败是结构性的、自我强化的。随着教会几代人积累了大量的捐赠财富，野心家族通过贿赂和裙带关系控制教会的动机也不断增强。Palmer朗读了马基雅维利为弟弟托托买一个神职而与人讨价还价行贿金额的私信——这些信件像普通家庭往来信函一样随意——以此说明这种做法已经彻底正常化。每一代都比上一代的教皇更世俗、更好战；马基雅维利明确预言，除非像两百年前圣方济各那样从内部改革，否则这个机构终将在积累的腐败下崩塌。 > *"这给每一个有野心的家族制造了越来越强的动机：把次子送进教会。"* ## [36:13] 为何平民百姓主动要求任人唯亲当教皇保罗三世任命一位能干的外来将领而非他自己的私生子时，民众发生了骚乱。Palmer解释，这并非非理性：在一个士兵效忠的是指挥官而非国家的世界里，确保教皇军队不会反过来攻打罗马的唯一保证，就是让教皇自己的儿子统兵——一个与教皇共荣辱的人。任人唯亲是让机构正常运转的信任机制。庇护关系同样决定司法结果。中世纪法典几乎对所有罪行都规定死刑，但大约每一百件可判死刑的案件中，有九十九件以罚款了结，因为被告的庇护人出面干预了。这被认为是正确的：审判本应复现灵魂在神圣审判前的体验——恐惧，然后得到宽恕——所以庇护人的介入就像圣徒的代祷。这套体系内部有着残酷而自洽的逻辑。Palmer用乔尔达诺·布鲁诺（被烧死，因为他得罪了自己的庇护人，而非因为他的思想）到乔瓦尼·皮科·德拉·米兰多拉（得救，因为洛伦佐·德·美第奇通过奥尔西尼家族的网络打通了罗马关系）的案例加以印证。没有庇护人，即便是清白也岌岌可危。 > *"常规是这样的：你被控严重罪行，为性命接受审判，你的庇护人出面介入，你得到较轻的判决。这就是司法本该运作的方式。"* ## [47:57] 切萨雷·波吉亚带给统治者恐惧，带给百姓公正波吉亚的征服产生了一个让当时的人们目瞪口呆的悖论：他屠杀统治家族，却受到平民的爱戴。Palmer的解释是结构性的。派系纷争的城市世代生活在跟随权力走而非跟随事实走的司法之下。一个为强势派系效力的木匠，其儿子酒后杀人受到的惩处微乎其微；同样的罪行若出自失势派系的木匠家庭，就可能是死罪。当波吉亚扫平两派、安插没有本地恩怨可以选边站队的外来管理者时，中立裁决对百姓来说简直像天启。马基雅维利也划定了一条清晰的界限，说明为何即便是仁慈的波吉亚征服佛罗伦萨也会是灾难：在任何专制统治下，一个公民可能因为街上一根指头的指向就被处决。马基雅维利把这种状态称为奴役，不管那位暴君在实践中多么公正。佛罗伦萨的"LIBERTAS"旗帜——由将自己排除在外的寡头元老院的普通市民挥舞——代表着对"存在某种程序"这件事本身的真实承诺，无论这程序多么有偏见，都胜过完全没有程序。 > *"结果，出乎所有人意料，他进入一座城市，屠杀统治者，建立威权政权，却深受百姓爱戴和拥护。"* ## [57:55] 艺术作为战争的替代手段文艺复兴时期的佛罗伦萨无力与法国正面军事交锋，却有能力在政府建筑上绘制法国王室徽章、为法国国王订制精美礼物。Palmer的阐释不是把这视为多余的开销，而是替代：艺术预算就是军事预算改换了形式，投入佛罗伦萨能打赢的那场战争。就像富布赖特计划比国防预算的每美元回报率更高，佛罗伦萨的文化庇护是战略威慑。这个时代对过去的朝向进一步放大了艺术的价值。现代性假定人类向未来前进，文艺复兴的欧洲则朝着相反方向——理想是重拾罗马。高技术成就意味着成功复原某种失传的罗马技艺。当一位法国外交官抵达佛罗伦萨，看到大教堂或新古典主义建筑，他看到的不是古朴的历史复制品，而是某种接近只有罗马才曾达到过的东西，而法国无法企及。这种认知本身就是一种权力。 > *"如果我们正面迎战，我们会输。但如果我们打文化胜利这张牌，代价更低，我们可以试着赢。"* ## [01:06:41] 佛罗伦萨，名扬地狱的城市 Dwarkesh提出一个显而易见的疑问：如果文艺复兴意大利的每个人都是真心相信地狱的基督徒，为何他们还不停地犯下马基雅维利描述的那些罪行？Palmer的回答分两部分。第一，但丁的答案：但丁把*《神曲》*地狱篇里塞满了佛罗伦萨人，正是因为他要让同代人感受到他们无视的后果所带来的不适。他写保罗和弗兰切斯卡的段落——把一段人人称颂的爱情故事打入地狱——是专门为了震撼那些以为浪漫通奸可以免于神学清算的读者。第二，前宗教改革时期的基督教默认人人都在不断犯罪，侧重的是忏悔循环而非保持纯洁。杀手的守护圣人、圣尤利安，在佛罗伦萨的圣像画中无处不在——他的传说是：他杀死了自己的双亲，用一生朝圣忏悔，最终得救。数十幅他的圣像意味着数十个曾经杀过人、正在艰难赎罪的佛罗伦萨人。加尔文主义和清教主义对圣洁无污的强调是后来的事，与中世纪和文艺复兴早期教会的运作方式确实不同。 > *"他把地狱塞满了佛罗伦萨人。"* ## [01:15:57] 《君主论》是马基雅维利写给折磨过他的人的求职信 1513年美第奇家族收复佛罗伦萨后，以阴谋嫌疑错误地拷打并流放了马基雅维利，所有人都以为他会叛逃。他在欧洲各大宫廷都有门路，也具备国王愿意买单的技能——军事史、外交网络、古典学识。他却选择待在佛罗伦萨郊外的一个小村庄，写下*《君主论》*，作为向美第奇请求收回自己的秘密呼吁。没有别的宫廷收到这本书；他把它当作专有财产，Palmer说就像核科学家对待机密武器知识那样。他的其他作品——*《论李维》*、佛罗伦萨史、喜剧*《曼德拉草》*——公开流传，是为了建立声誉。*《君主论》*没有公开。Palmer把它比作历史学家朋友为国防部委员会写的一百页机密报告：为五个人量身定制的专有知识，存在可以低声传说，内容却严密守护。这也解释了为何这本书最终在1532年未经马基雅维利参与就出版了：在世亲属想要家族名声，美第奇家族想要为一部题献给他们家族的文本邀功。两者都不理解作者本想让它保持封存的意图。 > *"我要留下来，我要腐烂，我要写《君主论》，这是我的求职信，恳求新政权接纳我、让我为他们效力，证明我的忠诚，我要把它送给他们，只送给他们，还有我身边最亲密的朋友。"* ## [01:41:39] 文艺复兴时期，原创思想必须托古言说文艺复兴对重拾古罗马的痴迷产生了一种奇特的激励结构：原创思想不受待见；以"重新发现的古代智慧"面目出现的思想才有声望。Palmer指出，这远不只是致敬那么简单。乔尔达诺·布鲁诺把亚里士多德明确反对过的主张归在亚里士多德名下。维泰博的安尼乌斯伪造古代文献、策划假考古发掘，为他的原创历史理论披上古代权威的外衣。马尔西利奥·菲奇诺在翻译柏拉图时，真心说服了自己：他拼凑出的那套极为原创的宇宙论和魔法体系，是秘密编码在柏拉图文本里的。这就解释了为什么马基雅维利的另一部重要著作叫*《论李维》*，而不是叫《共和政体新论》之类的名字。评注一位古人是有声望的文体；原创政治论著不过是小众猎奇品。19世纪误读文艺复兴，以为其思想贫乏——"两百年的人在错误地理解柏拉图"——因为它期待的是独立原创论著，结果找到的是一篇又一篇评注。Palmer认为，原创思想就在那里，只是借古人作为攀附生长的格架，就像玫瑰攀上藤架。 > *"没有人想要原创思想。原创思想过时了。原创思想死了。所有思想都必须来自古人。"* ## [01:50:44] 版权为何起源于宗教裁判所马基雅维利是最早遭遇未经授权印刷的作者之一。一家本地印刷坊未经询问就印了他的一部作品，错误百出，而他唯一的追索手段是给重要人物写信澄清那些错误不是他造成的。当时根本没有任何法律框架。解决方案从一个意想不到的方向出现：1515年后，宗教裁判所要求所有文本在出版前获得审批以筛查异端。作为走完这一程序的交换，获批的印刷坊拿到了垄断许可——宗教裁判所的批准记录就是无人可以合法印刷同一本书的证明。第一个版权，是一张审查许可证。英格兰观察到这一机制后加以复制，最终剥除（或软化）了其中的审查部分，产生了现代版权法的祖先。这套机构逻辑始终成立：宗教裁判所需要取悦地方统治者来获取资源，所以批准题献给公爵的书并给他宠信的印刷坊独家权利，是一笔政治投资。宗教法官、印刷坊、作者和统治家族，人人都有理由让这套体系运转下去。 > *"所以版权的最初形态，就是宗教裁判所。"* ## [02:02:12] 马基雅维利其实并不“马基雅维利” "马基雅维利式"这个词演变成了谋私的精于算计——莎士比亚的理查三世以"杀人犯马基雅维利"为榜样。Palmer追溯了马基雅维利这个观念如何与真实的人分离，变成一个方便的思想实验形象：那位愤世嫉俗、大概是无神论者、只追求个人权力的政客。同样的分裂也发生在霍布斯（"马姆斯伯里的野兽"）和斯宾诺莎身上——后者的实际著作温厚而有神论色彩，但他被犹太社区驱逐出教，让人们想当然地认为他必定是最激进的异端。真实的马基雅维利——拒绝了欧洲各地利润丰厚的宫廷职位，为防止佛罗伦萨被外国势力利用而将最重要的著作秘而不宣，宁可在偏僻小村腐烂也不愿为任何非本国的事业效力——几乎是"马基雅维利式"的反面。他的书写的不是如何夺权，而是如何让权力稳定到足以保护人民。Palmer最后点出："旧尼科"与尼科洛·马基雅维利之间的落差，本身就揭示了社会如何使用思想——把一位思想家一劈为二，一半用于某种目的，另一半则是真实的著作。带着"他愿意放弃一切来服务佛罗伦萨"这个认知去读*《君主论》*，你会读到一部截然不同的文本。 > *"这就是为什么在我看来如此讽刺——'马基雅维利式'这个词意味着'自私自利'，而马基雅维利本人却是我读过的地球历史上最无私的人之一。"* ## 实体 - **Dwarkesh Patel** (人物): Dwarkesh Podcast 主持人，专访历史、科学与技术领域的学者。 - **Ada Palmer** (人物): 芝加哥大学历史学家及科幻小说家，专攻文艺复兴思想史和审查史。 - **尼科洛·马基雅维利** (人物): 佛罗伦萨外交官（1469-1527），*《君主论》*与*《论李维》*的作者；将*《君主论》*写成秘密申诉，寄给曾拷打并流放他的美第奇政权。 - **切萨雷·波吉亚** (人物): 文艺复兴时期军事统帅，人称"瓦伦蒂诺"；教皇亚历山大六世之子，征服意大利中部，是马基雅维利研究有效（尽管残酷）治国术的主要案例。 - **《君主论》** (概念): 马基雅维利约于1513年撰写的政治权力论著，生前作为专有财产秘而不宣，1532年身后出版；常被误读为自我晋升手册，而非稳定政府以保护人民的指南。 - **《论李维》** (概念): 马基雅维利篇幅更长的共和政治理论，以评注罗马史学家李维的形式写成；在一个重视评注古人胜过原创的文化中，是他公开建立学术声望的著作。 - **美第奇家族** (组织): 佛罗伦萨的统治家族，其庇护网络和教廷关系既塑造了马基雅维利所分析的政治动荡，也决定了他写作与被流放的处境。 - **佛罗伦萨** (组织): 意大利城邦，文艺复兴时期银行业、艺术和人文主义学术的中心；马基雅维利的祖国，他将整个仕途都附属于它。 - **庇护制度** (概念): 历经数代积累的家族义务网络，是文艺复兴社会运转的实际粘合剂，决定着一个人能否获得司法、就业、出版保护以及免受宗教裁判所迫害。

#machiavelli#renaissance#political-philosophy

1:02:07

EN/ZH

点开看双语

Dwarkesh Patel大约 2 个月前

Sarah Paine — 普京与习近平为何逃不出地理的宿命

海军战争学院历史学家 Sarah Paine（莎拉·佩恩）用一场独立讲座，梳理了两千年地缘政治逻辑：大陆型强权（中国、俄罗斯）以扩张边界、压制邻国来谋求安全，海洋型强权（雅典、英国、美国）则靠穿越开放海域的贸易积累繁荣。她认为，这一结构性分野根植于地理的硬约束，正是它解释了普京对乌克兰的战争、习近平对台湾的野心，以及为何二战后建立的规则型秩序是唯一能带来复利式增长而非复利式毁灭的安排。 ## [00:00] 历史背景佩恩以一个核心问题开场：为什么有些大国不断抢占领土，另一些却不断开辟贸易航线？答案归结为一个物理事实——在海上保卫自己是否可行。海洋型强权能做到，大陆型强权做不到。这一条不对称，催生出两套截然不同的军事传统、两种经济模式，以及两种相互竞争的世界秩序愿景。她以美国历史作为热身：美国最初是大陆型强权（昭昭天命、墨西哥战争、趁俄罗斯缺钱买下阿拉斯加），之后在 Alfred Thayer Mahan 说服战略家"海上贸易才是国家实力的真正来源"之后，转向了海洋型身份认同。佩恩随后介绍了为这场讲座奠定地图框架的三位地缘战略学家：Halford Mackinder（欧亚大陆腹地是天然要塞，海权无法触及）、Nicholas Spykman（控制边缘地带，就能影响腹地），以及他们共同指向的结论——美国的安全依托的是海上航线与联盟体系，而非边界线。 > *"海洋型强权是例外，大陆型强权才是常态。为什么？因为海洋型强权在必要时可以主要靠海军在海上自卫，而大陆型强权根本做不到——想想乌克兰，海军救不了他们对抗俄罗斯。"* ## [12:10] 大陆型强权佩恩从中国——原型案例——讲起，再到俄罗斯，逐一梳理大陆型世界的内在逻辑。孙子的《兵法》里找不到任何海战的内容：它写于一个邻国随时可能从陆路入侵的世界，唯一可行的应对是庞大的陆军。地理说明了其余的一切：中国太多土地是垂直地形，无法养活人口，这使得控制可耕种的低地成为生死攸关的命题。汉族从黄河流域向外扩张的逻辑延续了数千年，剿灭准噶尔、收服西藏、留下北京至今仍以军政叠加管理的族群拼图。俄罗斯的模式是同一动力的镜像反转——以莫斯科为核心，向外一圈圈扩张，直到遭遇打得回去的国家。由此形成的大陆安全剧本冷酷而自洽：不打两线战争、不留大国邻居、逐个解决威胁、压制崛起者、吞并衰落者、在中间维持缓冲带。佩恩用二战伤亡数字为这套范式的代价作了注脚：俄罗斯死亡超过2500万人（军民合计），美国死亡29.5万人。大洋天堑不是抽象概念，它是数十万与数千万之间的差距。 > *"在这个世界里，你面对的是二选一：要么汉化，要么被杀。在大陆战争中，失败者的命运就是种族灭绝。"* ## [29:12] 海洋型强权的另一条路大陆型帝国把世界切割成各自排他的势力范围，海洋型强权则把大海视为可以共享的公共空间。佩恩梳理了从雅典到罗马（"地中海"意为"众陆之间的海"，"中国"意为"众国之中的王国"——一个以海为中心，另一个以陆为中心）、荷兰共和国，再到英国的传承脉络。Hugo Grotius 是荷兰人，眼见本国贸易遭到劫掠，写下《海洋自由论》，确立了大海不属于任何人、因此属于所有人的原则——这是国际海事法的奠基文献。英国在拿破仑战争中将这套运营策略提炼成"猎象六法"：保持本国经济增长、封锁敌国贸易、资助在主战场正面迎敌的大陆盟友、寻找海上通道优于陆路通道的次要战场、绝不正面攻击敌方主力，直到大象被放够了血，再联合盟友一拥而上。其中最关键的结构性要点在于：能挡住入侵的海军以无形方式创造财富。滑铁卢之后英国复利积累了一个世纪的财富，大陆邻国却不停地烧钱养常备军、相互征战。这种无形的复利，跨越几代人之后，就是朝鲜半岛南北两侧今天的差距。 > *"贸易为海军提供资金，海军保护英国本土和部分贸易。而英国就这样在复利积累财富，它的邻国却忙着互相开战、不断损耗财富。"* ## [42:00] 工业革命如何改变了一切工业革命把权力的来源从土地翻转为商业。当土地决定财富时，征服是合理的。一旦财富来自工业与贸易，领土扩张就变成了实实在在的负和游戏——你在争夺资产的同时也在摧毁它。苏伊士运河是佩恩最锋利的例证：埃及1967年沉船封锁运河以阻断以色列，但战略结果是全球航运转向绕过非洲的超级油轮，每吨运费降至三分之一。封锁一条咽喉要道，反而加速了海洋世界的效率。 Malcolm McLean 发明标准化集装箱，把货物装卸成本从接近每吨6美元压到不足20美分，ISO 随后统一了集装箱在卡车、铁路和船只之间的尺寸规格，运输成本大幅下降，由此引爆的贸易扩张让数亿人摆脱了贫困。习近平的"一带一路"倡议，佩恩淡淡地点出，穿越的是全球最不稳定的地带，需要在不兼容的轨距之间反复转运，且根本无法改道——这与海洋灵活性恰恰相反。中国自身的地理困局无可逃脱：近海水浅、岛链密布，战时就是杀伤区，意味着中国的商船队只有在和平时期才能抵达全球市场。 > *"一旦财富取决于商业、工业和贸易，土地就不再是财富的源泉。这颠覆了整个世界。看看今天，谁富谁穷，往往就看一个国家的工业化程度。"* ## [52:00] 普京为何要打碎这个世界二战后的国际制度框架——联合国、国际货币基金组织、北约、世界贸易组织、欧盟——由亲历一战战壕和大萧条、又在二战中眼看自己子女赴死的那一代人建立起来。他们的结论是：让外交官和律师来解决分歧，因为派兵打仗的代价，远超任何可以想象的战利品。这套体系在工业化世界维持了75年和平，直到普京决定打碎它。按大陆型逻辑，普京的挑战并非毫无理性：一个融入北约的强大稳定的乌克兰，在旧的范式下恰恰构成生存威胁。他的目标是掏空联盟体系、击碎国际法，让世界退回到交战的势力范围格局——一个大陆型强权可以再次按自己的规则行事、不受海洋型规则约束的世界。佩恩的回答是：制裁是"经济化疗"，每年压制一两个百分点的增长，复利计算几代人之后，这个差距就是朝鲜半岛南北今天的鸿沟。目标从来不是消灭流氓国家，而是以可承受的代价遏制它。唯一能避免核升级的出路，正是那一代人建立的：外交官、律师和国际机构。 > *"唯一的双赢解法，是让外交官和律师在国际论坛上把这些事谈清楚——因为如果我们都派士兵上场，就会迎来第三次世界大战外加核武跟进，到时候人类能不能撑下去还是个问题。"* ## 实体 - **Sarah Paine**（人物）：美国海军战争学院军事历史学家，本讲座唯一发言人，著有2025年大陆型与海洋型强权系列讲座。 - **Alfred Thayer Mahan**（人物）：19世纪美国海军战略家，主张海上贸易与海权而非领土征服才是国家强盛之本，与海军战争学院渊源深厚。 - **Halford Mackinder**（人物）：英国地理学家，1904年"枢纽地区"论断提出欧亚大陆腹地与海权隔绝，是天然的世界要塞。 - **Nicholas Spykman**（人物）：荷裔美国战略家，主张控制欧亚大陆边缘地带即可左右全球格局，1943年辞世前曾警告美国防范欧亚霸权。 - **Hugo Grotius**（人物）：荷兰法学家，国际海事法奠基人，《海洋自由论》（1609年）确立了海洋自由作为普世权利的原则。 - **Malcolm McLean**（人物）：美国卡车运输创业者，发明标准化集装箱，大幅压低货运成本，推动了战后贸易爆炸式增长。 - **大陆型强权**（概念）：无法主要依靠海军在海上自卫的国家，优先追求领土扩张、维持大型陆军、设立缓冲区、构建排他性势力范围，以俄罗斯和中国为典型。 - **海洋型强权**（概念）：能够主要依靠海军在海上自卫的国家，优先推动贸易、维护开放海洋公共空间、构建联盟体系、积累复利财富，以英国和美国为典型。 - **规则型国际秩序**（概念）：二战后建立的国际制度体系（联合国、国际货币基金组织、北约、世界贸易组织、欧盟），以主权与自由贸易为核心，普京与习近平正寻求将其瓦解。 - **美国海军战争学院**（组织）：美国海军研究生院，位于罗得岛州纽波特市，佩恩在此执教24年，是马汉海权理论的发源地。

#geopolitics#grand-strategy#maritime-power

AI 越强大，它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell

1:16:08

EN/ZH

点开看双语

Dwarkesh Patel大约 2 个月前

AI 越强大，它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell

经济学家 Alex Imas（Google DeepMind / 芝加哥大学）与 Phil Trammell（Epoch / 斯坦福大学）提出了一个反直觉的论断：全面自动化最出乎意料的结果，不是资本吞噬一切，而是 AI 可能实际上压缩自身的经济份额——全自动化商品的需求趋于饱和，而人类在关系型市场和体验型市场中依然稀缺。对话从 AGI 之后什么仍会稀缺出发，经过再分配的政治经济学，到为何 O-ring 互补性拖慢了当前自动化进程，为何具有积累偏好的 AI 智能体可能拥有大部分未来财富，以及发展中国家在被排除于 AI 供应链之外时该如何应对。 ## [00:00] 资本份额会增加吗？ Dwarkesh 抛出核心难题：如果 AI 能做一切人类能做的事，劳动收入份额会去哪里？Alex Imas 首先指出，曾试图预测过去工业转型的经济学家往往大错特错——大卫·李嘉图预言机械化会造成大规模失业，他对哪些工作会消失的判断方向正确，但对总体结果的预测完全偏差：2026 年黄金年龄段的就业率高于 2000 年以来几乎任何时点。教训在于，结构性变革经济学家总是低估旧成本崩塌后涌现的新商品种类和新工作岗位。 Imas 提出他所称的"关系型部门"——那些人类的在场本身就是价值一部分的商品和服务。由于人类天然有限，其他一切都被自动化饱和之后，人类参与环节的相对稀缺性和价格反而被推高。Phil Trammell 用一个供应链核算论点进一步阐明：将任何商品的网络调整后的要素份额一路追溯到原材料，你会发现劳动份额已经出人意料地具有韧性。悖论在于：若 AI 以近零边际成本饱和所有非关系型商品，消费者很快就会对这些商品的需求告罄，然后把支出转向仍然稀缺的事物。芭蕾表演不会因为软件免费就变便宜。 > *"正因为人类天然稀缺，如果自动化让很多其他事物不再稀缺，我们在人类参与和介入的领域里仍然会有稀缺性。"* > — Alex Imas Trammell 把这一逻辑延伸到资本份额本身：对每一种非人类商品的供应链实现完全自动化，需求迅速饱和，这些商品的边际效用趋近于零。结果是资本的价值份额可能实际上收缩而非扩张——这正是本集最反直觉的核心论点。 ## [19:36] 混乱中间地带情景 Dwarkesh 提出 Molly Kinder 的"混乱中间地带"论断：AI 不会带来灾难，但会造成长期的分配性挤压——企业收割生产率红利，工人面临工资停滞，政府再分配跟不上位移的速度。历史类比是电话接线员：这个职业在 1960 年代就有了可以完全自动化的技术，但实际花了二十年才自动化，原因是制度惯性。工人没有一夜之间被解雇；他们被逐渐重新吸收——大多以更低的工资和不充分就业的形式。 Imas 认为混乱中间地带在近期是合理的，但可能不是永久的，因为 AI 带来的生产率红利规模足以让饼大到可以分配。政治经济学的问题不在于资源匮乏，而在于速度和协调：政府不知道哪些工人是因 AI 而非其他原因被替代，政治约束制造摩擦，位移与再分配之间的时间差足以造成严重伤害，即便数学上最终能说得通。 > *"电话接线员被完全自动化了，但即便技术早已存在，也花了 20 年——所以是细水长流，而不是一个巨大的行业突然消失。"* > — Alex Imas ## [25:57] 如何对 AI 财富征税并进行再分配 Imas 沿两条轴线梳理再分配工具箱：实施复杂度与见效时间。负所得税当天颁布当天生效，提供即时的兜底保障。全民基本资本——给每位公民分配 AI 企业股份——需要多年才能产生回报。UBI 介于两者之间。取舍不只是速度；还有政治持久性。让公民依赖政府直接发钱的项目，取决于下届选举的胜者，而广泛分散的股权所有权更难被剥夺，因为资产已经分散在众多人手中。 Trammell 把收入问题与分配问题分开：如何筹钱（财富税、资本利得税、土地价值税、企业税）与如何发出去（现金、股份、公共服务）在分析上是两件事。他指出，乔治主义土地价值税常被讨论，但在 AI 财富集中于软件和算力而非土地的时代，这一税源不足以支撑大规模再分配。Phil 建议，通过税收收入购买 AI 企业股权并广泛分配，既有望保持政治稳定，也可能兼具经济效率。 > *"我们现在生来就有劳动力，可以转化为收入——一旦情况不再如此，我们就完全处于当选官员对基本需求的支配之下。"* > — Alex Imas ## [30:02] 需求崩溃为何不太可能发生 Dwarkesh 追问白领末日叙事：有没有数据显示 AI 驱动的大规模失业已经出现？Imas 指向 Yale Budget Lab 的数据，最多只发现微弱信号——初级软件工程师的招聘略低于趋势线，而高级工程师需求持平甚至上升。白领各行业均未出现失业率水平跃升。一个解释是 O-ring 互补性（下一章细讲），另一个解释是行为层面：企业正在进行表演性的 AI 采纳——裁员或最大化 token 用量来展示现代感，有时以真实的生产率为代价。更广泛的需求问题是：软件是否遵循与实物商品相同的弹性规律。食物吃够就停；你会对更多软件停止渴望吗？Imas 与 Dwarkesh 认为，软件的需求弹性可能足够大，足以跟上价格下降——计算机的历史表明，更便宜的算力一贯创造出更多需求，而不是让需求崩塌。主要风险在于特定商品的饱和速度太快，而非劳动总需求的问题。 > *"关于初级开发者找工作比以前少，可能有一点点信号——但那是'比以前少'，而不是水平跃升；如果说有什么的话，高级软件工程师的需求实际上在增加。"* > — Alex Imas ## [39:26] 人类员工很难融入机器经济 O-ring 模型——得名于挑战者号航天飞机事故，一个失效部件摧毁了整个输出——既解释了当前 AI 自动化为何比预期慢，也解释了未来自动化可能从结构上排除人类的原因。现在，你可以自动化法律或会计工作流程的 90%，但客户仍然希望有人类来签字，因为一个失效节点就能使整个输出失效。这一可靠性约束让人类在 AI 能力已经很高的情况下仍然在岗。 Phil Trammell 把这一逻辑向前翻转：当 AI 足够强大，以至于生产流程完全围绕机器劳动组织——智能体以机器速度、用机器原生的表征彼此协作——把人类插入这个环节的交易成本本身就成了瓶颈。即便人类在某个细分任务上有比较优势，协调开销与可靠性错位也会让绕开人类反而更划算。O-ring 在两个方向都成立。 > *"甚至不谈人类会更贵或更笨之类的论点——在那之外，还会出现完全围绕 AI 劳动组织的生产流程，它们用神经网络表征交流，思考速度比人类快数千倍。"* > — Dwarkesh Patel ## [43:08] 如果某些人类（或 AI）把积累财富视为内在目的，会怎样？最长的一章涵盖最具推测性的领域。Dwarkesh 指出，进化筛选出了具有特定偏好的人类——资源积累、地位、繁殖——这些偏好如今塑造了一个百万亿美元规模的世界经济。AI 智能体将受到类似选择压力的塑造：那些被训练或部署时倾向于积累的 AI，将胜过并存活过其他 AI。这不需要灾难性的价值错位；这是差异化繁殖的正常逻辑，只是作用于一个新的载体。 Phil Trammell 推导稳态数学：若哪怕只有一小部分人口——无论人类还是 AI——对当期消费与未来消费之间的替代弹性很高（即他们持续想要更多资本而非在消费上饱足），那么长期来看，这些主体将拥有大部分财富并决定经济生产什么。资本份额趋近于 1.0，不是因为 AI 集体贪婪，而是因为偏好异质性加上复利效应，把资产送到最有耐心的积累者手中。 > *"长期来看，他们将拥有大部分财富——而整体资本份额基本上就是那个人支出的资本份额，也就是趋近于 1。"* > — Phil Trammell 对话随后转向贴现率与利率。若 AI 驱动的增长极为迅速，近期消费相对于未来消费会变得便宜，理论上应该降低储蓄激励并压缩利率。但双曲贴现者和积累导向的主体可能不会以标准方式响应价格信号，两位嘉宾均承认，他们已处于经济模型能清晰解析的边界之外。 ## [61:28] 发展中国家该怎么办？ Imas 开门见山指出，中等收入和发展中国家在主流 AI 经济学讨论中几乎完全缺席——他把这一空白部分归咎于他自己和整个领域。两种情景框定了问题的边界。乐观情景下，开放权重模型迅速扩散，以近零成本为尼日利亚或印度提供能力跃升，就像移动银行绕过传统银行基础设施的缺失实现弯道超车一样。悲观情景下，AI 在富裕国家自动化了大宗商品生产，消除了东亚经济体曾借以工业化的制造业出口阶梯。关键变量是收益集中的程度。Alex 援引电力类比：电力由自然垄断企业生产，但下游收益广泛扩散给用户，而不是集中在公用事业企业手中。如果 AI 遵循同一模式——接入商品化、下游竞争——发展中国家可能是净受益者。如果它遵循社交媒体模式——少数平台攫取大部分价值——集中效应将加剧不平等。Phil 认为，发展中国家政府应考虑设立主权财富基金，尽早买入 AI 供应链，作为对冲大宗商品出口崩溃情景的保险。 > *"有些情景是 AI 技术扩散到尼日利亚和发展中国家，拉平竞争场地，实质上给它们能力上的大幅跃升。也有些情景是它们没有训练模型，没有硬件，就这样彻底被抛在后面。"* > — Alex Imas ## 实体 - **Alex Imas**（人物）：Google DeepMind AGI 经济学负责人，芝加哥大学经济学教授；研究行为经济学与 AI 的宏观经济影响。 - **Phil Trammell**（人物）：Epoch 经济学负责人，斯坦福大学访问学者；研究变革性 AI 经济学，并在全球优先级研究所从事耐心慈善研究。 - **Dwarkesh Patel**（人物）：Dwarkesh Podcast 主持人；围绕科学、技术、经济学与政策的长篇访谈节目。 - **关系型部门**（概念）：人类的在场本身构成价值主张的商品和服务——心理咨询、手工艺品、现场演出——预计随 AI 饱和可替代输出而获得更大经济份额。 - **O-ring 理论**（概念）：生产模型，其中一个不可靠的环节会使整个输出失效；既解释了当前 AI 自动化的现有局限，也解释了未来机器组织的生产流程可能从结构上排除人类劳动的原因。 - **资本份额**（概念）：国民收入中流向资本所有者而非劳动者的比例；本集的核心讨论量，核心论点是全面自动化可能压缩而非扩大这一份额。 - **全民基本资本**（概念）：再分配政策，向公民分配生产性资产（含 AI 企业）的股权而非现金；被认为比 UBI 具有更强的政治持久性。 - **Epoch**（机构）：专注于 AI 时间线与宏观经济预测的研究机构；Phil Trammell 在此担任经济学负责人。 - **Yale Budget Lab**（机构）：发布 AI 劳动市场影响实证数据的研究中心；被引用以说明截至 2026 年中期白领失业率尚未出现水平跃升。 - **土地价值税 / 乔治主义税**（概念）：对未改良土地价值征税；被认为在 AI 时代再分配所需规模下税源不足，因为 AI 财富集中于软件和算力而非土地。

#agi-economics#labor-share#automation

从零开始讲芯片设计 — Reiner Pope

MatX CEO、前 Google Brain TPU 架构师 Reiner Pope 在黑板前给 Dwarkesh Patel 上了一堂芯片设计课：从与门和非门讲起，一路搭建乘法累加器、寄存器堆、脉动阵列，再到时钟同步、FPGA 与 ASIC 的取舍，最后落到 GPU 和 TPU 在结构上的本质差异。贯穿全程的工程命题只有一个：计算单元再多也是浪费，核心问题是如何让芯片把时间花在计算而不是搬数据上。 ## [00:00] 从逻辑门构建乘法累加器 Reiner 从最底层讲起：芯片里的基本元件是与门、或门、非门，通过金属走线物理连接。AI 芯片最核心的运算是矩阵乘法，而矩阵乘法的基本原语是乘法累加（MAC）——把两个数相乘，再把结果加进累加器。Reiner 演示如何用几个异或门和与门拼出一个全加器，再级联成乘法器，最终得到浮点 MAC。精度层级在这里很关键：低精度乘法的结果需要用更高精度的累加器汇总，这也是 AI 芯片跑 8 位乘法但用 32 位累加的原因。 > *"AI 芯片想算的核心运算是矩阵乘法，而矩阵乘法的基本原语是一对数字的乘法累加。"* ## [16:20] 多路选择器与数据搬运代价 Tensor Core 出现之前，GPU 和 CPU 的结构是一样的：一个寄存器堆存几十个值，送进 ALU 运算，结果写回寄存器堆。Reiner 说明多路选择器（mux）是寻址任意寄存器的硬件工具，而这种通用性是要付代价的——面积和能耗。一个深度为 8 的寄存器堆，每次读操作需要一棵深度为 3 的 mux 树；写操作同样需要相同规模的解码器。AI 工作负载的瓶颈不是乘法本身，而是数据在寄存器堆和 ALU 之间来回的代价。 > *"我们要分析的是从寄存器堆到 ALU 再写回的数据搬运代价。"* ## [25:59] 脉动阵列的工作原理 TPU 背后的核心洞察：与其每次做完一个 MAC 就写回寄存器，不如把整个矩阵向量乘的循环直接烧进硬件。脉动阵列是一个 MAC 单元的网格，每个单元把部分和向右传，把输入操作数向下传，数据在单元间流动，全程不碰寄存器堆。Reiner 解释了两个收益：每次取数据时可以做更多计算；内积计算期间操作数可以一直驻留在阵列里，不用反复装载。代价是灵活性——只有循环形状和硬件设计完全匹配时才高效。 > *"脉动阵列的思路是往上提两层循环，把这整个循环直接烧进硬件。"* ## [39:00] 时钟周期与流水线寄存器一颗芯片上有 1000 亿个晶体管，并行单元之间的同步不可或缺。Reiner 解释时钟的作用：大约每纳秒，全芯片的所有电路暂停一下同步，然后一起进入下一步操作——这就是时钟周期。时钟频率由最长的组合逻辑路径决定，也就是一个信号在一个周期内必须穿越的最深门链。流水线寄存器把这条路径切成更短的段，让每段以更高频率运行，代价是延迟——一个 32 级流水线的乘法器每周期出一个结果，但任意一次乘法都要等 32 个周期。 > *"大约每纳秒，芯片上的所有电路都会暂停片刻，完成同步。这就是时钟周期。"* ## [51:40] FPGA 与 ASIC 的权衡 FPGA 是一大片可编程逻辑块——查找表和触发器，可以通过软件重新连线。ASIC 是为一种用途定制流片的芯片。概念上是同一套东西：固定时钟周期里的与门或门网络。经济账在第一份拷贝处分叉：一块 FPGA 编程成本约 1 万美元；第一次 ASIC 流片约 3000 万美元。FPGA 的适用场景是：需要确定性低延迟、高速率、高并行，但工作负载可能每个月换一次，不想每次都付流片费。Jane Street 做高频交易就用 FPGA，正是因为时钟周期确定——没有缓存未命中，没有分支预测，没有中断。 > *"第一块 FPGA 花你 1 万美元，第一次 ASIC 流片花你 3000 万——因为要走一整套流片流程。"* ## [63:14] 缓存与暂存区的区别 CPU 不确定性的一大来源是 L1/L2 缓存：一块小型快速 SRAM，投机地缓存处理器认为下一步会用到的数据。缓存未命中——预测失误——会让执行停顿数百个周期。AI 加速器用暂存区替代缓存：由程序员显式管理的 SRAM，由编译器精确决定哪些数据住在这里、何时换出。Groq 和 TPU 都以确定性延迟著称，正是因为用了暂存区而非缓存。暂存区更简单更快，但把负担转移给了编译器。 > *"CPU 上非确定性延迟最重要的来源，大概就是 CPU 缓存本身。"* ## [67:16] 为何 CPU 核心远大于 GPU 核心现代 CPU 大概有 100 个核心，每个核心占用的硅面积远大于 GPU 的数千个 SM。原因：CPU 核心带着庞大的乱序执行机制——重排序缓冲区、分支预测器、投机执行单元——全部是为了在不可预知的负载下让单线程跑得飞快。GPU 的 SM 把大部分都砍掉了，以束（warp）为单位让许多简单线程齐步走，某个线程等内存时硬件立刻切换到另一个束，零代价。CPU 用硅换单线程速度；GPU 用硅换数千线程的整体吞吐。 > *"既然核心这么少，那芯片面积都花到哪儿去了？"* ## [71:49] 大脑与芯片的对比 Dwarkesh 追问大脑和芯片的差异。两个真实区别：大脑有非结构化稀疏性（任意神经元可以连接任意神经元），硬件加速器只支持结构化稀疏（对齐的块）；大脑的时钟运行在几十赫兹，芯片运行在千兆赫兹。Reiner 指出，常被拿来说事的内存与计算协同位——往往被当作大脑的优势——在现代 AI 芯片上同样存在：权重就放在矩阵单元旁边的 HBM 里。更有意思的差距在能耗：大脑跑在 20 瓦，芯片跑在千瓦量级。 > *"这正是某种意义上内存与计算的协同位。"* ## [75:22] GPU 不过是一堆小型 TPU 从顶层看，TPU 有几个大型脉动阵列加一个向量单元。GPU 有数百个 SM，每个 SM 里有一个小型矩阵单元和一个小型向量单元——本质上就是一个缩小版 TPU。架构差异在于粒度：TPU 押注少量大型矩阵运算；GPU 并行跑数千个小型运算。SM 内部，Tensor Core 在原有标量/向量流水线上叠加了一个定制矩阵单元，让现代 GPU 成了两种范式的混合体。 > *"把这个东西等比例缩小成一个很小的单元，配上更小的矩阵单元和更小的向量单元，那差不多就是一个 SM 了。"* ## 实体 - **Reiner Pope**（人物）：MatX 联合创始人兼 CEO，前 Google Brain TPU 软件与编译器负责人 - **Dwarkesh Patel**（人物）：Dwarkesh Podcast 主持人，MatX 天使投资人 - **MatX**（机构）：AI 芯片初创公司，专注推理加速器 - **Google / Google Brain**（机构）：Reiner 加入 MatX 之前参与 TPU 架构研发的地方 - **Jane Street**（机构）：高频交易公司，因需要确定性延迟而使用 FPGA - **Groq**（机构）：AI 推理芯片公司，以暂存区架构实现确定性延迟著称 - **乘法累加（MAC）**（概念）：神经网络推理的基本运算——两数相乘，结果累加 - **脉动阵列**（概念）：由 MAC 单元组成的网格，数据在单元间流动而不经过寄存器堆，实现高计算带宽比 - **FPGA**（技术）：现场可编程门阵列，适用于工作负载频繁变化的场景 - **ASIC**（技术）：专用集成电路，为单一工作负载定制流片 - **TPU**（技术）：Google 张量处理器，围绕少数大型脉动阵列构建 - **SM / 流式多处理器**（技术）：GPU 核心单元，包含标量、向量和矩阵（Tensor Core）执行资源

#chip-design#hardware#ai-accelerators

从零复现 AlphaGo——Eric Jang

Eric Jang 利用休假时间用现代工具重新复现了 AlphaGo，产出了这场长达两个半小时的技术对谈。这场对谈既是技术拆解，也是一面棱镜，让人看清强化学习的真实运作方式，以及 LLM 训练中内嵌的朴素策略梯度方法有哪些根本局限，而这些局限恰恰是 MCTS 所规避的。对话从围棋规则出发，依次覆盖 MCTS、神经网络架构、自博弈训练、离策略数据，最后落到 Jang 在自己项目上运行自动化 AI 研究循环的亲身观察。 ## [00:00] 围棋基础围棋之所以没有被蛮力搜索攻克，不是因为被"解决"了，而是因为被"近似"了。Jang 解释了他为何选择重现 AlphaGo：一个十层网络是如何摊销一棵分支因子大到穷举搜索规模超过宇宙原子总数的博弈树的，这本身就是一个谜。开头几分钟讲的是围棋规则——地盘控制、气、提子、劫——以及用于算法化处理争议局面的 Tromp-Taylor 计分规则，而非依赖人类共识。计分规则的差异很关键，因为它直接映射到计算机评估局面的方式：人类扫一眼被包围的棋群就接受了结果，计算机却需要一条无歧义的规则来数终局时的争议交叉点。 > *"2014、2015、2016 年前后，当我看到 AlphaGo 的早期突破时，看到 AI 系统能变得多聪明、深度学习能攻克怎样的计算复杂度类，真的让我震撼。"* ## [08:06] 蒙特卡洛树搜索全棋盘展开博弈树——361 个合法落子位置、约 300 手的对局、搜索空间超过宇宙原子总数——根本不现实。AlphaGo 用 MCTS 交互式地选择哪些树枝值得展开。核心数据结构是每个棋盘状态对应一个节点，存储访问次数和 Q 值（所有经过该节点的 rollout 的平均胜率）。动作选择公式 PUCT 在利用与探索之间取得平衡：对数增长的加成项将算法推向访问次数少的节点，随着模拟次数增加、Q 值趋于可靠，加成项随之衰减。Jang 解释了为什么这种源自 UCB 的方法能限制遗憾，为什么围棋的确定性意味着 MCTS 中的概率不过是蒙特卡洛平均的产物而非真正的随机性，以及如何通过合并转置等价局面来剪枝。 > *"AlphaGo 核心的概念突破，在于用神经网络让这个搜索问题变得可处理。"* ## [31:53] 神经网络的作用两个网络替代了 MCTS 内部两项昂贵的操作。价值网络将棋盘状态映射为一个胜率标量，省去了将对局推演到终局的需要。策略网络输出合法落子的概率分布，把搜索树引向有价值的子节点，远离大量无关节点。 Jang 在自己的复现中分别测试了 ResNet 和 Transformer。在个人 GPU 这种小数据量的场景下，ResNet 表现优于 Transformer——Transformer 需要全局注意力来连接棋盘上相距很远的特征，但同时也需要更多数据来学习局部不变性。KataGo 的关键架构洞察是：通过残差堆叠显式地汇聚全局特征，使 19x19 棋盘两侧的厮杀能相互影响，而不必依赖完整的注意力机制。 > *"在小数据量场景下，我的经验是 ResNet 仍然优于 Transformer，在预算有限时性价比更高。"* ## [01:00:22] 自博弈自博弈是 AlphaGo 从一无所知到超人水平的引导过程。每局对弈结束后，MCTS 会产出一个比原始策略网络先验更尖锐的落子分布，这个尖锐的分布随即成为策略头的训练目标。策略网络不断向 MCTS 输出靠拢，意味着每一代对弈都从更好的先验出发，每一步搜索带来的提升也更大。 Jang 将其描述为带复利的测试时扩展：把 1000 次 MCTS 模拟蒸馏进策略网络，提升了下一轮训练的起点，再跑 1000 次模拟所能达到的胜率，相当于不蒸馏时需要 2000 次以上才能达到的水平。关键在于，每局每步都会产生一个监督目标，而不仅仅是最终胜负，这正是其学习信号方差远低于朴素策略梯度方法的原因。 > *"AlphaGo 自我训练方式的精妙之处在于，它能把最终的搜索过程——搜索结果——反馈给策略网络，告诉它：'MCTS 费力推演到这里，你为什么不直接从一开始就预测这个结果？'"* ## [01:25:27] 其他强化学习方案 Jang 做了一个严谨的思想实验：如果把 MCTS 目标替换成 LLM 所用的朴素策略梯度方法——找到胜者并强化该局所有落子——会怎样？在 100 个实力相当的智能体联赛里，某个智能体凭借一步关键棋以 51 比 49 微弱优势获胜，训练数据里却充斥着大量毫无信号的落子，那一步关键棋淹没在约 3 万步无关棋步里。这个信用分配问题正是优势函数和基线存在的根本原因。减去价值基线后，原始回报信号变为优势值——每个动作实际比平均水平好多少——从而大幅降低梯度方差。Q-learning 和 TD 方法无需完整 rollout 就能近似这种优势，这正是它们在 MCTS 不可用的场景中不可或缺的原因。 > *"关键在于，它对每一个动作都用 MCTS 做了相当彻底的搜索，看能不能做得更好，然后通过让策略网络预测那个结果，让每一步都变得更好。"* ## [01:45:36] MCTS 为何不适用于大语言模型 PUCT 探索公式假设动作空间有界且离散，价值函数能跨局面泛化。围棋满足这两点，LLM 推理两点都不满足：词表规模极大，几乎不可能重复访问同一个部分序列；也没有可靠的局面级价值函数来判断一条半成品思维链是否走在正确方向上。 Jang 指出，LLM 确实存在某种表面上像树搜索的行为——回溯、重新考虑、加以保留——但这来自上下文内的行为，而非显式树结构。他留有余地：在数学等中间状态具有更严格逻辑结构的领域，前向搜索未来或许能以某种形式回归。根本瓶颈在于，在 token 级别缺乏可信且查询高效的价值函数。 > *"在 LLM 里，你几乎不可能多次采样到同一个子节点。如果有多步推理，语言空间太宽泛，离散动作集并不适合 LLM。"* ## [02:00:58] 离策略训练 Dwarkesh 提出了一个疑问：所有 AI 研究者都警告不要用离策略训练，但 AlphaGo Zero 用装满旧策略版本对局的大型回放缓冲区却运行良好。Jang 从 DAgger 的视角解答：重要的不是数据是否严格在策略上，而是缓冲区中的状态分布是否覆盖了当前策略实际会访问的状态及其合理邻域。回放缓冲区在 AlphaGo 中之所以有效，是因为近期检查点的对局状态仍接近当前策略的分布。失效场景——用离当前策略太远的状态打标签，让智能体学会在永远不会到达的局面下采取最优动作——在分布偏移严重的机器人领域是真实风险。QT-Opt 等系统总结出的实践方案是：用离策略数据做奖励塑形，同时保持策略梯度在策略上运行。 > *"在这类算法里，你希望大部分是自己会访问的状态，同时在最优轨迹周围的高维管道里保留一小部分、合理比例的状态。"* ## [02:11:51] 强化学习的样本效率比你想的还低 Dwarkesh 提出了一个两维度低效论点。第一个维度人尽皆知：策略梯度 RL 需要完整轨迹 rollout 才能获得任何学习信号，随着智能体处理越来越长的任务，单位计算量对应的样本数急剧下降。第二个维度是每个样本的信息量。训练初期，一个词表大小 10 万的 LLM 靠随机采样发现"蓝色"，大约需要 10 万次 rollout 才能看到一次成功；而监督交叉熵损失在每一步都精确告诉模型，它的分布离"蓝色"还差多远。 MCTS 同时规避了这两个问题。它在每一步都给出监督目标，而且那个目标严格优于当前策略——不是一个摊薄在数千个 token 上的二元胜负信号。Jang 的观察：只要策略网络的分布还没完全收敛到 MCTS 分布，MCTS 就永远不会给出零信号。 > *"你不会遇到 MCTS 给你零信号的情况，除非你的 MCTS 分布已经完全收敛到策略网络的预测。"* ## [02:22:05] 自动化 AI 研究员 Jang 将自己的 AlphaGo 项目大量交由自动化 LLM 编码循环推进，从一线视角讲述了 AI 研究自动化在哪些地方可行、在哪些地方仍然失效。在超参数优化上，现有模型能做到博士生水平的工作：诊断梯度流问题、改写数据加载器的数据增强、在固定预算内压出可测量的困惑度提升。在实验执行和绘图上，一段简单的技能描述就能生成完整的实验套件和分析。模型无法可靠完成的是横向思考——察觉某条研究路线从结构上就走不通，在积累更多死胡同实验之前跳到另一个框架。Jang 反复遇到这个问题：模型会一头扎进死胡同，而不是退一步问问这条路本身是否正确。他的判断是，这是训练信号的问题——构建具有正确外循环的 RL 环境，比如围棋，或许正是最终教会模型跳出研究局部最优的办法。 > *"我发现，当前公众能访问的闭源模型，似乎并不擅长在某条研究路线上选择下一步实验。它们似乎无法退一步做横向思考：'等等，这条路根本就不对。'"* ## 实体 - **Eric Jang**（人物）：1X Robotics AI 副总裁，前 Google Brain 及 DeepMind Robotics 高级研究科学家，利用休假重现了 AlphaGo。 - **Dwarkesh Patel**（人物）：Dwarkesh Podcast 主播，在访谈中共同推导了 RL 在每样本比特数维度的低效论点。 - **AlphaGo / AlphaZero**（软件）：DeepMind 开发的围棋系统，将 MCTS 与深度神经网络结合，是本集的技术核心。 - **KataGo**（软件）：David Wu（Jane Street）开发的开源围棋引擎，相比 AlphaGo Zero 实现了 40 倍计算量压缩，是 Jang 复现时的主要参考实现。 - **蒙特卡洛树搜索（MCTS）**（概念）：通过 UCB/PUCT 在利用与探索之间取得平衡的迭代搜索算法，是本集的核心分析框架。 - **信用分配问题**（概念）：RL 中难以判断长轨迹中哪些动作导致正向结果的难题，催生了优势函数、基线和价值网络。 - **DAgger**（概念）：数据集聚合算法，解释了为何只要缓冲区状态接近当前策略分布，AlphaGo 的回放缓冲区就是可行的。 - **Andrej Karpathy**（人物）：被引用的"用吸管吸取监督信号"一说，描述策略梯度 RL 在长 token 轨迹上学习信号稀疏的问题。

#alphago#monte-carlo-tree-search#reinforcement-learning

AI 为何暂时取代不了数学家 —— 陶哲轩

陶哲轩讨论了 AI 在数学中不断演变的角色，认为 AI 虽然会自动化许多常规任务，但并不会完全取代人类数学家，而是推动他们转向新的研究前沿。他强调未来将是人机协作的时代，同时 AI 对科学发现的长期影响仍充满不确定性。 ## [00:10] AI 在前沿数学中的当下角色陶哲轩指出，AI 已经在做人类无法完成的"前沿数学"，只不过是另一种意义上的前沿。他把这种能力类比为计算器在过去如何扩展了数学的边界——以专门化的方式处理超出人类能力范围的任务。 > *从某种意义上说，它们已经在做人类做不到的、超级智能级别的前沿数学，只不过这种前沿和我们熟悉的不一样。* ## [00:52] AI 是自动化工具，而非替代者陶预言，未来十年内 AI 将承担大量当前由数学家完成的常规工作，让人类可以聚焦于更复杂、更重要的问题。他以历史类比：计算机曾自动化了过去由"人肉计算者"完成的工作，基因测序也走向自动化，但遗传学这类领域却继续以新的尺度演化发展。 > *十年内，数学家现在做的很多事情……都可以由 AI 完成。但我们会发现，那其实并不是我们工作中最重要的部分。* ## [02:46] 数学领域人机协作的未来 Dwarkesh Patel 问到 AI 是否能自主解决千禧年奖难题。陶哲轩认为，"人类 + AI"的混合模式还将长期主导数学领域，因为当前的 AI 缺乏完全取代智力工作的全部要素，它更多扮演的是互补工具的角色。 > *我确实相信，人类与 AI 的混合模式会在数学领域主导相当长的一段时间。* ## [03:43] AI 对科学发现的影响难以预测陶承认，AI 虽然会加速科学和新发现的诞生，但也有可能因"扼杀偶然性"而阻碍某些类型的进步。他总结道，AI 对科学发现的长期影响是高度不可预测的。 > *也有可能，AI 以某种方式破坏了偶然性，反而抑制了某些类型的进步。* ## 实体 - **陶哲轩（Terence Tao）**（人物）：嘉宾，当代顶尖数学家。 - **Dwarkesh Patel**（人物）：该播客主持人。 - **AI**（概念）：人工智能，本集讨论其在数学与科学发现中的角色。 - **Mathematica / Wolfram Alpha**（软件）：作为数学自动化例子被提到的计算工具。 - **千禧年奖难题（Millennium Prize Problems）**（概念）：数学界的七大未解难题，每题悬赏一百万美元。

#ai#mathematics#terence-tao

陶哲轩——世界顶级数学家如何使用 AI

陶哲轩与 Dwarkesh 以开普勒发现行星运动定律为切入点，探讨 AI 究竟在改变科学的哪些环节。陶哲轩认为，假设生成如今近乎零成本，瓶颈已转移到评估、同行评审和时间检验。当前 AI 胜在广度（对每个问题穷举所有标准技术），人类胜在深度（在局部进展上逐步累积），因此人机协同模式将在数学领域至少主导十年。 ## [00:00] 开普勒是一个高温 LLM 陶哲轩重述了开普勒发现行星运动三大定律的过程。开普勒最初的理论虽有美感却是错的——他设想柏拉图多面体嵌套在行星轨道之间——直到多年苦苦研磨第谷·布拉赫偷来的裸眼观测数据后，才终于放弃。椭圆轨道、等面积定律和三次方-二次方定律，都是十年数据分析的产物，牛顿的解释则要再等一个世纪。 Dwarkesh 的框架是：开普勒更像一个高温 LLM，对照可验证的数据集循环尝试随机关系。陶哲轩认可这一机制，但对瓶颈所在提出了不同看法：想法生成本就不是问题，开普勒从不缺乏理论，他真正需要的是第谷那比前人精确一个量级的数据，以及耐心地丢弃被数据否定的想法。 > *但正如你所说，这必须与等量的验证相匹配，否则就是垃圾。* ## [11:44] 如何在大量 AI 垃圾内容中发现新的统一概念？陶哲轩：如果 AI 已将想法生成的成本压至近乎零，同行评审和时间检验就成了新的约束。学术期刊已被 AI 生成的投稿淹没。任何想法的地位取决于后续科学如何利用它——哥白尼在开普勒完善体系前，精度甚至不如托勒密——因此在当下很难做到自动化评估。 Dwarkesh 问：如何在数百万篇平庸论文中识别出贝尔实验室式的统一概念（香农的比特、Transformer）？陶哲轩的回答指向了可能仍是人类专属的那部分：科学家不只是产出理论，他们还要讲出能说服其他科学家投入数年去跟进的故事。达尔文的散文所做的工作，是牛顿的拉丁方程式做不到的。 > *AI 将想法生成的成本压低到近乎零，与互联网将通信成本压低到近乎零的方式非常相似。* ## [26:10] 演绎悬量陶哲轩谈到现有数据中尚未充分挖掘的信号。几个世纪以来，天文学一直是那门从最少数据中提取最多信息的学科，这也是为什么量化对冲基金格外青睐天文学博士。他举了一个喜欢的例子：研究人员通过追踪错别字在引用链中的传播，来测量科学家实际阅读被引论文的频率。他建议，用同样的科学社会学方法来分析 AI 进展本身——挖掘引用模式、会议提及及其他痕迹，来判断某项成果是否真正构成进步，而不是慢慢等待时间检验。 > *一个启示是，许多领域的演绎悬量可能远比人们意识到的要大。* ## [30:31] AI 发现报告中的选择偏差 AI 解决了约 1100 道 Erdős 问题中的大约 50 道，随后停滞。陶哲轩解释了选择效应：这 50 道题几乎没有文献基础，一种冷僻技巧加上一个已知结论就够了，而 AI 工具正擅长"穷举所有标准组合"。当一道题已有 80% 的工作被现有方法完成，AI 就能解决；一旦需要真正新颖的技巧，工具就会卡住，系统性扫描的逐题成功率只有 1% 到 2%。陶哲轩的比喻：AI 工具是在山脉中黑暗里乱跳的机器人。它们能越过人类够不到的矮墙，但无法抓住一个支点、停在那里、再从局部进展往上拉。乐观的解读是：一旦 AI 达到某个水平，就能在百万道题上同时跑百万个副本，这是任何人类团体都做不到的；而这个结构性原因也意味着，科学需要真正能利用广度的新范式。 > *它们擅长广度，而人类，至少是人类专家，擅长深度。* ## [46:43] AI 让论文更丰富、更广泛，但并不更深刻陶哲轩谈自己的工作方式：论文现在包含了更多代码、更多图表、更深的文献综述，因为辅助性工作的成本大约降低了 5 倍。真正的核心——攻克问题最难的部分——仍然靠纸笔完成。他不愿说自己"生产力提升了 2 倍"，因为衡量标准本身不是线性的；改变的是他所写的论文类型，而不是他解答最初问题的速度。聪明与智识的区别也指向同一个地方。两个人合作解一道数学题时，每一个失败的尝试都会成为下一次的立足点。而现有 AI 每次新开会话都会忘掉上次弄清楚的东西，缺少那个累积叠加的拉升步骤，只有蛮力试错，以及最终被吸收进下一轮训练。 > *它让论文更丰富、更广泛，但不一定更深刻。* ## [53:00] 如果 AI 解决了一个问题，人类能从中获得理解吗？ AI 能用 Lean 证明黎曼猜想，却让我们一无所获吗？陶哲轩并不担心。Lean 的特性是任何证明都可以被原子化分解——每个引理都可以单独检查、消融测试和验证。因此，即便是一个 3000 行的生成证明也能成为原材料：其他 AI 可以重构以提升优雅性，人类可以从中提取概念内容，即便原始推导过程是不透明的，产物仍然有价值。他预言会涌现出一整个职业：专门把 Lean 生成的庞大证明拆解开来、从中找出内在想法的数学家——一种证明考古学，人类判断力与 AI 消融工具并用。 > *你会从人类与这些工具协同互动中获得更多收益。* ## [59:20] 我们需要一种半形式化语言来描述科学家实际交流的方式 Dwarkesh 问，一种描述数学策略（而非数学证明）的半形式化语言会是什么样的。陶哲轩从高斯的质数定理谈起——数学中第一个重大统计猜想，在任何证明出现之前就从原始数据中推导出来——再到孪生素数猜想，数学家相信它成立，是因为素数的随机模型预测了这一点。数学兼具严格证明和严格启发式推理，但只有证明的一侧被形式化成了 Lean 能检验的东西。启发式一侧迟迟未被形式化，原因在于：任何可用 RL 评分的评判器都会成为被攻击的目标，而"这个论证令人信服"的主观部分目前还不存在可供利用的可量化框架。陶哲轩希望有一种方法能大规模评测猜想生成和策略选择，或许可以通过在玩具数学宇宙中跑小型 AI，观察什么样的策略会自然涌现。 > *科学有某种主观性，我们还不知道如何把它捕捉成一种能让 AI 有效介入的形式。* ## [69:48] 陶哲轩如何分配时间陶哲轩谈自己吸收新子领域的方式。用伯林的分类，他把自己定位成"狐狸"——对很多事情了解一点，必要时也会变成"刺猬"。驱动力是一种追求完整的执念：只要有另一位数学家用他不懂的技巧证明了某个结果，他就必须弄清楚对方的诀窍是什么。（出于同样的原因，他不得不戒掉了电子游戏。）与其他数学家合作是主要方式，而在博客上写下东西是他后来发展出来的记忆辅助手段——因为他反复在推导出某个结论的六个月后，又在辩论中丢失了它。在日程安排上，陶哲轩刻意为偶然性留出空间。他不愿把时间排得太满，以至于再也不会偶然坐进一个超出自己舒适区的会议。在高等研究院度过的那一年印证了这个陷阱——两周的纯研究很美好，之后灵感就枯竭了。下一个书架上的意外发现、走廊里随口的闲聊、那个他勉强去参加的会议，实际上发挥的作用远比看起来大。 > *那些偶然的互动可能看起来并不最优，但它们其实非常重要。* ## [77:05] 人机混合将在数学领域主导更长时间 AI 什么时候能独立做数学？陶哲轩重新框定了这个问题——AI 其实已经在做人类做不到的数学了，计算器就是如此，只是在不同的前沿。他预计在大约十年内，研究生目前所做的大部分工作——运用标准技巧、梳理文献——会转移给 AI，但整个领域会像计算机代数系统吸收符号积分时那样整体上移一层。基因学在测序变得廉价后并没有终结，它只是扩展到了生态系统层面。数学也会如此。他给当下入行的学生的建议是：假设变化会发生，但仍用传统方式取得资质——目前还没有什么能替代老老实实走一遍数学的传统路径。同时，保持足够的适应性，能够运用全新的研究模式，包括那些现在还不存在的模式。一个值得注意的事实是：借助 AI 工具和 Lean，一个高中生今天就能为真正的数学研究做出贡献，这在五年前是不可能的。 > *我确实相信，人机混合将在数学领域主导更长时间。* ## 实体 - **陶哲轩** (人物): 菲尔兹奖得主（2006年），UCLA 数学家，长期撰写关于 AI 在数学研究中的作用的文章。 - **Dwarkesh Patel** (人物): Dwarkesh Podcast 主持人，专注于 AI、科学与技术的长篇访谈。 - **Johannes Kepler** (人物): 天文学家（1571-1630），从第谷·布拉赫的观测数据中推导出行星运动三大定律。 - **Tycho Brahe** (人物): 丹麦裸眼天文学家，其数十年的行星观测数据正是开普勒所需要的数据集。 - **Lean** (软件): 数学证明助手，形式化的证明可在其中被检验、分解和消融测试。 - **Erdős 问题** (概念): Paul Erdős 提出的约 1100 道未解问题；AI 已解决大约 50 道，几乎都是先前文献极少的题目。 - **演绎悬量** (概念): 现有数据中已编码了远比已被提取的更多的可推导知识，天文学是这一概念的典型模型。 - **黎曼猜想** (概念): 关于素数分布的未解猜想；用来检验 AI 证明能否推进人类数学理解的测试案例。

#ai-for-math#terence-tao#kepler

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, & Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

下一个训练范式将走向何方？

马基雅维利是史上被误解最深的思想家——Ada Palmer

Sarah Paine — 普京与习近平为何逃不出地理的宿命

AI 越强大，它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell

从零开始讲芯片设计 — Reiner Pope

从零复现 AlphaGo——Eric Jang

AI 为何暂时取代不了数学家 —— 陶哲轩

陶哲轩——世界顶级数学家如何使用 AI

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, &amp; Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

下一个训练范式将走向何方？

马基雅维利是史上被误解最深的思想家——Ada Palmer

Sarah Paine — 普京与习近平为何逃不出地理的宿命

AI 越强大，它在经济中的份额可能越小 — Alex Imas 与 Phil Trammell

从零开始讲芯片设计 — Reiner Pope

从零复现 AlphaGo——Eric Jang

AI 为何暂时取代不了数学家 —— 陶哲轩

陶哲轩——世界顶级数学家如何使用 AI

No Priors: AI, Machine Learning, Tech, & Startups