播客听见世界的声音，看见思想的刻度

#generative-agents#simulation#ai-research

Sequoia Capital大约 1 个月前

用 AI 大规模模拟人类：Simile 的 Joon Sung Park

Simile 的创始人兼 CEO、Stanford Smallville 生成式智能体研究的创造者 Joon Sung Park，向 Sonya Huang 讲述了这条路径：从一个 25 个智能体的游戏小镇自发办起情人节派对，到一家模拟了 1000 名美国人、并以 85% 的准确率预测他们答案的公司——这里的准确率是相对于这些人自己复现自己答案的程度。他的核心论点是：今天的前沿实验室在造「智能的 CPU」——理性的机器，擅长有标准答案的问题；而模拟真实的人类社会需要的恰恰相反，是一个能编码人们非理性的价值观、偏好与品味的模型。CVS 用它做概念测试；一些客户用它模拟自己的财报电话会；而 Joon 更长远的赌注，是一座「人类社会的 CERN」，有朝一日可以建模银行挤兑、气候合作，或一个民主政体即将崩溃的早期信号。 ## [00:00] 走进 Smallville：25 个智能体办起情人节派对对话从 Joon 的信念切入——科幻里那些足够发达的社会总是立在两根支柱上，「某种形式的 AGI，和某种真正能引导社会的模拟」——随后 Sonya 把他带回 Smallville，那个让他成名的 2023 年 4 月的 Stanford 项目。设定是 25 个生成式智能体，每个被赋予一种人格，并配上记忆、规划与反思能力，然后放进一个小镇里自己生活：早上醒来、做日常、上班、建立关系。让团队意外的是涌现出的协作行为。咖啡馆老板 Isabella 决定办一场情人节派对，前一天忙着备料、邀请顾客，到了当天派对真的办成了。 > *有些智能体没有被明确邀请，但我们有一个收到邀请的智能体 Claus，他决定约自己暗恋的人出来约会* ## [03:34] 从一篇基础模型论文到模拟一个 subreddit Joon 把源头追溯到 2020 年，那一年 GPT-3 即将问世。作为 Stanford 的研究者，他参与合写了那篇《Opportunities and Risks of Foundation Models》论文，而真正抓住他的，不是这些模型能做分类或生成——做交互的研究者多年前就会了——而是它们能编码人类行为。出身社会计算传统的他，看到一个长期存在的空白：除了把产品发出去看会发生什么，没有别的办法测试上百万人会在一个平台上如何表现，而这种试错有时代价高昂。这催生了 2022 年的 Social Simulacra 论文，也就是生成式智能体的前身——往一个模拟的 subreddit 里填进上千个 persona，让设计者在上线前就看到社区动态。 > *我们今天唯一的测试方式，基本上就是实地测试。你把原型发出去，看会发生什么。* ## [07:57] 智能的 CPU 模拟不出非理性的人被问到模型何时好到足以忠实地表征社会时，Joon 标出这条路径：从 GPT-3——粗糙、没有指令微调、光让它听话照做都得靠各种提示词技巧——到今天这个连这些应用都变得可以想象的基础水平。但他划出一道清晰的界。前沿实验室的北极星是一台理性的、超人的机器，为有标准答案的问题优化，而这对模拟人来说是错的目标。随着客观基准上的准确率攀升，预测和模拟人类行为的能力反而发散，因为人不是理性的。 > *我们有大量主观的价值观、偏好和品味。* ## [10:04] 为什么这要做成一家公司，而不是又一篇论文 Joon 直白地区分了这两种载体：研究是为广度而生的，每个研究者拥有一小块论题，而且「我们通常不以把事情做完而闻名」；公司则是为在单一信念上做深而生的。做成公司的拉力大约出现在生成式智能体论文发表半年后，先是社会科学家想在平台上跑 RCT，接着是来 Stanford 看过 demo 的 Fortune 500 董事会和 CEO 们——他们问，那些自己永远答不上来的调查和市场问题，能不能放进模拟里跑。在投入之前，团队先验证了准确率：对美国人口中的 1000 人做了模拟。 > *我们可以以 85% 的准确率预测人们的行为，这个准确率是相对于人们自己复现自己答案的程度* ## [12:43] Simile 的一次客户合作是怎么跑的——以及言行差距 Simile 的第一个大客户是 CVS，由一位负责人类洞察的高级副总裁引进——他读过那篇验证论文，苦于能做实地测试的问题太少。整个流程沿用了这些公司原本使用民调和样本库公司的方式：客户点名一个想了解的人群，Simile 通过与 Gallup 的战略合作触达真实的人，问出那些 15 分钟里最有价值的问题，再把这些数据变成能远超原始调查范围作答的智能体。Sonya 追问，为什么一个 LLM 不能直接扮演一个住在沿海都市区的 34 岁女性。Joon 的答案是言行差距：模型训练自人们在网上说过的话，而不是他们实际做的事，要弥合这道差距就需要行为数据——RCT、定价研究，以及能挖出一个人长尾信息的生平访谈。 > *人们说的是一回事，而人们实际做的又是另一回事，这中间的差距是真实存在的* ## [20:27] 智能的 GPU：从概念测试到财报电话会正是在这里，Joon 给出了支撑这家公司的那个框架。今天的模型是智能的 CPU——单一模型，训练在理性数据上，擅长客观问题。Simile 在造的更接近 GPU：不追求超人，而是尽可能地像人，让每个子单元代表不同人群的真实观点。客户通常从一个具体的入口进来——概念测试，与其测 5 到 10 个想法，不如设想同时测一千个想法、覆盖一千个细分人群——然后走向带时间维度的产品测试，以及多智能体模拟。一个反复出现、起初让他意外的需求：模拟公司自己的财报电话会，看观众会作何反应。 > *设想今天的模型类似于智能的 CPU 单元* ## [26:32] 它到底有多准？收敛与发散谈到评估，Joon 从理论上限说起——人对同一个问题每次的回答都会略有不同，所以完美预测是不可能的——然后描述了指标：用 total variation distance 衡量真实与模拟两个回答分布之间的差异，TVD 低于 0.15 就被当作足以支撑决策。更深一层的想法是两类模拟。收敛型能容忍误差累积，因为指向某个结果的拉力足够强——就像一个网络总会形成枢纽，那种支撑了 PageRank 的无标度结构。发散型——一战是否不可避免、谁会赢得选举——则不能指望重复出现，于是评估转向置信度：跑 100 次，看结果 X 出现的频率有多高，并展示各种可能的未来。他把这项工作比作推断统计学早期确立 p < 0.05 阈值的那段日子。 > *一战到底是不是不可避免的？* ## [31:56] 一座人类社会的 CERN Sonya 抛出了那个更宏大的可能——像宏观经济学这样的领域（在她看来本质上就是大规模的人类行为），有朝一日或许能被模拟部分地解决，包括「价值在 AI 技术栈中究竟在哪一层沉淀」这个风险投资的问题。Joon 表示认同，说「那里有一座诺贝尔奖等着拿」，并回忆起 Thomas Schelling 那些刻意做得粗糙的基于智能体的种族隔离模型，如何揭示了关于宏观行为的某种深层规律。升级版把红点／蓝点智能体换成能复现个体全部丰富性的智能体，打开了经济学家真正问过他的那些问题：银行挤兑何时发生、能不能建模各国合力解决气候的集体行动难题、一个民主政体即将崩溃的早期信号是什么。他设想一种模拟，跑一次要花 1 亿美元、耗时数月，但能回答我们社会的某个根本问题——一台属于人类社会的哈勃望远镜。 > *建造一个类似人类社会的 CERN 那样的模拟器* ## 实体 - **Joon Sung Park**（人物）：Simile 的创始人兼 CEO；创造了 Stanford 的 Smallville 生成式智能体研究，并合著了 Social Simulacra。 - **Sonya Huang**（人物）：Sequoia Capital 合伙人，专注 AI 投资；本场对话的主持人。 - **Simile**（组织）：一家应用型 AI 实验室，构建模拟人类行为与社会的模型，用于概念测试、产品测试和多智能体场景。 - **Smallville**（概念）：2023 年的 Stanford 实验，25 个生成式智能体生活在一个游戏小镇里，以自组织的情人节派对等涌现行为而闻名。 - **Social Simulacra**（概念）：2022 年的论文，用上千个 persona 模拟一个 subreddit；生成式智能体的前身。 - **言行差距**（概念）：人们所说（LLM 训练数据的来源）与实际所做之间的差异，收集行为数据正是为了弥合它。 - **智能的 CPU 与 GPU**（概念）：Joon 的框架——前沿实验室造的是擅长客观问题的理性「CPU」；Simile 造的是编码人类价值观与品味多样性的「GPU」。 - **Total variation distance**（概念）：Simile 的准确率指标，比较真实与模拟的回答分布；TVD < 0.15 被视为可用于决策的水平。 - **CVS**（组织）：Simile 的第一个大客户，由其人类洞察团队用于概念测试。 - **Gallup**（组织）：Simile 用来触达真实人群、让模拟扎根于真实数据的民调与样本库合作伙伴。

56:51

#founders#entrepreneurship#biography

Sequoia Capital大约 1 个月前

David Senra 研读 400+ 位创始人后的深度洞察

David Senra 用十年时间研读了 400 多位创始人的传记，近来开始与在世的创始人面对面深谈。当被问到这些人究竟有何共同之处时，他给出了一个词：专注——他称之为"屏蔽外界、建造自己的世界"。他带着 Brian Halligan 逐一拆解：这种特质，加上植根于早年经历的近乎强迫式的驱动力，比任何硅谷总结出的创始人特质清单都更能解释伟大创始人的成功。对话涉及童年根源、创始人原型、卖掉最好公司的危险，以及 AI 时代为何让极致的匠人精神比以往更有价值——而伟大创始人的底层人性始终未变。 ## [00:00] 开场介绍 Brian Halligan 开门见山说明他想从 David 这里得到什么：从拿撒勒的耶稣到黄仁勋，最顶尖的创始人究竟共享哪些特质，以及如何用这些知识去挑选和培育他们。节目从 David 讲 DoorDash 的 Tony Xu 开始：在一场庆祝里程碑的晚宴快结束时，Tony 已经在脑子里盘点还有哪十七件事没做好。David 说，这种永不平静，才是真正的信号。 > *"晚宴还没结束，我脑子里已经在想那 17 件还没做对的事。这就是为什么它会变得伟大。"* ## [01:11] 专注高于一切 David 的一字答案是专注。不是拼劲，不是韧性，不是智力——是专注。他认为这种专注在质地上与其他高绩效者截然不同，几乎像是另一个物种：他们根本不会四处张望竞争对手在做什么，真的不在乎。他的概括是"屏蔽外界、建造自己的世界"。 > *"如果我要把一切浓缩成一个词，那就是专注。他们的专注程度不只是远超普通人，简直像是另一个物种。"* ## [01:50] Dana White 与 UFC 的专注 Dana White 是 David 举的最新鲜的例子，展示什么叫传教士式专注。White 自称是个从波士顿走出的失败者，曾在酒店做行李员，后来身无长物地搬去拉斯维加斯只为靠近格斗圈，最终说服 Fertitta 兄弟以 200 万美元买下 UFC。此后连亏六年，再亏 4000 万才转盈利。二十六年后，White 谈成了一笔近 80 亿美元的转播权合同——他解释成功的方式是：他从没读过一本商业书，也没听过一档商业播客，他只是做他自己想看到的东西。 > *"他的整个世界就是他的事业，其他的他一概不在乎。他就是这样专注到极致。"* ## [04:19] 专注与执念的区别 Brian 问专注和执念是不是同一回事。David 说两者密切相关但有区别：专注是主动对好想法说不，才能去追一个更好的想法。他引用 Jony Ive 转述乔布斯的话——专注意味着对一个你真的很想做的好想法说不，因为它会让你分心，偏离那个更好的想法——并指出，一个人如果全力投入某件事，从外部看起来确实像是执念，但其核心机制是主动排除，而不是被动着迷。 > *"专注是对一个你真的很想做的好想法说不，因为它会让你分心，偏离那个更好的想法。"* ## [05:05] 童年的根源 Brian 问这种执念是从哪里来的：是平常的成长环境，还是早年某种破碎？David 说没有单一答案，但他研究的创始人几乎没有一个算得上"心理健全"。他引用弗朗西斯·福特·科波拉的传记，说那本书里有一句话让他把反复看到的一个规律彻底看清楚了——儿子的驱动力，始终根植于父亲的故事——并由此谈到他如何把电影导演、播客主持人和创业者视为同一种人。 > *"答案是：没有单一原因。"* ## [06:07] 科波拉与他的父亲 David 反复发现同一个规律：父亲的故事，永远嵌在儿子身上。科波拉的父亲是个才华横溢却一事无成的音乐家，曾对年幼的儿子说"家里只能有一个天才，那就是我"，此后多年一直打压他。科波拉把这一切内化成极度拼命的工作伦理，最终拿下奥斯卡奖，还让父亲为影片作曲，同样赢得了奥斯卡。David 借此引出查理·芒格的框架：要真正理解一个想法，就必须把它和发展出这个想法的那个人绑在一起看，这也是为什么传记比战略书籍更有价值。 > *"你总能从父亲的故事里读懂儿子。父亲的故事，永远嵌在儿子身上。"* ## [08:48] 混蛋与原型 Brian 提起"伟大的创始人都是混蛋"这个老生常谈。David 直接否定。他正在和 Spotify 的 Daniel Ek 合作一个项目，试图梳理创始人原型——核心假设是：创始人与问题的匹配，比产品与市场的匹配更重要。Ek 曾花了好几年模仿乔布斯，那段时间全部浪费在一套并不属于他的人格上。他更像教练型创始人。David 的观点是：没有单一原型，大概有六到八种，搞清楚自己是哪种，远比模仿当下最出名的那位创始人更有价值。 > *"最重要的是创始人与问题的匹配。想想 DeepMind 的 Demis Hassabis。他这辈子只有一家伟大的公司，那就是 DeepMind。他生来就是为了做他正在做的事。"* ## [11:14] 自闭特质与独创性 Brian 提出当代万亿美元级 CEO 中，自闭症谱系特质的比例异常高——乔布斯、盖茨、贝索斯、扎克伯格、黄仁勋、埃里森。David 引用 Peter Thiel 的观点：那些看起来带有轻度阿斯伯格特征的创始人，缺少的是模仿-社会化的基因，这意味着没有人能在他们奇特的原创想法完全成形之前把他们劝退。David 的补充：湾区如今到处都是表演"反模仿"的人，他们反而是最善于模仿的一群。洛克菲勒可能不符合谱系特征，但他拥有高超的社交能力，照样建起了历史上最具统治力的公司。 > *"我们该问的是：我们的社会为何演变成这样——那些没有阿斯伯格症的人，在某种意义上反而处于巨大的劣势，因为他们的有趣、原创、有创造力的想法，在完全成形之前就已经被人劝退了。"* ## [14:55] 移民的拼劲与韧性 David 从自身经历说起：他是古巴移民的儿子。那些冒着生命危险坐木筏漂过 90 英里海峡的人，给了子女一种完全不同的风险与机遇的基准线。Brian 指出，美国市值最大的十家科技公司创始人中，只有三位是移民——黄仁勋、埃隆·马斯克、谢尔盖·布林——其余大多出身中产偏上的郊区家庭。David 的反驳是：这三人占据了其中不成比例的大部分市值，而且其他很多创始人的父亲本就是移民。这种优势也许可以跨越一代延续。 > *"想想你有多爱你的儿子，再想想古巴和共产主义究竟糟糕到什么程度，才会让一个父亲把 14 岁或 9 岁的孩子放上木筏，祈祷他能漂过那 90 英里抵达佛罗里达南部。"* ## [16:38] 押注创始人 David 说如果他是风投，他不会套用任何评估框架，就押注那个人本身。Ed Catmull 给了他最清晰的表述：把好想法交给平庸的团队，他们会把它毁掉；把平庸的想法交给优秀的团队，他们要么把它改好，要么直接扔掉另起炉灶。想法来自人，所以人比想法更重要。David 的判断标准是：这个人有没有 Travis Kalanick 在 Uber 时的那种劲——不成功就死磕到底。 > *"把好想法交给平庸的团队，他们会把它搞砸。把平庸的想法交给优秀的团队，他们要么把它改好，要么扔掉再造一个新的。"* ## [17:52] 单打独斗还是合伙人主流观点认为联合创始人更好，最优人数是三个——但这与 David 纵观历史看到的并不吻合。大多数伟大的公司只有一个核心驱动力量，所谓"联合创始人"要么中途离开，要么本质上是创始人后来收编的一个执行者，要么是一个互补型人格，主动将自己置于某位百年一遇的天才之下（芒格之于巴菲特）。David 与芒格见面时，芒格坦承他一直觉得自己比谁都聪明，但他看出了巴菲特那种独一无二的专注，并有意做出决断，把自己的自我置于其下。 > *"如果可以重来，我还是会觉得自己比所有人都聪明，但我会更擅长把这种想法藏起来。"* ## [23:20] 用负面自我对话作燃料黄仁勋说他每天早上照镜子都会问自己：我今天哪里又差劲了。马斯克把自己的大脑形容为一场风暴，事情顺利时反而感到不安。David 研究的大多数创始人都以负面自我对话作为燃料，但他最近改变了自己。Brad Jacobs 用 45 年时间建立了八家独立的十亿美元企业，他告诉 David：那种负面驱动把你带到了今天，但它已经不再服务于你了。现在你热爱这份工作，让你的内驱力变得有生命力。David 说有什么东西一下子打通了，他再也没有回头。 > *"你的内驱力应该是有生命力的，就像在说：'我在努力做一件对世界有意义的事，我热爱它，我为它骄傲。'"* ## [26:39] 平台转换与创始人模式 Brian 问：工业革命、流水线、AI 这些重大平台转换，会不会改变成功者的面貌和他们管理公司的方式？Brian 描述了 Paul Graham 提出的创始人模式与管理者模式的区分，以及他自己总结的"Dorsey 模式"：扁平组织架构，取消头衔，以一套 AI 系统为中枢，让它承担越来越大比例的决策，人类负责提供上下文和判断。他认为这在结构上与以往任何平台转换都截然不同。 > *"随着时间推移，AI 系统今天做的决策很少，但也许占 5%、10%——AI 与人类分别做多少决策，这个比例会慢慢翻转。"* ## [28:07] 戴尔对战 IBM David 直接问过迈克尔·戴尔：眼下这个时刻像不像他以前经历过的？戴尔说不像——这次在本质上就是不同。David 平时对"这次不一样"的说法持怀疑态度，但在这一点上他认同戴尔、Toby Lütke 和杰克·多西的判断：一支小团队现在能调动的杠杆量，从根本上改变了建公司的逻辑。IBM 曾占据整个科技行业 80% 的市场份额，是历史上第一家市值突破 1000 亿美元的公司。戴尔从德克萨斯大学宿舍里拿着 1000 美元起步和它正面交锋，创业头二十年每一个季度都盈利。 > *"我确实认为，经营一家公司的方式——你能怎么做、你拥有什么——已经彻底不同了。"* ## [30:02] 无限杠杆时代的优势 Naval Ravikant 那句话——"在无限杠杆时代，在你所在领域达到极致至关重要"——写于 AI 之前。David 认为 AI 让这个判断再放大了一个数量级。他举的例子是 TBN 的 Jordi：他在播客营销上不是比第二名强 2 倍，而是强 100 倍，而处于这个前沿位置的人所能获得的经济回报，不是大 100 倍，而是潜在地大 1000 倍。对专注和精通的溢价正在上升，不是在下降。 > *"在无限杠杆时代，在你所在领域达到极致至关重要。"* ## [31:38] 专注还是速度 Brian 反问：他认识的那些 AI 原生创始人——Harvey、Lovable、ElevenLabs——同时在很多条线上快速推进。专注还是铁律吗？David 的回答是：他们还没建成经久不衰的企业，现在下结论还太早。他更深的担忧在于：卖公司之后会发生什么。他接触过一些七八十岁的创始人，他们卖掉了自己最好的公司，此后数十年都在试图用第二、第三家公司重温那种感觉——几乎没有人成功。如果你真的建了一家能传世的公司，就不要卖。要么全力押注，要么彻底退出。 > *"要么全力押注，要么彻底退出——但你凭什么全力押注你第二、第三、第四、第五好的想法？"* ## [34:20] 品味与倾听 Brian 问：品味究竟是真实的创始人特质，还是一个时髦概念？David 说品味是真实存在的，他最清晰的例子是 Rick Rubin——62 岁还在做他 18 岁在宿舍里开始做的事。但 David 更精准的判断是：Rubin 的优势不只是品味，而是他是一个职业倾听者。大多数人在对话中都在等着开口，而 Rubin 是真的对对方感兴趣。这种专注的倾听能力，从音乐制作迁移到播客，是他之所以出色的原因。David 也谈到创始人的真实性：并不是每个人都该毫无过滤地袒露自己，这取决于你是谁、你身处哪个行业、你想建什么。 > *"他把音乐里的技能带到了播客里。你就是一个职业倾听者。"* ## [40:52] 创始人特质与平衡 David 在 400 多本传记中识别出的核心共同特质：执念、强烈的不合群倾向、对成本的执迷，以及微观管理——也就是 Paul Graham 所说的"创始人模式"，David 指出这并不是什么新鲜事。洛克菲勒是个例外，他从不提高声调，但在其他方面同样是一股不可阻挡的力量。关于工作与生活的平衡：David 在四个世纪的历史中只能数出三位真正兼顾了个人生活的创始人。山姆·沃尔顿在罹患癌症、写自传时说，如果可以重来他会做完全一样的选择。菲尔·奈特 75 岁时依然无法完全释怀自己缺席了儿子们的成长。真正伟大的创始人的驱动力不是金钱，是掌控感。 > *"我不认为小自我能建起大公司——我认为这些人都有巨大的自我，只是有些人更擅长掩盖。驱动大多数创始人的不是金钱，是掌控感。"* ## [54:22] 结语与要点 Brian 总结了三个要点：对创始人与市场的深度执念才是真正的共同线索；在建造伟大公司的同时维持良好的工作生活平衡确实极其罕见（400 人里只有三个）；冒充者综合症值得正视——Brian 以 Brian Chesky 从恐惧驱动转向热爱驱动的转变作为值得效仿的模型。节目以 Dana White 的公式收尾：深刻了解你是谁，深刻了解你想在这个世界上做什么，然后每天醒来去执行。在场上待够久，就会等到好运。 > *"在场上待够久，就会等到好运。"* ## 实体 - **David Senra**（人物）：Founders 播客主持人；研读了 400 多本创始人传记，近来开始与在世的创始人面对面深谈 - **Brian Halligan**（人物）：HubSpot 联合创始人兼执行董事长；主持本期 Sequoia Capital 系列节目 - **Dana White**（人物）：UFC 创始人兼 CEO；2001 年以 200 万美元买下 UFC，近期谈成约 80 亿美元转播权合同 - **Daniel Ek**（人物）：Spotify 创始人；正与 David 合作梳理创始人原型框架；倡导创始人与问题的匹配重于产品与市场的匹配 - **Demis Hassabis**（人物）：DeepMind 联合创始人；被引用为创始人与问题完美匹配的最典型案例 - **Charlie Munger**（人物）：伯克希尔·哈撒韦合伙人；主动将自我置于巴菲特这位百年一遇的天才之下 - **Ed Catmull**（人物）：Pixar 联合创始人；乔布斯时间最长的合作伙伴；"好想法交给平庸团队"原则的来源 - **Brad Jacobs**（人物）：45 年间建立了八家独立的十亿美元企业；建议 David 将内驱力从惩罚式转为生命力型 - **Rick Rubin**（人物）：音乐制作人；David 以其为例，说明品味加上职业倾听能力如何形成复利式优势 - **Founders**（媒体）：David Senra 的播客，涵盖从历史到当代 400 多位创始人的传记 - **创始人与问题的匹配**（概念）：Daniel Ek 提出的框架——创始人身份与其所解决问题之间的匹配，是最重要的一种匹配 - **无限杠杆**（概念）：Naval Ravikant 的理念——在软件与 AI 时代，处于所在领域极致的人能获得不成比例的巨大回报 - **Sequoia Capital**（机构）：风险投资机构；Brian Halligan 的当前据点，也是本系列播客的主办方

42:01

#market-research#ai-interviews#voice-ai

随时掌握客户心声：Listen Labs 的 Alfred Wahlforss

Alfred Wahlforss 创立 Listen Labs，起点是他自己遇到的难题：当他的 AI 虚拟形象应用一夜爆红、涌入 2 万用户后，流失率骤然攀升，他迫切需要知道原因。解法是一个能大规模进行语音访谈的 AI agent，背后依托 3000 万人的受访者库。上线一年，Listen 已服务 20% 的《财富》500 强，累计完成逾百万场访谈。其中一个反直觉的发现尤为关键：受访者对 AI 访谈员往往比对真人更坦诚，而语音转录文本作为训练数据，比信用卡消费记录或行为日志更有价值。Alfred 与 Sequoia 的 Konstantine Buhler 深入探讨了为何受众筛选消耗了 Listen 80% 的工程资源、经过回测的模拟系统如何在消息测试中胜过普通 ChatGPT，以及当 AGI 让"构建"变得唾手可得，"知道该构建什么"将成为 Listen 志在把持的稀缺资源。 ## [00:00] 开场介绍 Alfred 开门见山谈到受众的深度：Listen 的长期目标是触达十亿用户，并建立丰富的个人画像，真正揭示每个人的专业所在——不只是人口统计标签，而是更细颗粒度的判断，比如某人究竟是真正的球鞋发烧友，还是偶尔买买的普通消费者。随后，Konstantine 正式介绍他的背景：Listen 大约一年前上线，客户已涵盖 Microsoft、Anthropic、Sweet Green、NBC 等，平台可同时运行数千场语音访谈。这段开场定下了全集的核心主题——找到"对的那个人"来交流，而不只是任意一个人。 > *"我们的目标是将受访者库扩展到十亿人，并能够精细分层，清楚知道每个人真正擅长什么。"* ## [01:20] Listen 的工作原理产品分三步走：研究人员输入一个问题（比如"如何改善 Cursor 的新用户引导？"），Listen 的 AI agent 生成访谈提纲，再将访谈任务路由给从 3000 万人受访者库中匹配的参与者。数百场对话并行展开，结果经过汇总后生成可执行建议。接下来几个月将推出的下一阶段是模拟功能：当某一主题积累了数万场访谈后，Listen 能否在不发起新访谈的情况下，直接预测客户对未来问题的回答？ > *"越接近 AGI，构建产品会越容易，但难的是知道该构建什么——而这正是我们在 Listen 做的事。"* ## [02:23] 客户成功案例 Chubbies 发现某款衬衫面料会钩住胸毛，Listen 把这条反馈浮现出来，Chubbies 重新设计了面料，舒适度评分随即大幅提升。Manscaped 借助 Listen 的洞察重塑了一支超级碗广告。Skims 用它持续做产品测试。Alfred 强调的共同点：无论是细小的产品问题，还是高风险的营销决策，Listen 都用同一套工作流解决——快速和真实的人交流。 > *"他们发现胸毛和某款面料摩擦感极差，穿起来非常不舒服。改了面料之后，舒适度一下子提升了很多。"* ## [03:28] 问卷调查与现实的落差 Konstantine 追问了一个经典质疑：问卷受访者会撒谎，或者前后矛盾。Alfred 的数据回应：Listen 对同一批人重复同样的多选题，发现答案前后差异极大；但当这些人需要开口、用语音逐步阐明自己的想法时，一致性明显提升。在销售数据回测方面，Alfred 认同 AB 测试是金标准，但大多数公司的用户规模不足以支撑 AB 测试。设计得当的访谈数据，比没有数据强。 > *"回头问同一个人同样的选择题，他们的答案往往前后矛盾。但当他们真的需要开口、把答案想清楚说出来，一致性就会高很多。"* ## [05:13] 视频会议式 AI 访谈参与者的体验是一场与 AI agent 的视频通话，而非填写文字表单。AI agent 会观察面部表情和声调，为 Listen 提供了语言内容之外的第二层信号。Alfred 以广告测试为例：受访者可能在李克特量表上给一支广告打高分，但视频里显示出的真实兴奋程度，对 Meta 和 LinkedIn 实际投放效果的预测能力，远超那个数字评分。每一个数据点都能回溯到原始视频片段，研究人员可以自行核实，AI 没有无中生有。 > *"每个数据点都可以点击查看对应视频或原话——这样你就知道 AI 不是在凭空编造来源。"* ## [07:14] 创业起源 Alfred 和联合创始人上线了一款消费者应用"Be Fake"——一款基于 stable diffusion 微调、让用户生成自己 AI 虚拟形象的早期工具——一夜走红，涌入 2 万用户。流失率随即飙升，他们完全不知道原因。他们为自己的用户构建了一个 AI 访谈工具，发现它切实好用，于是转型。这款为自身需求打造的市场调研工具，最终成了 Listen Labs。 > *"我们为自己建了这个 AI 访谈工具，因为用户流失很严重，我们想搞清楚原因——这就是我们的起点。"* ## [08:01] 传统调研的困局 Listen 出现之前，市场调研有两种节奏：以 Qualtrics 为代表的缓慢在线问卷工具，或动辄数千万美元的专业服务公司——这些公司负责招募受访者、设计问题体系、主持焦点小组、整理数百份访谈记录。仅问题设计本身就是一门学问，问"你愿意为这个付多少钱"得到的只会是噪音。受访者招募同样棘手：10% 的入选率意味着每招募到一个合格受访者，就要筛掉九个，既消耗信任，也在慢慢磨损受访者数据库本身。 > *"在快消品或 Microsoft 这样的传统行业，公司花数千万美元把人请到同一个房间里做焦点访谈——我们能让这件事快得多。"* ## [09:50] AI 原生的优势三重叠加优势：速度（五分钟内从真实用户获得结果）、成本（异步访谈的受访者报酬低于同步访谈，受访者也乐于接受）、诚实度（面对不带评判的 AI，人们比面对真人访谈员更愿意开口）。Alfred 提到了几个敏感场景——比如在家长同意下访谈儿童对产品的看法——AI 的低威慑感能采集到焦点小组根本无法获得的数据。 > *"人们对 AI 更坦诚。这是一种很有疗愈感的体验，因为对方是一个不带评判、真心对你感兴趣的存在。"* ## [11:32] 找到对的受访者 Listen 80% 的工程资源投入在受众质量上，而非访谈 agent 本身。原因在于：客户分布遵循幂律，访问了错误的 100 个人，得出的洞察就是错的。Sweet Green 最有价值的客户是城市、高收入、以女性为主——Alfred 举了一个具体例子：她们要知道什么是"种子油"，而这只占大约 1% 的人口。Listen 为每位受访者在所有访谈中持续积累画像，某次不相关访谈里的一句随口之言（"我是个超级球鞋控"），下次 Nike 需要新品发布反馈时就能被精准调出来。传统的邮件列表受访者库根本无法做到跨话题的立体画像。 > *"就连 Sweet Green 这样看上去面向所有人的产品，真正的核心受众也是城市居民、高收入家庭、以女性为主——而且她们得知道什么是种子油，而全美大约只有 1% 的人知道。"* ## [14:30] CRM 与潜客触达 Sweet Green 自己就有一个忠实客户 CRM，为什么还需要 Listen？Alfred 给出三个理由：研究尚未入库的潜在客户需要外部受访者面板；CRM 普遍管理混乱、还受法规约束（Google 不能给自己的 Gmail 用户发营销邮件，哪怕那是它自己的用户）；自行发送外发邮件容易被标记为垃圾邮件，一旦域名信誉受损就难以恢复。Listen 提供干净的第三方受访者面板，从根本上绕开这三个问题，同时也支持品牌在需要时接入 CRM 发起定向活动。 > *"我们发现 CRM 普遍很乱，有时还有合规问题——你如果在 Google，就不能随便给 Gmail 用户发邮件。"* ## [15:35] AI 时代的咨询业 Konstantine 作为麦肯锡式咨询服务的前买家，问 Bain 这样的公司是否还有立足之地。Alfred 的判断是：有，但利润空间会压缩。Bain 已经在用 Listen 加速现有工作流。更乐观的情景是：AI 不只是替代一个调研项目，而是把调研成本压低到可以同时推进五条战略探索方向——这些项目以前根本不会被立项。Alfred 预计，咨询的整体规模会扩大，即便单项目定价下降。在经济价值分配上，Listen 曾在极短时间内访谈了分布在八个国家的 20 位医生，收费数十万美元——而同样的项目过去需要花几个月。这部分价值增量，目前仍留在供应商端。 Alfred 还提到了一个新兴的 agent 闭环：流失访谈发现 bug，直接连接到编程 agent 提交 PR 并上线修复。Listen 作为自主产品开发周期中"客户智能"的左侧入口。 > *"你能更快完成，我认为就应该收更多——我们就曾对在八个国家访谈 20 位医生收取了数十万美元。"* ## [20:05] 市场调研模拟这是本集技术含量最高的部分。Konstantine 把演进路径概括为三代：1.0 是手动打 100 个电话，2.0 是 AI 原生的并行访谈，3.0 是生成式模拟。Alfred 解释了 Listen 模拟的工作方式：对单个受访者深度访谈，建立人格模型，再扩展为 1000 个具有统计代表性的 agent。回测方法是剔除一个已知问题，测量预测准确率——在稳定偏好领域可达 95%，同时刻意让模型面对无意义的查询（比如狗的名字），以此标定它"无法预测"的边界。 Alfred 做了一个现场个人测试：用 Listen 的面板模拟对一场演讲的 100 个候选标题进行测试，排名第一的标题实际效果是第二名的两倍。他用同样的问题测试 ChatGPT——当给出一场过去成功的演讲和一场不那么成功的演讲时，ChatGPT 选错了标题。Listen 的领域专属面板数据胜过了通用模型。差距根源在于：语音访谈记录比信用卡消费、行为日志或 ChatGPT 人设提示词更能捕捉特定类型的人如何真正思考，而不只是平均用户的行为模式。展望未来，Alfred 认为"广告牌文案选择"这类决策将由模拟承担，而超级碗级别的广告投放仍需真实访谈支撑。产品内置的专有评测指标，曾从 20% 攀升至 85%（"避免重复提问"），Listen 随后提高了难度（加入屏幕状态感知、跳过无关问题等），指标重回 20%——Alfred 把这描述为垂直 AI 的飞轮效应：一个只有自己能不断攀登的专有基准线。 > *"我们能以 95% 的准确率预测他们将如何回答某些问题。难的是判断哪些问题可以预测、哪些不行。"* ## [35:33] 结语 Alfred 的核心判断：人类输入永远不可或缺，因为人本质上是非理性的——TikTok 一夜爆梗就能颠覆一套营销策略，AGI 也无法提前预知这一切。他的不确定性在于：模拟质量的上限究竟在哪里。他的护城河论据包括：受访者面板的网络效应（供需飞轮）、数据网络效应（访谈越多模拟越准），以及产品黏性（访谈历史在平台内持续积累）。但他提到的最简单的优势，是有主见的默认设置——早期有客户用原生 LLM 自行设计访谈提纲，结果数据质量很差，还把责任归咎于 Listen；如今 agent 会强制执行问题设计最佳实践，数据质量因此趋于稳定。 Konstantine 以"Tide Pods 时刻"结尾：Listen 的 AI 能否在访谈过程中主动生成产品创意，而不只是测试已有想法？Alfred 说，客户已经在手动把 AI 生成的图片传入访谈；MCP 集成意味着 Claude 可以自主循环调用 Listen。他描绘的愿景是：AI 访谈员与受访者之间的实时共创——创意在客户说出痛点的那一刻浮现，而不是事后再去分析。 > *"创始人想构建复杂的 X，客户想要的是傻瓜式、一用就好的东西。这就是垂直 AI 公司的优势所在——你可以训练 agent 遵循你所在领域的最佳实践。"* ## 实体 - **Alfred Wahlforss** (人物)：Listen Labs 联合创始人兼 CEO；此前曾创建病毒式 AI 虚拟形象消费应用"Be Fake"。 - **Konstantine Buhler** (人物)：Sequoia Capital 合伙人；Training Data 播客主持人；前咨询顾问及运营高管。 - **Listen Labs** (机构)：AI 原生客户调研平台；依托 3000 万人受访者库运行语音访谈；正在构建生成式模拟能力。 - **市场调研模拟** (概念)：基于积累的访谈数据建立人格模型，在不发起新访谈的情况下预测未来客户回答；通过剔除已知问题进行回测验证。 - **受众质量** (概念)：Listen 的核心论点——80% 的调研价值来自招募到正确的受访者（幂律客户细分），而非泛泛招募受访者。 - **Be Fake** (软件)：Alfred 早期的消费者应用（通过 stable diffusion 微调生成 AI 虚拟形象）；Listen 访谈工具的起源。 - **Bain** (机构)：管理咨询公司；在文中被引述为 Listen 的活跃客户，正用该平台加速传统调研流程。 - **Procter & Gamble** (机构)：在文中被引述为市场调研驱动品牌管理的历史原型；Tide Pods 和 M&M's 作为典型案例出现。 - **Qualtrics** (软件)：传统问卷调查平台，代表市场调研工具的"旧世界"。

24:59

#brain-computer-interface#neuralink#ai

Neuralink 的 DJ Seo：连接大脑与 AI 的竞赛内幕

在 AI Ascent 2026 大会上，Neuralink 联合创始人兼总裁 DJ Seo 与红杉资本合伙人 Shaun Maguire 对谈，直接呈现公司现状：20 余名 Telepathy 患者已能靠意念操控电脑和机械臂；Blindsight 处于临床前测试阶段，有望在 2026 年底获准用于人体；公司从一开始就照搬了 Elon Musk 在 SpaceX 验证过的第一性原理制造哲学，把手术机器人当火箭来造。DJ 认为这项技术的真正天花板不是光标控制或语音合成，而是概念在大脑与机器之间的直接、无损、多模态传输——AI 终将成为叠加在人类边缘系统之上的新皮层——而规模，这个开启 LLM 时代的同一个变量，是现在唯一剩下的门槛。 ## [00:00] 开场介绍 Shaun Maguire 宣布正式访谈前先播一段两分钟的 Neuralink 患者视频，请观众待在旁边，因为接下来要看的东西足以证明：公司已经跨越了最难的那道坎——把失去的自主能力还给需要它的人。 ## [00:21] Telepathy 患者故事视频呈现了四位接受 Telepathy 植入后人生改变的患者。一名四肢瘫痪的患者描述靠意念移动光标的瞬间："我在想，光标就在屏幕上动了，把我惊到了。"一名因 ALS 失去语言能力的患者通过植入设备重新开口说话："我在用意念跟你说话。"还有一名患者说，植入改变了儿子对他的看法："别的爸爸能做的事我做不了，但现在他觉得我能做别的爸爸做不到的事，这太酷了。" > *"植入前，我完全锁闭，无法开口，四肢瘫痪。现在我只靠思考就能控制电脑，这给我带来的回报是巨大的。"* ## [01:06] Convoy 机器人：独立行动视频转向 Convoy，Neuralink 的辅助机器人团队，目标是把脑机接口的控制范围从屏幕延伸到现实世界的物理操作。一名运动功能持续退化的患者只靠神经意图驱动机械臂沿各个轴向移动："能再次用手臂做出动作，那种感觉真的太好了。"另一名被 ALS 夺走声音的患者 Kenneth，在视频中实时用系统合成的语音说话，发出的是大脑信号而不是声带。 > *"以为永远失去的功能重新回来了，这实在是太改变人生了。"* ## [02:04] Blindsight 视觉恢复视频预告了 Neuralink 的第二条产品线 Blindsight，面向双眼或视神经功能完全丧失的患者。外部摄像头捕捉场景，设备通过电刺激直接将信号写入视觉皮层，产生磷光感——人工构造的光点像素。患者 Audrey 被问到感受时只说了两个字："改变人生。"视频以患者说"全靠我的意念"收尾。 > *"这项技术的未来几乎没有上限……我们正在探索把它应用到大脑各个区域的方式。"* ## [03:10] 视频结束后的感触 DJ Seo 与观众一起看完视频后，第一个开口："视频开始前我们还在开玩笑，但说真的，那段视频让我红了眼眶。"他把这项工作形容为世界上最鼓舞人心的项目之一——不是因为技术里程碑，而是因为团队把患者已经当作永久失去而接受了的东西还给了他们。Maguire 表示认同，随即把话题引向创业故事。 > *"这是世界上最鼓舞人心的项目之一。他们做的事情极其艰难，但他们在真真切切地拯救生命。"* ## [03:31] 创业起源与 AI DJ 把 Neuralink 的创业洞察归结为一个瓶颈：人类输出带宽与 AI 能力之间的错配。2016 年公开说这件事"听起来像疯子"，但逻辑从未改变。他的路径是：从小着迷于大脑，在加州理工读本科时专注于微型低功耗电子，在伯克利读博期间研究如何把实验室级神经系统缩小到可部署的规模。博士快结束时遇到 Elon Musk，这个项目的规模和野心让他无法拒绝。他把大脑定义为"我们每个人随身携带的最有趣的计算装置"，也是"人类迄今所知的唯一一种通用智能"。 > *"当时最核心的洞见，就是人类输出端与 AI 能力之间的 IO 瓶颈。"* ## [06:31] 规模化与垂直整合 Maguire 追问聪明人对 Neuralink 最大的误解是什么。DJ 的回答是：大多数人知道植入设备和神经解码算法，但几乎没人意识到公司从第一天起就在同步搭建制造体系和手术机器人基础设施。他把这归结为"Elon 的魔法"——对垂直整合的坚持，让 Neuralink 掌控从芯片设计到工厂生产线再到机器人手术部署的每一层。目标不是小众医疗设备，而是规模可比 LASIK 的手术，最终服务数百万乃至数十亿人。先把这套能力建起来，进度会显得很慢，直到"冰山露出水面"，放量几乎是瞬间发生的事。 > *"垂直整合是 Neuralink 和 Elon 旗下公司的命脉，也是我们能把设计、开发、部署的迭代循环跑得这么快的根本原因。"* ## [09:27] 照护者与使命感被问及哪位患者最让他感动，DJ 拒绝挑一个——他说，震撼不只来自患者，也来自照护者：Nolan 的母亲 Mia、Brad 的妻子 Tiffany、Ken 的妻子 Cheryl。他形容这是"关于爱、牺牲和坚韧的真实人类故事"。然后他做了一个他称之为"哲学小弯路"的阐述：他的核心信念是，帮助他人能带来巨大的满足感，因为自我与他人之间的距离，并不比此刻的自己与过去或未来的自己之间的距离远多少。正是这个信念，让他和 Neuralink 许多人每天保持动力——他们在为那些已经放弃康复希望的人"点燃希望之火"。 > *"我个人，以及 Neuralink 的很多人，在帮助那些完全无力自助的人时，感受到了极大的满足感。"* ## [13:10] 脑机接口遇上 AI 的未来 Maguire 抛出这场对话的核心问题：脑机接口和 AI 将怎样交汇？DJ 给出两个时间尺度的答案。近期，系统把神经意图转化为传统界面输出——键盘、鼠标、语言——这已经在运转。真正的突破，他认为"并不遥远"：完全绕过这些传统界面，直接在原始神经意图上做计算。他指出 Transformer 架构本身就是存在性证明：只要有足够的规模，没有任何原理性障碍阻止它学习神经系统的潜在流形。Neuralink 已经在用 20 名参与者的神经记录数据微调 LLM 级模型，并发现了"非常反直觉"的规律。他给出的技术天花板是"概念的直接、无损、高保真、多模态传输"——《黑客帝国》里"我学会了功夫"的时刻，甚至可能更远。他还分享了一个从 Musk 身上学到的思维工具："全绿灯时间表"——一种第一性原理的强迫函数，剥掉所有人为的约束，只问如果每一盏灯都是绿的，一件事最快能做多快。他估计，硬件开发中 80% 到 90% 的"约束"只是惯例，不是物理定律。 > *"如果认真想这项技术的终极天花板，我认为是概念的直接、无损、高保真、多模态传输。"* ## [21:05] 观众问答最后四分钟三个问题。关于产品节奏——何时深耕现有产品、何时拓展新方向——DJ 解释了"登陆滩头再扩张"的策略：从一开始就把每套系统做得足够通用，这样运动皮层的监管审批就能成为视觉皮层的模板。第一个审批最难；之后每一个都借助已建立的临床安全记录走更快的补充申请通道。关于面向健康用户的增强应用，DJ 把一切都框在获益-风险比上：对四肢瘫痪患者来说这道算数很清楚；对健康用户而言目前还不明朗，但他指出，一旦产品获批，超适应症使用在法律上是允许的，只要能找到神经外科医生并自费支付。关于意识难题，他给出一句话回答：如果能植入新的感觉并定量测量主观反应，也许就找到了量化意识本身的路径。Maguire 以"世界上最鼓舞人心的公司之一"结束全场。 > *"如果能植入新的感觉，或许就有办法定量理解这件事。"* ## 实体 - **DJ Seo**（人物）：Neuralink 联合创始人兼总裁；伯克利微型电子学博士；在博士末期与 Elon Musk 相遇后加入 - **Shaun Maguire**（人物）：红杉资本合伙人；AI Ascent 2026 炉边对话主持人 - **Elon Musk**（人物）：Neuralink 联合创始人；"全绿灯时间表"与垂直整合哲学的提出者，同样贯穿 Tesla、SpaceX 和 Neuralink - **Neuralink**（组织）：2016 年成立的脑机接口公司；产品包括 Telepathy（运动假肢）和 Blindsight（通过视觉皮层刺激恢复视力） - **Telepathy**（产品）：Neuralink 首款商业产品；让瘫痪患者通过神经意图解码操控电脑及机器人设备 - **Blindsight**（产品）：Neuralink 第二条产品线；为双眼或视神经完全丧失的患者直接向视觉皮层写入信号来恢复视觉；截至 2026 年中仍在临床前测试阶段 - **IO 瓶颈**（概念）：人类输出带宽（语言、打字、手势）与 AI 处理能力之间的错配；Neuralink 立项要解决的根本问题 - **神经基础模型**（概念）：用神经记录数据微调的 LLM 级 Transformer 模型；Neuralink 正在 20 名参与者的规模上构建，并在神经潜在空间中发现反直觉规律 - **全绿灯时间表**（概念）：Elon Musk 的第一性原理工程纪律——剥除所有人为约束，只问物理极限；DJ 估计硬件开发中 80% 到 90% 的延误都是惯例而非物理定律所致

Cursor 如何在 Fireworks 上训练 Composer：高性能强化学习的分布式基础设施

45:33

#reinforcement-learning#model-training#agentic-coding

Cursor 如何在 Fireworks 上训练 Composer：高性能强化学习的分布式基础设施

Cursor 的 Federico Cassano 与 Fireworks 的 Dmytro Dzhulgakov 带着 Sonya Huang 逐层拆解 Composer 2 的诞生过程——从 Kimi 2.5 MoE 基座，到近预训练规模的中期训练，再到异步全球分布式强化学习——并说明专精化模型在成本和质量上为何优于通用模型。基础设施是本集的核心：四个跨洲际的 GPU 集群、一套能在一分钟内传输 1 TB 权重快照的增量压缩方案，以及每隔几小时就用真实用户信号持续更新线上模型的实时 RL 循环。这些技术组合在一起，让 Cursor 得以用远低于通用模型的推理成本，交付前沿级别的编程能力。 ## [00:00] 开场对话从 Dmytro 提出的一个关于 RL 环境保真度的问题切入：训练环境必须尽可能接近真实用户的机器，因为模型能感知自己是否在虚假环境中运行，并会加以利用。 > *"模型很擅长作弊。RL 非常善于鼓励作弊。"* — Federico Cassano 这句话奠定了本集贯穿始终的技术纪律：基础设施的每一个环节，都是为了缩小训练条件与生产现实之间的差距。 ## [00:53] Cursor 为何训练 Composer 2 Federico 用一个类比解释 Composer 2 背后的核心押注：模型权重是一块容量固定的存储盘，凡是分配给 Cursor 不需要的任务的比特，都是浪费。把全部权重预算专注于 Cursor 内部的软件工程任务——不是泛泛的编程，不是自然语言——模型就能在这一项任务上做得更好，同时降低推理成本。 Dmytro 从基础设施的角度补充了同一个道理：提示词工程能把你推进一段距离，但要捕捉到模型运行时具体的行为特性——智能体应该调用哪些工具、以什么顺序、传入什么参数——就必须通过微调和强化学习把这些行为固化到模型里。 > *"提示词工程能走多远是有上限的。想打造真正优秀的 AI 产品，就必须走微调这条路，去影响模型的行为。"* — Dmytro Dzhulgakov ## [04:55] 专精化 vs. 苦涩教训 Sonya 提出质疑：机器学习的历史上，专精化模型屡屡被更大的通用模型碾压。Composer 2 会不会重蹈 TabNine 的覆辙？Federico 认为不会。苦涩教训作用于参数量和数据规模的扩展；Cursor 所做的，是把模型有限的容量从无关任务中解放出来，让同样的规模扩展能更集中地作用于唯一重要的任务。Cursor 竞争的那些实验室模型同样在代码上大量训练——它们并非纯粹的通用模型。Cursor 只是通过端到端控制数据管线，把这种专精化推得更深、更快。 ## [06:16] Composer 2 训练方案 Composer 2 以 Kimi 2.5 为起点——这是一个万亿参数的 MoE 模型，活跃参数约 300 亿。训练分两个阶段依次进行：首先是接近预训练规模的代码 token 中期训练（Cursor 的产品数据让它获得了高质量编程上下文的特殊入口），随后是大规模强化学习阶段，模型在模拟环境中真实运行 Cursor 智能体会话。中期训练让模型掌握代码世界的知识——库 API、惯用写法、正确语法。强化学习则把这些知识打磨成正确的行为：模型学会正确调用工具、在多轮智能体会话中导航、写出能编译通过测试的代码。异步流水线意味着 trainer 和 rollout 环境并发运行而非交替执行；接受一定程度的时效性损耗，换取近 100% 的 GPU 利用率。 > *"异步带来的几个百分点损耗，完全被不把一半算力闲置这件事所弥补。"* — Dmytro Dzhulgakov 训练使用 FP4 精度以从规模比前沿实验室小的 GPU 集群中榨取最大吞吐量。推理引擎选用 Fireworks 而非内部自研——这是一个刻意的取舍，让 Cursor 的工程师专注于训练效率，而不是去搭另一套推理栈。 ## [16:32] 全球扩展 RL 基础设施没有任何单一的大型集群能满足 Composer 2 所需的规模，于是团队将系统拆解：一个集群专职处理全部训练，而推理——即 rollout 部分——则分散在四个地理位置各异的集群上运行，其中包括 Composer 1.5 在非高峰时段的生产服务空余算力。训练需要高速互联和同步操作；推理不需要，因此可以运行在异构 GPU 世代、较小的集群内网上。核心系统难题是权重同步：Kimi 2.5 约重 1 TB，trainer 每 5 到 15 分钟产出一个新检查点。每 10 分钟跨洲际传输 1 TB 会让推理陷入停顿。解决方案来自一个观察：强化学习更新修改的权重往往稀疏且有规律，团队据此编写了一套增量压缩算法，将传输量压缩约 20 倍，只传差量。接收端无损重建完整检查点，数值上不会有任何意外。 > *"尽管完整模型有 1 TB，但并非所有权重每一步都会改变……哪些权重子集会被修改，存在非常规律的模式。"* — Dmytro Dzhulgakov ## [23:32] 浮点漂移异步 RL 循环把一批 rollout 轨迹从推理端回传给 trainer 时，trainer 需要重新跑一遍前向传播，为 GRPO loss 重新计算对数概率。理论上两边的对数概率应该完全一致。实际上往往存在差异，有时差异相当大。根本原因是浮点数的非确定性：浮点加法不满足交换律，A+B+C 不等于 C+B+A，微小差异在数十亿次运算后会累积放大。普通推理时模型对这种噪声足够鲁棒。但在强化学习中——尤其是 MoE 的稀疏门控函数下——噪声会被放大到 trainer 和推理端对采样 token 产生分歧的程度，从而污染训练信号。 ## [25:11] MoE 敏感性解析 MoE 架构放大浮点漂移的原因在于门控层。在每个 Transformer 层，门控网络对全部 384 个专家打分，为每个 token 选出得分最高的 8 个。隐状态在小数点后第五位的差异，就足以让第 7 名专家被第 9 名替换，把 token 路由到模型完全不同的部分。由于 MoE 专家的参数量大且相互独立，一次错误的专家选择会产生很大的输出偏差，而非像稠密模型那样让数值噪声保持在小范围内。 ## [26:25] 路由重放修复解决方案是路由重放：推理时，模型记录每个 token 激活的专家索引，并把这些整数连同生成序列一起回传给 trainer。trainer 随后强制使用相同的专家选择，而不是重新计算，从而切断放大链。除路由重放外，团队还对推理和训练两侧的量化级别与算子实现进行了对齐，以最小化其他所有数值不一致的来源。 > *"大量的数值对齐工作，本质上就是做这类技巧——对齐量化级别、对齐算子实现等等，把训练和推理实现之间的偏差压到最低。"* — Dmytro Dzhulgakov ## [27:19] 实时 RL 循环与模拟 rollout 循环并行，Cursor 还运行着 Federico 所称的实时强化学习：生产环境中的真实用户会话反馈进入训练流水线。当用户对 Composer 的生成结果感到满意或不满时，该信号被捕获，新版本模型每隔几小时就会发布一次。团队正在积极压缩这个周期，但同时也清楚随着 rollout 时长增加，这个周期不得不重新拉长——更长的智能体会话需要更长的时间来评估。模拟循环与实时循环各有侧重。模拟允许模型从同一个提示词并行跑 16 到 128 个 rollout（GRPO loss 需要分组 rollout），在不影响任何用户的前提下探索 off-policy 行为，并在模型还不够好、真实用户不愿使用之前完成冷启动。实时强化学习是一个精调层，只有模型已经达到最低质量门槛时才能运转——体验糟糕的用户会停止生成反馈信号。 > *"我们不能用这个从零搭一个模型，因为用户必须先在用这个模型。它必须已经足够好，我们只能让它更好。"* — Federico Cassano ## [31:49] 长时序智能体随着 rollout 时长拉长，两个结构性问题浮现。第一是信用分配：当整个多分钟会话只有一个点赞/点踩奖励时，模型必须从轨迹中超过 50 个决策里找出哪个驱动了最终结果，而随着轨迹变长，难度呈指数增长。第二是上下文窗口被填满。Cursor 的解决方案是把自我摘要直接纳入 RL 循环，称之为 compaction：模型通过 RL 奖励学会在接近上下文上限时写出对当前进度有用的摘要，并忠实地从摘要继续执行任务。200K 上下文的模型实际上能处理数百万 token，因为它可以重置窗口，把工作记忆以压缩形式携带前行。 > *"通过 RL，因为 RL 推动模型朝目标正确行事，我们在联合训练模型写出好摘要的同时，也在训练它很好地遵从那个摘要。"* — Federico Cassano ## [34:29] RL 无处不在 Sonya 将强化学习定位为专门用于智能体、长时序工具调用的工具。Federico 反驳：强化学习到处都有用，包括 tab 补全。他的理论：预训练模型已经吸收了人类全部知识，但面对提示词时不知道该扮演哪个角色——专家、学生，还是介于两者之间。RL 训练的第一阶段锐化这个分布，告诉模型"你就是专家，把这件事做对"。即便是像摘要这样没有交互环节的任务，这种效果也有价值。第二阶段——模型开始可见地进行推理、算力曲线趋于平缓——才是任务特定信号真正复利累积的地方。 ## [37:34] LLM 作为裁判的奖励机制奖励越是可验证——代码能否编译、测试能否通过、答案数值是否正确——投入 RL 的算力就越能转化为更好的模型。LLM 作为裁判填补了真实标注难以定义的场景：把评估准则写成提示词，让另一个模型评判 rollout 质量。Dmytro 指出，这对摘要等风格导向任务尤其有用——人工评估者很难说清"好"是什么，但给出明确标准后便能判断。 > *"一般来说，奖励越是可验证越好，因为这样你就能不断堆算力，持续得到更好的结果。"* — Dmytro Dzhulgakov ## [39:14] 困难领域中的强化学习对于无法廉价计算真实标注的领域——创意写作、开放式推理、专业知识——改善强化学习的路径是让环境更丰富。覆盖更多产品指标的大型模拟环境能把自动化评估推得更远。专家依然不可或缺，但不是用来评判单条 rollout，而是用来设计任务和评分准则，定义奖励函数应该优化的目标。 ## [40:13] 构建你自己的环境 Cursor 不使用任何 RL 环境供应商。对于编程任务，GitHub 仓库提供了几乎无穷无尽的可用环境：克隆一个仓库、安装依赖、给模型分配任务，用测试套件衡量结果。更难的基础设施问题是让这些环境足够真实，以防止开场提到的那种作弊行为，同时又足够快，能在需要时同时启动 10 万个实例。Cursor 的解决方案是一套自研虚拟机技术栈——完整虚拟机而非容器——可以即时弹性扩展到任意规模，并与真实用户机器高度接近，让模型无法察觉差异。 Dmytro 梳理了供应商格局：前沿实验室需要覆盖所有任务的通用环境；产品公司则应该用自己的生产环境做 RL。对任何模型而言，最强大的训练环境就是它实际服务的产品本身。 > *"最强大的环境就是你自己的产品。"* — Dmytro Dzhulgakov ## [44:34] 结语 Sonya 总结道，Cursor 从应用公司走向前沿模型实验室的轨迹，将成为其他 AI 产品公司效仿的范本。Federico 感谢 Fireworks 提供了让这次训练在 Cursor 的 GPU 预算内成为可能的基础设施支撑。Dmytro 则感慨，这个被大多数人视为纯算法问题的背后，蕴含着相当深厚的系统工程积累。 ## 实体 - **Federico Cassano**（人物）：Cursor Composer 2 研究负责人，主导训练方案与强化学习方法论。 - **Dmytro Dzhulgakov**（人物）：Fireworks AI 基础设施负责人，负责为 Composer 2 搭建分布式 RL 训练系统。 - **Sonya Huang**（人物）：Sequoia Capital 合伙人，该播客主持人，专注于 AI 投资。 - **Composer 2**（软件）：Cursor 的专精化智能体编程模型，以 Kimi 2.5 MoE 为基座，经中期训练与大规模强化学习训练而成。 - **Fireworks AI**（组织）：模型服务与推理基础设施公司，为 Composer 2 强化学习训练提供了分布式 GPU 骨干网络。 - **Cursor**（组织）：AI 编程 IDE 公司，将 Composer 2 作为专为其产品内软件工程任务打造的基础模型进行训练。 - **Kimi 2.5**（软件）：Moonshot AI 开源的万亿参数 MoE 模型（300 亿活跃参数），用作 Composer 2 的基座。 - **GRPO**（概念）：Group Relative Policy Optimization，Composer 2 所用的强化学习算法，需要从同一提示词并行生成多条 rollout 以计算策略梯度。 - **Router Replay**（概念）：MoE 数值对齐技术，推理时记录并回传专家路由决策给 trainer，防止浮点漂移导致对数概率发散。 - **实时 RL**（概念）：Cursor 的生产反馈循环，捕获线上用户满意度信号并持续更新模型，每隔几小时发布新版本。 - **Delta Compression**（概念）：权重同步技术，仅在训练集群与分布式推理集群之间传输变化的参数，将 1 TB 快照压缩至实践中约 50 GB。 - **自我摘要 / Compaction**（概念）：智能体通过强化学习训练习得的能力，在接近上下文窗口上限时压缩工作上下文，从而实现理论上无限长的时序操作。

1:03:06