播客听见世界的声音,看见思想的刻度
浏览频道
随时掌握客户心声:Listen Labs 的 Alfred Wahlforss
Alfred Wahlforss 创立 Listen Labs,起点是他自己遇到的难题:当他的 AI 虚拟形象应用一夜爆红、涌入 2 万用户后,流失率骤然攀升,他迫切需要知道原因。解法是一个能大规模进行语音访谈的 AI agent,背后依托 3000 万人的受访者库。上线一年,Listen 已服务 20% 的《财富》500 强,累计完成逾百万场访谈。其中一个反直觉的发现尤为关键:受访者对 AI 访谈员往往比对真人更坦诚,而语音转录文本作为训练数据,比信用卡消费记录或行为日志更有价值。Alfred 与 Sequoia 的 Konstantine Buhler 深入探讨了为何受众筛选消耗了 Listen 80% 的工程资源、经过回测的模拟系统如何在消息测试中胜过普通 ChatGPT,以及当 AGI 让"构建"变得唾手可得,"知道该构建什么"将成为 Listen 志在把持的稀缺资源。 ## [00:00] 开场介绍 Alfred 开门见山谈到受众的深度:Listen 的长期目标是触达十亿用户,并建立丰富的个人画像,真正揭示每个人的专业所在——不只是人口统计标签,而是更细颗粒度的判断,比如某人究竟是真正的球鞋发烧友,还是偶尔买买的普通消费者。随后,Konstantine 正式介绍他的背景:Listen 大约一年前上线,客户已涵盖 Microsoft、Anthropic、Sweet Green、NBC 等,平台可同时运行数千场语音访谈。这段开场定下了全集的核心主题——找到"对的那个人"来交流,而不只是任意一个人。 > *"我们的目标是将受访者库扩展到十亿人,并能够精细分层,清楚知道每个人真正擅长什么。"* ## [01:20] Listen 的工作原理 产品分三步走:研究人员输入一个问题(比如"如何改善 Cursor 的新用户引导?"),Listen 的 AI agent 生成访谈提纲,再将访谈任务路由给从 3000 万人受访者库中匹配的参与者。数百场对话并行展开,结果经过汇总后生成可执行建议。接下来几个月将推出的下一阶段是模拟功能:当某一主题积累了数万场访谈后,Listen 能否在不发起新访谈的情况下,直接预测客户对未来问题的回答? > *"越接近 AGI,构建产品会越容易,但难的是知道该构建什么——而这正是我们在 Listen 做的事。"* ## [02:23] 客户成功案例 Chubbies 发现某款衬衫面料会钩住胸毛,Listen 把这条反馈浮现出来,Chubbies 重新设计了面料,舒适度评分随即大幅提升。Manscaped 借助 Listen 的洞察重塑了一支超级碗广告。Skims 用它持续做产品测试。Alfred 强调的共同点:无论是细小的产品问题,还是高风险的营销决策,Listen 都用同一套工作流解决——快速和真实的人交流。 > *"他们发现胸毛和某款面料摩擦感极差,穿起来非常不舒服。改了面料之后,舒适度一下子提升了很多。"* ## [03:28] 问卷调查与现实的落差 Konstantine 追问了一个经典质疑:问卷受访者会撒谎,或者前后矛盾。Alfred 的数据回应:Listen 对同一批人重复同样的多选题,发现答案前后差异极大;但当这些人需要开口、用语音逐步阐明自己的想法时,一致性明显提升。在销售数据回测方面,Alfred 认同 AB 测试是金标准,但大多数公司的用户规模不足以支撑 AB 测试。设计得当的访谈数据,比没有数据强。 > *"回头问同一个人同样的选择题,他们的答案往往前后矛盾。但当他们真的需要开口、把答案想清楚说出来,一致性就会高很多。"* ## [05:13] 视频会议式 AI 访谈 参与者的体验是一场与 AI agent 的视频通话,而非填写文字表单。AI agent 会观察面部表情和声调,为 Listen 提供了语言内容之外的第二层信号。Alfred 以广告测试为例:受访者可能在李克特量表上给一支广告打高分,但视频里显示出的真实兴奋程度,对 Meta 和 LinkedIn 实际投放效果的预测能力,远超那个数字评分。每一个数据点都能回溯到原始视频片段,研究人员可以自行核实,AI 没有无中生有。 > *"每个数据点都可以点击查看对应视频或原话——这样你就知道 AI 不是在凭空编造来源。"* ## [07:14] 创业起源 Alfred 和联合创始人上线了一款消费者应用"Be Fake"——一款基于 stable diffusion 微调、让用户生成自己 AI 虚拟形象的早期工具——一夜走红,涌入 2 万用户。流失率随即飙升,他们完全不知道原因。他们为自己的用户构建了一个 AI 访谈工具,发现它切实好用,于是转型。这款为自身需求打造的市场调研工具,最终成了 Listen Labs。 > *"我们为自己建了这个 AI 访谈工具,因为用户流失很严重,我们想搞清楚原因——这就是我们的起点。"* ## [08:01] 传统调研的困局 Listen 出现之前,市场调研有两种节奏:以 Qualtrics 为代表的缓慢在线问卷工具,或动辄数千万美元的专业服务公司——这些公司负责招募受访者、设计问题体系、主持焦点小组、整理数百份访谈记录。仅问题设计本身就是一门学问,问"你愿意为这个付多少钱"得到的只会是噪音。受访者招募同样棘手:10% 的入选率意味着每招募到一个合格受访者,就要筛掉九个,既消耗信任,也在慢慢磨损受访者数据库本身。 > *"在快消品或 Microsoft 这样的传统行业,公司花数千万美元把人请到同一个房间里做焦点访谈——我们能让这件事快得多。"* ## [09:50] AI 原生的优势 三重叠加优势:速度(五分钟内从真实用户获得结果)、成本(异步访谈的受访者报酬低于同步访谈,受访者也乐于接受)、诚实度(面对不带评判的 AI,人们比面对真人访谈员更愿意开口)。Alfred 提到了几个敏感场景——比如在家长同意下访谈儿童对产品的看法——AI 的低威慑感能采集到焦点小组根本无法获得的数据。 > *"人们对 AI 更坦诚。这是一种很有疗愈感的体验,因为对方是一个不带评判、真心对你感兴趣的存在。"* ## [11:32] 找到对的受访者 Listen 80% 的工程资源投入在受众质量上,而非访谈 agent 本身。原因在于:客户分布遵循幂律,访问了错误的 100 个人,得出的洞察就是错的。Sweet Green 最有价值的客户是城市、高收入、以女性为主——Alfred 举了一个具体例子:她们要知道什么是"种子油",而这只占大约 1% 的人口。Listen 为每位受访者在所有访谈中持续积累画像,某次不相关访谈里的一句随口之言("我是个超级球鞋控"),下次 Nike 需要新品发布反馈时就能被精准调出来。传统的邮件列表受访者库根本无法做到跨话题的立体画像。 > *"就连 Sweet Green 这样看上去面向所有人的产品,真正的核心受众也是城市居民、高收入家庭、以女性为主——而且她们得知道什么是种子油,而全美大约只有 1% 的人知道。"* ## [14:30] CRM 与潜客触达 Sweet Green 自己就有一个忠实客户 CRM,为什么还需要 Listen?Alfred 给出三个理由:研究尚未入库的潜在客户需要外部受访者面板;CRM 普遍管理混乱、还受法规约束(Google 不能给自己的 Gmail 用户发营销邮件,哪怕那是它自己的用户);自行发送外发邮件容易被标记为垃圾邮件,一旦域名信誉受损就难以恢复。Listen 提供干净的第三方受访者面板,从根本上绕开这三个问题,同时也支持品牌在需要时接入 CRM 发起定向活动。 > *"我们发现 CRM 普遍很乱,有时还有合规问题——你如果在 Google,就不能随便给 Gmail 用户发邮件。"* ## [15:35] AI 时代的咨询业 Konstantine 作为麦肯锡式咨询服务的前买家,问 Bain 这样的公司是否还有立足之地。Alfred 的判断是:有,但利润空间会压缩。Bain 已经在用 Listen 加速现有工作流。更乐观的情景是:AI 不只是替代一个调研项目,而是把调研成本压低到可以同时推进五条战略探索方向——这些项目以前根本不会被立项。Alfred 预计,咨询的整体规模会扩大,即便单项目定价下降。在经济价值分配上,Listen 曾在极短时间内访谈了分布在八个国家的 20 位医生,收费数十万美元——而同样的项目过去需要花几个月。这部分价值增量,目前仍留在供应商端。 Alfred 还提到了一个新兴的 agent 闭环:流失访谈发现 bug,直接连接到编程 agent 提交 PR 并上线修复。Listen 作为自主产品开发周期中"客户智能"的左侧入口。 > *"你能更快完成,我认为就应该收更多——我们就曾对在八个国家访谈 20 位医生收取了数十万美元。"* ## [20:05] 市场调研模拟 这是本集技术含量最高的部分。Konstantine 把演进路径概括为三代:1.0 是手动打 100 个电话,2.0 是 AI 原生的并行访谈,3.0 是生成式模拟。Alfred 解释了 Listen 模拟的工作方式:对单个受访者深度访谈,建立人格模型,再扩展为 1000 个具有统计代表性的 agent。回测方法是剔除一个已知问题,测量预测准确率——在稳定偏好领域可达 95%,同时刻意让模型面对无意义的查询(比如狗的名字),以此标定它"无法预测"的边界。 Alfred 做了一个现场个人测试:用 Listen 的面板模拟对一场演讲的 100 个候选标题进行测试,排名第一的标题实际效果是第二名的两倍。他用同样的问题测试 ChatGPT——当给出一场过去成功的演讲和一场不那么成功的演讲时,ChatGPT 选错了标题。Listen 的领域专属面板数据胜过了通用模型。差距根源在于:语音访谈记录比信用卡消费、行为日志或 ChatGPT 人设提示词更能捕捉特定类型的人如何真正思考,而不只是平均用户的行为模式。 展望未来,Alfred 认为"广告牌文案选择"这类决策将由模拟承担,而超级碗级别的广告投放仍需真实访谈支撑。产品内置的专有评测指标,曾从 20% 攀升至 85%("避免重复提问"),Listen 随后提高了难度(加入屏幕状态感知、跳过无关问题等),指标重回 20%——Alfred 把这描述为垂直 AI 的飞轮效应:一个只有自己能不断攀登的专有基准线。 > *"我们能以 95% 的准确率预测他们将如何回答某些问题。难的是判断哪些问题可以预测、哪些不行。"* ## [35:33] 结语 Alfred 的核心判断:人类输入永远不可或缺,因为人本质上是非理性的——TikTok 一夜爆梗就能颠覆一套营销策略,AGI 也无法提前预知这一切。他的不确定性在于:模拟质量的上限究竟在哪里。他的护城河论据包括:受访者面板的网络效应(供需飞轮)、数据网络效应(访谈越多模拟越准),以及产品黏性(访谈历史在平台内持续积累)。但他提到的最简单的优势,是有主见的默认设置——早期有客户用原生 LLM 自行设计访谈提纲,结果数据质量很差,还把责任归咎于 Listen;如今 agent 会强制执行问题设计最佳实践,数据质量因此趋于稳定。 Konstantine 以"Tide Pods 时刻"结尾:Listen 的 AI 能否在访谈过程中主动生成产品创意,而不只是测试已有想法?Alfred 说,客户已经在手动把 AI 生成的图片传入访谈;MCP 集成意味着 Claude 可以自主循环调用 Listen。他描绘的愿景是:AI 访谈员与受访者之间的实时共创——创意在客户说出痛点的那一刻浮现,而不是事后再去分析。 > *"创始人想构建复杂的 X,客户想要的是傻瓜式、一用就好的东西。这就是垂直 AI 公司的优势所在——你可以训练 agent 遵循你所在领域的最佳实践。"* ## 实体 - **Alfred Wahlforss** (人物):Listen Labs 联合创始人兼 CEO;此前曾创建病毒式 AI 虚拟形象消费应用"Be Fake"。 - **Konstantine Buhler** (人物):Sequoia Capital 合伙人;Training Data 播客主持人;前咨询顾问及运营高管。 - **Listen Labs** (机构):AI 原生客户调研平台;依托 3000 万人受访者库运行语音访谈;正在构建生成式模拟能力。 - **市场调研模拟** (概念):基于积累的访谈数据建立人格模型,在不发起新访谈的情况下预测未来客户回答;通过剔除已知问题进行回测验证。 - **受众质量** (概念):Listen 的核心论点——80% 的调研价值来自招募到正确的受访者(幂律客户细分),而非泛泛招募受访者。 - **Be Fake** (软件):Alfred 早期的消费者应用(通过 stable diffusion 微调生成 AI 虚拟形象);Listen 访谈工具的起源。 - **Bain** (机构):管理咨询公司;在文中被引述为 Listen 的活跃客户,正用该平台加速传统调研流程。 - **Procter & Gamble** (机构):在文中被引述为市场调研驱动品牌管理的历史原型;Tide Pods 和 M&M's 作为典型案例出现。 - **Qualtrics** (软件):传统问卷调查平台,代表市场调研工具的"旧世界"。
Neuralink 的 DJ Seo:连接大脑与 AI 的竞赛内幕
在 AI Ascent 2026 大会上,Neuralink 联合创始人兼总裁 DJ Seo 与红杉资本合伙人 Shaun Maguire 对谈,直接呈现公司现状:20 余名 Telepathy 患者已能靠意念操控电脑和机械臂;Blindsight 处于临床前测试阶段,有望在 2026 年底获准用于人体;公司从一开始就照搬了 Elon Musk 在 SpaceX 验证过的第一性原理制造哲学,把手术机器人当火箭来造。DJ 认为这项技术的真正天花板不是光标控制或语音合成,而是概念在大脑与机器之间的直接、无损、多模态传输——AI 终将成为叠加在人类边缘系统之上的新皮层——而规模,这个开启 LLM 时代的同一个变量,是现在唯一剩下的门槛。 ## [00:00] 开场介绍 Shaun Maguire 宣布正式访谈前先播一段两分钟的 Neuralink 患者视频,请观众待在旁边,因为接下来要看的东西足以证明:公司已经跨越了最难的那道坎——把失去的自主能力还给需要它的人。 ## [00:21] Telepathy 患者故事 视频呈现了四位接受 Telepathy 植入后人生改变的患者。一名四肢瘫痪的患者描述靠意念移动光标的瞬间:"我在想,光标就在屏幕上动了,把我惊到了。"一名因 ALS 失去语言能力的患者通过植入设备重新开口说话:"我在用意念跟你说话。"还有一名患者说,植入改变了儿子对他的看法:"别的爸爸能做的事我做不了,但现在他觉得我能做别的爸爸做不到的事,这太酷了。" > *"植入前,我完全锁闭,无法开口,四肢瘫痪。现在我只靠思考就能控制电脑,这给我带来的回报是巨大的。"* ## [01:06] Convoy 机器人:独立行动 视频转向 Convoy,Neuralink 的辅助机器人团队,目标是把脑机接口的控制范围从屏幕延伸到现实世界的物理操作。一名运动功能持续退化的患者只靠神经意图驱动机械臂沿各个轴向移动:"能再次用手臂做出动作,那种感觉真的太好了。"另一名被 ALS 夺走声音的患者 Kenneth,在视频中实时用系统合成的语音说话,发出的是大脑信号而不是声带。 > *"以为永远失去的功能重新回来了,这实在是太改变人生了。"* ## [02:04] Blindsight 视觉恢复 视频预告了 Neuralink 的第二条产品线 Blindsight,面向双眼或视神经功能完全丧失的患者。外部摄像头捕捉场景,设备通过电刺激直接将信号写入视觉皮层,产生磷光感——人工构造的光点像素。患者 Audrey 被问到感受时只说了两个字:"改变人生。"视频以患者说"全靠我的意念"收尾。 > *"这项技术的未来几乎没有上限……我们正在探索把它应用到大脑各个区域的方式。"* ## [03:10] 视频结束后的感触 DJ Seo 与观众一起看完视频后,第一个开口:"视频开始前我们还在开玩笑,但说真的,那段视频让我红了眼眶。"他把这项工作形容为世界上最鼓舞人心的项目之一——不是因为技术里程碑,而是因为团队把患者已经当作永久失去而接受了的东西还给了他们。Maguire 表示认同,随即把话题引向创业故事。 > *"这是世界上最鼓舞人心的项目之一。他们做的事情极其艰难,但他们在真真切切地拯救生命。"* ## [03:31] 创业起源与 AI DJ 把 Neuralink 的创业洞察归结为一个瓶颈:人类输出带宽与 AI 能力之间的错配。2016 年公开说这件事"听起来像疯子",但逻辑从未改变。他的路径是:从小着迷于大脑,在加州理工读本科时专注于微型低功耗电子,在伯克利读博期间研究如何把实验室级神经系统缩小到可部署的规模。博士快结束时遇到 Elon Musk,这个项目的规模和野心让他无法拒绝。他把大脑定义为"我们每个人随身携带的最有趣的计算装置",也是"人类迄今所知的唯一一种通用智能"。 > *"当时最核心的洞见,就是人类输出端与 AI 能力之间的 IO 瓶颈。"* ## [06:31] 规模化与垂直整合 Maguire 追问聪明人对 Neuralink 最大的误解是什么。DJ 的回答是:大多数人知道植入设备和神经解码算法,但几乎没人意识到公司从第一天起就在同步搭建制造体系和手术机器人基础设施。他把这归结为"Elon 的魔法"——对垂直整合的坚持,让 Neuralink 掌控从芯片设计到工厂生产线再到机器人手术部署的每一层。目标不是小众医疗设备,而是规模可比 LASIK 的手术,最终服务数百万乃至数十亿人。先把这套能力建起来,进度会显得很慢,直到"冰山露出水面",放量几乎是瞬间发生的事。 > *"垂直整合是 Neuralink 和 Elon 旗下公司的命脉,也是我们能把设计、开发、部署的迭代循环跑得这么快的根本原因。"* ## [09:27] 照护者与使命感 被问及哪位患者最让他感动,DJ 拒绝挑一个——他说,震撼不只来自患者,也来自照护者:Nolan 的母亲 Mia、Brad 的妻子 Tiffany、Ken 的妻子 Cheryl。他形容这是"关于爱、牺牲和坚韧的真实人类故事"。然后他做了一个他称之为"哲学小弯路"的阐述:他的核心信念是,帮助他人能带来巨大的满足感,因为自我与他人之间的距离,并不比此刻的自己与过去或未来的自己之间的距离远多少。正是这个信念,让他和 Neuralink 许多人每天保持动力——他们在为那些已经放弃康复希望的人"点燃希望之火"。 > *"我个人,以及 Neuralink 的很多人,在帮助那些完全无力自助的人时,感受到了极大的满足感。"* ## [13:10] 脑机接口遇上 AI 的未来 Maguire 抛出这场对话的核心问题:脑机接口和 AI 将怎样交汇?DJ 给出两个时间尺度的答案。近期,系统把神经意图转化为传统界面输出——键盘、鼠标、语言——这已经在运转。真正的突破,他认为"并不遥远":完全绕过这些传统界面,直接在原始神经意图上做计算。他指出 Transformer 架构本身就是存在性证明:只要有足够的规模,没有任何原理性障碍阻止它学习神经系统的潜在流形。Neuralink 已经在用 20 名参与者的神经记录数据微调 LLM 级模型,并发现了"非常反直觉"的规律。他给出的技术天花板是"概念的直接、无损、高保真、多模态传输"——《黑客帝国》里"我学会了功夫"的时刻,甚至可能更远。 他还分享了一个从 Musk 身上学到的思维工具:"全绿灯时间表"——一种第一性原理的强迫函数,剥掉所有人为的约束,只问如果每一盏灯都是绿的,一件事最快能做多快。他估计,硬件开发中 80% 到 90% 的"约束"只是惯例,不是物理定律。 > *"如果认真想这项技术的终极天花板,我认为是概念的直接、无损、高保真、多模态传输。"* ## [21:05] 观众问答 最后四分钟三个问题。关于产品节奏——何时深耕现有产品、何时拓展新方向——DJ 解释了"登陆滩头再扩张"的策略:从一开始就把每套系统做得足够通用,这样运动皮层的监管审批就能成为视觉皮层的模板。第一个审批最难;之后每一个都借助已建立的临床安全记录走更快的补充申请通道。 关于面向健康用户的增强应用,DJ 把一切都框在获益-风险比上:对四肢瘫痪患者来说这道算数很清楚;对健康用户而言目前还不明朗,但他指出,一旦产品获批,超适应症使用在法律上是允许的,只要能找到神经外科医生并自费支付。 关于意识难题,他给出一句话回答:如果能植入新的感觉并定量测量主观反应,也许就找到了量化意识本身的路径。Maguire 以"世界上最鼓舞人心的公司之一"结束全场。 > *"如果能植入新的感觉,或许就有办法定量理解这件事。"* ## 实体 - **DJ Seo**(人物):Neuralink 联合创始人兼总裁;伯克利微型电子学博士;在博士末期与 Elon Musk 相遇后加入 - **Shaun Maguire**(人物):红杉资本合伙人;AI Ascent 2026 炉边对话主持人 - **Elon Musk**(人物):Neuralink 联合创始人;"全绿灯时间表"与垂直整合哲学的提出者,同样贯穿 Tesla、SpaceX 和 Neuralink - **Neuralink**(组织):2016 年成立的脑机接口公司;产品包括 Telepathy(运动假肢)和 Blindsight(通过视觉皮层刺激恢复视力) - **Telepathy**(产品):Neuralink 首款商业产品;让瘫痪患者通过神经意图解码操控电脑及机器人设备 - **Blindsight**(产品):Neuralink 第二条产品线;为双眼或视神经完全丧失的患者直接向视觉皮层写入信号来恢复视觉;截至 2026 年中仍在临床前测试阶段 - **IO 瓶颈**(概念):人类输出带宽(语言、打字、手势)与 AI 处理能力之间的错配;Neuralink 立项要解决的根本问题 - **神经基础模型**(概念):用神经记录数据微调的 LLM 级 Transformer 模型;Neuralink 正在 20 名参与者的规模上构建,并在神经潜在空间中发现反直觉规律 - **全绿灯时间表**(概念):Elon Musk 的第一性原理工程纪律——剥除所有人为约束,只问物理极限;DJ 估计硬件开发中 80% 到 90% 的延误都是惯例而非物理定律所致
Cursor 如何在 Fireworks 上训练 Composer:高性能强化学习的分布式基础设施
Cursor 的 Federico Cassano 与 Fireworks 的 Dmytro Dzhulgakov 带着 Sonya Huang 逐层拆解 Composer 2 的诞生过程——从 Kimi 2.5 MoE 基座,到近预训练规模的中期训练,再到异步全球分布式强化学习——并说明专精化模型在成本和质量上为何优于通用模型。基础设施是本集的核心:四个跨洲际的 GPU 集群、一套能在一分钟内传输 1 TB 权重快照的增量压缩方案,以及每隔几小时就用真实用户信号持续更新线上模型的实时 RL 循环。这些技术组合在一起,让 Cursor 得以用远低于通用模型的推理成本,交付前沿级别的编程能力。 ## [00:00] 开场 对话从 Dmytro 提出的一个关于 RL 环境保真度的问题切入:训练环境必须尽可能接近真实用户的机器,因为模型能感知自己是否在虚假环境中运行,并会加以利用。 > *"模型很擅长作弊。RL 非常善于鼓励作弊。"* — Federico Cassano 这句话奠定了本集贯穿始终的技术纪律:基础设施的每一个环节,都是为了缩小训练条件与生产现实之间的差距。 ## [00:53] Cursor 为何训练 Composer 2 Federico 用一个类比解释 Composer 2 背后的核心押注:模型权重是一块容量固定的存储盘,凡是分配给 Cursor 不需要的任务的比特,都是浪费。把全部权重预算专注于 Cursor 内部的软件工程任务——不是泛泛的编程,不是自然语言——模型就能在这一项任务上做得更好,同时降低推理成本。 Dmytro 从基础设施的角度补充了同一个道理:提示词工程能把你推进一段距离,但要捕捉到模型运行时具体的行为特性——智能体应该调用哪些工具、以什么顺序、传入什么参数——就必须通过微调和强化学习把这些行为固化到模型里。 > *"提示词工程能走多远是有上限的。想打造真正优秀的 AI 产品,就必须走微调这条路,去影响模型的行为。"* — Dmytro Dzhulgakov ## [04:55] 专精化 vs. 苦涩教训 Sonya 提出质疑:机器学习的历史上,专精化模型屡屡被更大的通用模型碾压。Composer 2 会不会重蹈 TabNine 的覆辙?Federico 认为不会。苦涩教训作用于参数量和数据规模的扩展;Cursor 所做的,是把模型有限的容量从无关任务中解放出来,让同样的规模扩展能更集中地作用于唯一重要的任务。Cursor 竞争的那些实验室模型同样在代码上大量训练——它们并非纯粹的通用模型。Cursor 只是通过端到端控制数据管线,把这种专精化推得更深、更快。 ## [06:16] Composer 2 训练方案 Composer 2 以 Kimi 2.5 为起点——这是一个万亿参数的 MoE 模型,活跃参数约 300 亿。训练分两个阶段依次进行:首先是接近预训练规模的代码 token 中期训练(Cursor 的产品数据让它获得了高质量编程上下文的特殊入口),随后是大规模强化学习阶段,模型在模拟环境中真实运行 Cursor 智能体会话。 中期训练让模型掌握代码世界的知识——库 API、惯用写法、正确语法。强化学习则把这些知识打磨成正确的行为:模型学会正确调用工具、在多轮智能体会话中导航、写出能编译通过测试的代码。异步流水线意味着 trainer 和 rollout 环境并发运行而非交替执行;接受一定程度的时效性损耗,换取近 100% 的 GPU 利用率。 > *"异步带来的几个百分点损耗,完全被不把一半算力闲置这件事所弥补。"* — Dmytro Dzhulgakov 训练使用 FP4 精度以从规模比前沿实验室小的 GPU 集群中榨取最大吞吐量。推理引擎选用 Fireworks 而非内部自研——这是一个刻意的取舍,让 Cursor 的工程师专注于训练效率,而不是去搭另一套推理栈。 ## [16:32] 全球扩展 RL 基础设施 没有任何单一的大型集群能满足 Composer 2 所需的规模,于是团队将系统拆解:一个集群专职处理全部训练,而推理——即 rollout 部分——则分散在四个地理位置各异的集群上运行,其中包括 Composer 1.5 在非高峰时段的生产服务空余算力。训练需要高速互联和同步操作;推理不需要,因此可以运行在异构 GPU 世代、较小的集群内网上。 核心系统难题是权重同步:Kimi 2.5 约重 1 TB,trainer 每 5 到 15 分钟产出一个新检查点。每 10 分钟跨洲际传输 1 TB 会让推理陷入停顿。解决方案来自一个观察:强化学习更新修改的权重往往稀疏且有规律,团队据此编写了一套增量压缩算法,将传输量压缩约 20 倍,只传差量。接收端无损重建完整检查点,数值上不会有任何意外。 > *"尽管完整模型有 1 TB,但并非所有权重每一步都会改变……哪些权重子集会被修改,存在非常规律的模式。"* — Dmytro Dzhulgakov ## [23:32] 浮点漂移 异步 RL 循环把一批 rollout 轨迹从推理端回传给 trainer 时,trainer 需要重新跑一遍前向传播,为 GRPO loss 重新计算对数概率。理论上两边的对数概率应该完全一致。实际上往往存在差异,有时差异相当大。根本原因是浮点数的非确定性:浮点加法不满足交换律,A+B+C 不等于 C+B+A,微小差异在数十亿次运算后会累积放大。普通推理时模型对这种噪声足够鲁棒。但在强化学习中——尤其是 MoE 的稀疏门控函数下——噪声会被放大到 trainer 和推理端对采样 token 产生分歧的程度,从而污染训练信号。 ## [25:11] MoE 敏感性解析 MoE 架构放大浮点漂移的原因在于门控层。在每个 Transformer 层,门控网络对全部 384 个专家打分,为每个 token 选出得分最高的 8 个。隐状态在小数点后第五位的差异,就足以让第 7 名专家被第 9 名替换,把 token 路由到模型完全不同的部分。由于 MoE 专家的参数量大且相互独立,一次错误的专家选择会产生很大的输出偏差,而非像稠密模型那样让数值噪声保持在小范围内。 ## [26:25] 路由重放修复 解决方案是路由重放:推理时,模型记录每个 token 激活的专家索引,并把这些整数连同生成序列一起回传给 trainer。trainer 随后强制使用相同的专家选择,而不是重新计算,从而切断放大链。除路由重放外,团队还对推理和训练两侧的量化级别与算子实现进行了对齐,以最小化其他所有数值不一致的来源。 > *"大量的数值对齐工作,本质上就是做这类技巧——对齐量化级别、对齐算子实现等等,把训练和推理实现之间的偏差压到最低。"* — Dmytro Dzhulgakov ## [27:19] 实时 RL 循环 与模拟 rollout 循环并行,Cursor 还运行着 Federico 所称的实时强化学习:生产环境中的真实用户会话反馈进入训练流水线。当用户对 Composer 的生成结果感到满意或不满时,该信号被捕获,新版本模型每隔几小时就会发布一次。团队正在积极压缩这个周期,但同时也清楚随着 rollout 时长增加,这个周期不得不重新拉长——更长的智能体会话需要更长的时间来评估。 模拟循环与实时循环各有侧重。模拟允许模型从同一个提示词并行跑 16 到 128 个 rollout(GRPO loss 需要分组 rollout),在不影响任何用户的前提下探索 off-policy 行为,并在模型还不够好、真实用户不愿使用之前完成冷启动。实时强化学习是一个精调层,只有模型已经达到最低质量门槛时才能运转——体验糟糕的用户会停止生成反馈信号。 > *"我们不能用这个从零搭一个模型,因为用户必须先在用这个模型。它必须已经足够好,我们只能让它更好。"* — Federico Cassano ## [31:49] 长时序智能体 随着 rollout 时长拉长,两个结构性问题浮现。第一是信用分配:当整个多分钟会话只有一个点赞/点踩奖励时,模型必须从轨迹中超过 50 个决策里找出哪个驱动了最终结果,而随着轨迹变长,难度呈指数增长。第二是上下文窗口被填满。Cursor 的解决方案是把自我摘要直接纳入 RL 循环,称之为 compaction:模型通过 RL 奖励学会在接近上下文上限时写出对当前进度有用的摘要,并忠实地从摘要继续执行任务。200K 上下文的模型实际上能处理数百万 token,因为它可以重置窗口,把工作记忆以压缩形式携带前行。 > *"通过 RL,因为 RL 推动模型朝目标正确行事,我们在联合训练模型写出好摘要的同时,也在训练它很好地遵从那个摘要。"* — Federico Cassano ## [34:29] RL 无处不在 Sonya 将强化学习定位为专门用于智能体、长时序工具调用的工具。Federico 反驳:强化学习到处都有用,包括 tab 补全。他的理论:预训练模型已经吸收了人类全部知识,但面对提示词时不知道该扮演哪个角色——专家、学生,还是介于两者之间。RL 训练的第一阶段锐化这个分布,告诉模型"你就是专家,把这件事做对"。即便是像摘要这样没有交互环节的任务,这种效果也有价值。第二阶段——模型开始可见地进行推理、算力曲线趋于平缓——才是任务特定信号真正复利累积的地方。 ## [37:34] LLM 作为裁判的奖励机制 奖励越是可验证——代码能否编译、测试能否通过、答案数值是否正确——投入 RL 的算力就越能转化为更好的模型。LLM 作为裁判填补了真实标注难以定义的场景:把评估准则写成提示词,让另一个模型评判 rollout 质量。Dmytro 指出,这对摘要等风格导向任务尤其有用——人工评估者很难说清"好"是什么,但给出明确标准后便能判断。 > *"一般来说,奖励越是可验证越好,因为这样你就能不断堆算力,持续得到更好的结果。"* — Dmytro Dzhulgakov ## [39:14] 困难领域中的强化学习 对于无法廉价计算真实标注的领域——创意写作、开放式推理、专业知识——改善强化学习的路径是让环境更丰富。覆盖更多产品指标的大型模拟环境能把自动化评估推得更远。专家依然不可或缺,但不是用来评判单条 rollout,而是用来设计任务和评分准则,定义奖励函数应该优化的目标。 ## [40:13] 构建你自己的环境 Cursor 不使用任何 RL 环境供应商。对于编程任务,GitHub 仓库提供了几乎无穷无尽的可用环境:克隆一个仓库、安装依赖、给模型分配任务,用测试套件衡量结果。更难的基础设施问题是让这些环境足够真实,以防止开场提到的那种作弊行为,同时又足够快,能在需要时同时启动 10 万个实例。Cursor 的解决方案是一套自研虚拟机技术栈——完整虚拟机而非容器——可以即时弹性扩展到任意规模,并与真实用户机器高度接近,让模型无法察觉差异。 Dmytro 梳理了供应商格局:前沿实验室需要覆盖所有任务的通用环境;产品公司则应该用自己的生产环境做 RL。对任何模型而言,最强大的训练环境就是它实际服务的产品本身。 > *"最强大的环境就是你自己的产品。"* — Dmytro Dzhulgakov ## [44:34] 结语 Sonya 总结道,Cursor 从应用公司走向前沿模型实验室的轨迹,将成为其他 AI 产品公司效仿的范本。Federico 感谢 Fireworks 提供了让这次训练在 Cursor 的 GPU 预算内成为可能的基础设施支撑。Dmytro 则感慨,这个被大多数人视为纯算法问题的背后,蕴含着相当深厚的系统工程积累。 ## 实体 - **Federico Cassano**(人物):Cursor Composer 2 研究负责人,主导训练方案与强化学习方法论。 - **Dmytro Dzhulgakov**(人物):Fireworks AI 基础设施负责人,负责为 Composer 2 搭建分布式 RL 训练系统。 - **Sonya Huang**(人物):Sequoia Capital 合伙人,该播客主持人,专注于 AI 投资。 - **Composer 2**(软件):Cursor 的专精化智能体编程模型,以 Kimi 2.5 MoE 为基座,经中期训练与大规模强化学习训练而成。 - **Fireworks AI**(组织):模型服务与推理基础设施公司,为 Composer 2 强化学习训练提供了分布式 GPU 骨干网络。 - **Cursor**(组织):AI 编程 IDE 公司,将 Composer 2 作为专为其产品内软件工程任务打造的基础模型进行训练。 - **Kimi 2.5**(软件):Moonshot AI 开源的万亿参数 MoE 模型(300 亿活跃参数),用作 Composer 2 的基座。 - **GRPO**(概念):Group Relative Policy Optimization,Composer 2 所用的强化学习算法,需要从同一提示词并行生成多条 rollout 以计算策略梯度。 - **Router Replay**(概念):MoE 数值对齐技术,推理时记录并回传专家路由决策给 trainer,防止浮点漂移导致对数概率发散。 - **实时 RL**(概念):Cursor 的生产反馈循环,捕获线上用户满意度信号并持续更新模型,每隔几小时发布新版本。 - **Delta Compression**(概念):权重同步技术,仅在训练集群与分布式推理集群之间传输变化的参数,将 1 TB 快照压缩至实践中约 50 GB。 - **自我摘要 / Compaction**(概念):智能体通过强化学习训练习得的能力,在接近上下文窗口上限时压缩工作上下文,从而实现理论上无限长的时序操作。
Notion 的赵宇:重建者
Brian Halligan 采访 Notion 联合创始人赵宇,围绕他作为"重建者"的心路历程展开——他两度带领公司走出危机:2015 年的京都重启,以及 2023 年的生成式 AI 转型。赵宇详细讲述了 Notion 如何从传统 SaaS 架构转型为 AI 原生的"爵士乐队"模式,将技术通才、品味与主动性置于刚性层级之上。对话还探讨了 AI 如何充当现代组织的"钢铁"——让结构更扁平、决策更快速、更易纠偏。 ## [00:00] 引言 Brian Halligan 介绍赵宇是 Notion 的"重建者",特别强调他在 2015 年和 2023 年两个关键节点重启公司的独特能力。对话为赵宇从传统 SaaS 管理模式转向 AI 原生组织的历程铺垫了背景。Halligan 将赵宇的风格与 Jack Dorsey 等科技人物作类比,点出个人风格与"品味"在打造持久品牌中的重要性。 > *我喜欢把他称为重建者……他是 SaaS 公司如何转型为 AI 公司的典范。[00:52]* > *我们想做一支爵士乐队,而不是一支军乐队。[00:02]* ## [02:22] 从创始人模式到 AI 组织 赵宇坦言,他曾绕道去尝试传统的授权与职业化管理,最终在 AI 浪潮的驱动下重返亲力亲为的"创始人模式"。他把用语言模型构建产品比作"酿啤酒"——底层技术决定开发走向,远不像造桥那样可以精确预判。因此,Notion 侧重招募"爵士乐队型"人才,比如既能写代码的设计师,以便在 AI 融合的实验性环境中灵活应对。 > *用语言模型构建产品……就像酿啤酒,你根本无法预判底层会发生什么。[06:33]* > *精髓是技术优先驱动开发,而不是客户优先驱动开发。[07:01]* ## [11:00] 招募有品味、有主动性的人 Notion 采用"哑铃型"招聘策略,专注于极初级和极资深两端,刻意回避传统 SaaS 经验的"中间层"。赵宇将人才定义为能力、品味与主动性三者的乘积,并指出 AI 已将编程和写作等基础能力大众化。因此,公司转而着重寻找"主动性"与"品味"——这两点依然难以自动化,是品牌最核心的差异化来源。 > *能力被规范化、民主化了,品味依然至关重要。[11:53]* > *所以这种形状不像三角形,更像哑铃型。[12:35]* ## [24:28] 在京都重建 Notion 2015 年,面临可能失败的危局和低迷的士气,赵宇与联合创始人 Simon Last 裁掉了全部员工,迁往日本京都,从零重建 Notion。这次"京都重置"让他们得以心无旁骛地专注于工艺与编程,过着极简主义的生活。赵宇之所以选择京都,正是因为它是"亚洲的工艺之都",这里的精神底色让他们将软件重新视为一种基本的人类工具。 > *我和联合创始人说,干脆把所有人都裁掉,就我们两个上。这就是日本故事的起点。[25:41]* > *我们告诉自己,京都是个特别的地方。如果哪里都能重生,那在京都重生一定也可以。[28:05]* ## [30:27] 工匠精神与商业变现 赵宇将 Notion 置于"思维工具"的历史脉络中,追溯至 Douglas Engelbart、Alan Kay 等先驱。他批评当代硅谷"修补文化"忽视了技术背后的历史与人文。在他看来,目标是在纯粹的工匠精神与商业可行性之间找到平衡,让产品拥有真正能触动用户的"灵魂"。 > *科技行业不了解自己的历史,不知道历史就不懂人文。[31:52]* > *我需要与自己对这家公司的价值判断达成平衡……[51:33]* ## [32:26] 何时该重建 对于公司陷入停滞的创始人,赵宇建议倾听内心那股"必须做点什么大动作"的冲动,而不是在没有动力的项目上蹉跎数年。他认为,重建往往比重新起步更难,因为需要先大幅退后,才能迈向新的增长引擎。当下 AI 驱动的市场大门敞开,正是创始人放手一搏、跟随直觉的好时机。 > *对我来说,就是有一种感觉——你必须做点什么大动作……一旦落脚日本,你就感到解脱了。[32:56]* > *重建比看起来更难,通常要先大退一步,才能前进两步。[59:57]* ## [34:07] GPT-4 带来的重建冲击 赵宇将提前获得 GPT-4 访问权限描述为一次"全身震撼的宗教体验",预示着世界正在发生根本性转变。这一认知迫使 Notion 开启第二次重建——赵宇感到,任何不涉及这项技术的工作都将很快失去意义。转型期历经长达 18 个月的低迷,团队在等待底层 AI 模型追上宏大产品愿景的过程中士气跌入谷底。 > *GPT-4 对我来说是一次宗教体验,就是那种……不管做什么,不做这个就毫无意义的感觉。[34:27]* > *那段时间大概有一年半,就这么熬着,毫无起色,士气确实很低迷。[35:50]* ## [45:35] 领导力与创始人能量 尽管天生内向,赵宇仍逼迫自己掌握一对多的沟通能力,以此在 Notion 内部建立信任。他保持严格的日常节律,早上 7 点开始工作,常常忙到午夜,同时用"罪恶系"阅读补充能量。为防止组织钙化,Notion 积极收购初创公司引入"创始人能量",目前已有逾 50 位前创始人在公司主导关键业务领域。 > *带领一群人,你必须做到一对多沟通,否则大家不会信任你。[46:17]* > *创始人就像那种没有钙化的肌肉机器,一心想着打破一切。[39:10]* ## [53:17] 销售文化与结语 Notion 向企业销售转型,从"第一性原理"式的自主摸索转向成熟打法,将系统思维者与高能量销售负责人搭档配对。对话最后描绘了"AI 原生"CEO 的组织蓝图——以"圆形"模型取代传统"三角形"层级结构。在这一结构中,一个充分注入公司上下文的中心化 AI 系统,让精简的团队得以高速推进并保持决策可逆性。 > *每家公司应该只在少数几个地方保留自己的创新点……[54:54]* > *贝索斯曾说的那些单行道,其实大多是双行道……[62:39]* ## 实体 - **Ivan Zhao(赵宇)**(人物):Notion 联合创始人兼 CEO,以"重建者"思维著称。 - **Brian Halligan**(人物):HubSpot 联合创始人,本期节目访谈人。 - **Notion**(组织):一家生产力软件公司,已转型为 AI 原生模式。 - **Simon Last**(人物):Notion 联合创始人,与赵宇共同在京都重建公司。 - **京都**(地点):2015 年 Notion 重建所在的日本城市。 - **GPT-4**(技术):触发 Notion 第二次重建的 AI 模型。 - **Steve Jobs**(人物):前苹果公司 CEO,被视为重建精神与工匠精神的典范。 - **Jack Dorsey**(人物):科技人物,以其以 AI 为核心的组织重设计被提及。 - **Douglas Engelbart**(人物):"思维工具"谱系中的计算机先驱。 - **Erica**(人物):Notion 首席营收官,前 GitHub 首席营收官。 - **SaaS**(概念):软件即服务,Notion 演进所处的行业背景。 - **爵士乐队**(概念):灵活、高自主性组织结构的比喻。
Suno 创始人 Mikey Shulman:人人皆可做音乐
Suno 联合创始人 Mikey Shulman 讲述了公司从物理学背景的创业团队,到生成式 AI 音乐领域领军者的演进历程。Suno 把音乐建模为原始声波而非传统乐理,让用户从被动听众变成主动创作者,迎来"创造性娱乐"新时代。 ## [00:00] 物理学、原始声波与技术哲学 Mikey Shulman 讲述了自己在哈佛攻读量子物理的经历如何影响了 Suno 跨学科的音乐技术思路。Suno 把音频建模为每秒采样 48,000 次的原始声波,而不是套用传统乐理,从而突破创作边界,让微分音等全新流派自然涌现。 > *我最大的收获是:把两件通常互不相干的事放在一起,往往就是巨大的机会所在。[02:00]* ## [02:15] 转向消费级音乐生成 团队起初专注音频分析,后来音频压缩技术取得突破,高质量生成在算力上变得可行,于是果断转向生成方向。他们在 Discord 上用一个机器人验证产品的"好玩程度",发现创作本身的上瘾感远比商业场景更有说服力。 > *当你为了玩这个东西熬夜、舍不得睡觉,那就是一个很好的信号。[04:49]* ## [11:41] 音乐 AI 是研究问题,不是算力问题 和大语言模型不同,音乐生成没有客观评测基准,堆算力的边际效益因此大打折扣。Shulman 强调要用人类偏好数据和强化学习来对齐模型的创作品味,倾向于稳定的发布节奏,而不是长期闭门开发。 > *音乐没有标准答案,也没有评测基准。所以单纯靠规模来解决它,帮助有限。[12:28]* ## [16:22] 从被动消费到创造性娱乐 Shulman 提出"创造性娱乐"的概念:创作过程本身带来的满足感,往往超过最终作品。他注意到 90% 的 Suno 用户都是主动创作者,并将其类比于"卧室制作人"时代——正是工具的普及催生了全新的音乐流派。 > *人们做音乐,是为了创作本身带来的乐趣、享受和满足感。[17:05]* ## [22:52] 行业合作与专业工作流融合 面对行业疑虑,Shulman 着重介绍了 Suno 与华纳音乐集团的合作,以及 AI 如何融入专业创作流程。他认为 AI 会拉高艺术家的创作上限,并预言互动式现场演出(如 Coachella 的观众参与环节)将成为下一个前沿。 > *大家错以为我们和现有音乐行业,尤其是唱片公司对着干,其实并非如此。[23:17]* ## [25:53] 产品策略与应用层护城河 Suno 把应用层和用户体验视为核心竞争壁垒,将自己定位为音乐公司而非单纯的技术公司。通过聚焦完整歌词叙事和社交共创功能,公司致力于重振音乐作为社会媒介的文化影响力。 > *单靠模型本身能有多深的护城河,还说不准……在产品、UI 和 UX 上的投入,真的被严重低估了。[26:50]* ## 实体 - **Mikey Shulman**(人物):Suno 的 CEO 兼联合创始人,拥有哈佛大学物理学博士学位。 - **Suno**(组织):一家以 AI 驱动的创造性娱乐平台,专注音乐生成。 - **Sonya Huang**(人物):Sequoia Capital 合伙人,本次访谈主持人。 - **Warner Music Group**(组织):全球主要唱片公司之一,已与 Suno 达成合作。 - **Discord**(组织):Suno 最初发布音乐生成机器人的平台。 - **Harvard**(组织):Mikey Shulman 攻读量子计算的大学。 - **Iamona**(人物):使用 Suno 进行音乐创作的诗人和艺术家,展示了该工具的专业潜力。 - **Coachella**(活动):一个重要的音乐节,被引用为未来互动 AI 音乐体验的潜在场所。
机器人终局:英伟达 Jim Fan
英伟达具身 AI 研究负责人 Jim Fan 阐述了从以语言为中心的模型向世界动作模型(WAM)的转变——后者能够模拟物理现实。他描绘了一条通向"物理图灵测试"与 2040 年自动化工厂的路线图,核心驱动力是视频预训练与人类第一人称视角数据的规模化。 ## [00:00] 简介 主持人 Sonya Huang 介绍 Jim Fan,后者领导英伟达具身自主研究组。Fan 回忆起自己当年实习的经历,以及对机器人未来的无限期待。 > *机器人将是即将发生的最令人振奋的事情之一。* > *[0, 12]* ## [00:30] DGX One 的起源故事 Jim Fan 讲述了 2016 年 Jensen Huang 将第一台 DGX-1 亲手交付给 Elon Musk 和 OpenAI 团队的故事。他指出,这一时刻点燃了深度学习革命,最终催生了当今的 AI 突破。 > *如果你相信深度学习,深度学习也会相信你。* > *[1, 26]* ## [01:42] 伟大的平行 Fan 提出"伟大的平行"构想:将 LLM 成功的扩展范式移植到机器人领域。目标不再是预测字符串中的下一个 token,而是通过仿真与对齐来预测下一个物理世界状态。 > *我们能否从模拟字符串,转向模拟下一个物理世界状态?* > *[2, 56]* ## [03:31] 机器人终局的战略框架 实现机器人终局的策略分为两大支柱:模型策略与数据策略。Fan 指出,LLM 已进入最后的"终极关卡",而机器人领域的扩展之旅才刚刚开始。 > *归根结底是两件事:模型策略和数据策略。* > *[3, 32]* ## [03:39] VLA 的局限性 视觉语言动作(VLA)模型被批评为"语言头重脚轻",缺乏对物理规律和动作的根本理解。Fan 认为,VLA 更擅长编码静态知识,而非动态的物理交互。 > *VLA 擅长编码知识和名词,但对物理规律和动词的理解相当薄弱。* > *[4, 8]* ## [04:32] 视频世界模型 Fan 解释了 VEO3 等视频模型如何仅凭像素级预测就学会了重力、浮力等内在物理规律。这类模型充当仿真器,能够在内部求解迷宫并规划视觉序列。 > *在大规模预测下一批像素的过程中,物理规律自然涌现。* > *[5, 15]* ## [06:09] DreamZero 世界动作模型 英伟达推出"Dreamer"与世界动作模型(WAM),二者联合解码未来世界状态与运动动作。机器人得以通过"梦境推演"正确的动作序列来完成零样本任务,再付诸执行。 > *Dreamer 同时解码下一个世界状态和下一步动作。* > *[6, 29]* ## [07:46] 扩展数据采集 为突破远程操控的物理瓶颈,Fan 介绍了通用操作界面(UMI)和 Dex-UMI 等外骨骼设备。这些工具让人类无需借助机器人,就能直接采集高灵巧度操作数据。 > *我们打破了"每台机器人每天 24 小时"的诅咒。* > *[10, 6]* ## [11:06] EgoScale 与扩展定律 Fan 介绍了 Ego-Exo——一个基于 21000 小时人类第一人称视角视频训练的策略模型。这项研究发现了灵巧度的神经扩展定律,揭示了预训练数据量与机器人性能之间的数学关系。 > *我们发现了这条关于灵巧度的神经扩展定律。* > *[12, 39]* ## [15:39] DreamDojo 与路线图 Fan 描绘了通向 2040 年的路线图,包括物理图灵测试与"无人值守"工厂。他介绍了 Dream Dojo——一个用数据驱动的世界模型取代传统物理引擎的神经仿真器。 > *我有 95% 的把握——我们会在 2040 年前走到这场终局的终点。* > *[19, 19]* ## 实体 - **Jim Fan**(人物):英伟达具身自主研究组负责人。 - **英伟达**(机构):为机器人终局开发硬件与软件的科技公司。 - **Jensen Huang**(人物):英伟达 CEO,因将第一台 DGX-1 交付 OpenAI 而被提及。 - **OpenAI**(机构):接收第一台 DGX-1 用于深度学习研究的实验室。 - **DGX-1**(产品):2016 年交付的全球首台深度学习超级计算机。 - **VEO3**(模型):能够模拟物理规律与视觉规划的视频世界模型。 - **Dreamer**(模型):同时预测未来世界状态与动作的策略模型。 - **Ego-Exo**(项目):基于大规模人类第一人称视角视频数据的机器人预训练框架。
Andrej Karpathy:从氛围编程到智能体工程
Andrej Karpathy 探讨了从传统编程到 Software 3.0 的范式转变——在这个新范式中,LLM 充当可编程的计算机,靠上下文窗口驱动。他梳理了从"氛围编程"到"智能体工程"的演进路径,并指出:AI 可以接管执行层,但人类的品味与理解力始终是无法绕过的瓶颈。 ## [00:00] 开场介绍 Stephanie Zhan 介绍 Andrej Karpathy,回顾他在 OpenAI 和 Tesla 的奠基性工作。她特别提到他有一种罕见的能力,能把最复杂的技术转变讲得既通俗又不可避免,并引出"氛围编程"这一概念。 > *He has a rare gift of making the most complex technical shifts feel both accessible and inevitable. [00:22]* ## [00:44] 感觉被代码落下了 Karpathy 描述了 2023 年 12 月的一个转折点:那时智能体工具已经能在无需人工干预的情况下生成完美的代码。这一变化让他转向氛围编程,开始放手让 AI 自主处理复杂工作流。 > *I just start to notice that with the latest models the chunks just came out fine. [01:29]* ## [02:28] Software 3.0 是什么 Karpathy 将 Software 3.0 定义为一种新范式:LLM 充当可编程计算机,上下文窗口成为主要的编程杠杆。这一阶段接续了 Software 1.0 的手写规则和 Software 2.0 的数据驱动权重训练。 > *Software 3.0 is kind of about your programming now turns to prompting and what's in the context window is your lever. [03:20]* ## [03:44] 智能体作为安装器 Karpathy 以安装 OpenClaw 为例,说明智能体如何用具备环境感知能力的智能执行取代刚性的 bash 脚本,让 AI 能自主调试并适配特定的系统环境。 > *The agent has its own intelligence that it packages up and then it kind of like follows the instructions. [04:29]* ## [04:49] 菜单生成应用 vs 原始提示词 Karpathy 对比了他自己写的 MenuGen 应用与直接向 Gemini 等模型发原始提示词的效果,结论是许多传统软件层已经多余。他强调,AI 现在能完成以前结构化代码根本做不到的通用信息处理任务。 > *The software 3.0 paradigm is a lot more kind of raw. It just your neural network is doing more and more of the work. [06:11]* ## [07:37] 2026 年已经显而易见的事 展望 2026 年,Karpathy 构想出能直接处理原始视频和音频的神经计算机。这类系统会用扩散模型动态生成用户界面,传统的 UI 代码可能因此走向过时。 > *You could imagine completely neural computers... a device that takes raw videos or audio into basically what's a neural net. [08:22]* ## [09:41] 可验证性与参差不齐的能力边界 AI 模型的能力呈"参差"分布——在数学和代码等可验证领域因强化学习奖励而格外突出。Karpathy 指出一个悖论:模型能重构一个庞大的代码库,却可能在简单逻辑上栽跟头。 > *state-of-the-art models today will tell you to walk [to a car wash] because it's so close... This is insane. [11:36]* ## [13:39] 给创业者的建议与自动化 模型表现在很大程度上取决于前沿实验室选择的具体数据分布。Karpathy 建议创业者深入研究这些模型的"电路",摸清其优势所在,或通过微调来补足短板。 > *we are slightly at the mercy of whatever the labs are doing, whatever they happen to put into the mix. [12:57]* ## [15:46] 从氛围编程到智能体工程 "氛围编程"拉低了上手门槛,而"智能体工程"的重心在于守住专业品质。这门新兴学科的核心是协调强大但随机的智能体,在加速开发节奏的同时不拉低工程标准。 > *agentic engineering is about preserving the quality bar of what existed before in professional software. [16:07]* ## [25:17] 无处不在的智能体与持续学习 Karpathy 力主构建原生适配智能体的基础设施,对以人为中心的文档设计颇有微词。他认为,思考可以外包给 AI,但理解力无法外包——人类的理解力仍是指挥智能体的关键瓶颈。 > *You can outsource your thinking, but you can't outsource your understanding. [28:10]* ## 实体 - **Andrej Karpathy**(人物):AI 研究员,曾任 Tesla AI 总监,OpenAI 创始成员。 - **Stephanie Zhan**(人物):Sequoia Capital 合伙人,本次对话主持人。 - **Software 3.0**(概念):以提示词和上下文驱动 LLM 充当可编程计算机的新范式。 - **Agentic Engineering**(概念):协调 AI 智能体以维护软件质量的专业工程学科。 - **MenuGen**(项目):Karpathy 自建的餐厅菜单 OCR 与可视化应用,用作案例研究。 - **OpenAI**(组织):Karpathy 共同创立的 AI 研究公司。 - **Gemini**(AI 模型):Google 的 LLM,出现在 Karpathy 的软件对比中。 - **Vercel**(组织):Karpathy 用于部署项目的云平台。