播客听见世界的声音,看见思想的刻度
浏览频道
GitHub 的 Agent 时代:提交量 14 倍增长、2 亿开发者、Copilot 下一步 — Kyle Daigle
GitHub COO Kyle Daigle 与 swyx 对话,从拥有 2 亿开发者的平台内部视角,梳理 Agent 时代的全貌——这一平台目前的提交速率已是去年的 14 倍。84 分钟里,他们聊了 Kyle 如何用 AI 微技能和 WorkIQ MCP 运营 GitHub、为何有过开发者背景的管理者在此刻拥有独特优势、GitHub 从 Webhooks 到 Actions 再到 Copilot 的完整平台演进史,以及对 Agent 生成代码的信任最终从何而来。整场对话始终落回 Kyle 自己的周末与高管工作流:用 AI 构建营收演示文稿、周六同时跑 15 个 Agent,以及他对"环境式 AI"真正有用之前还差什么的判断。 ## [00:00] 开场 Kyle 开口就直入主题:那些在走向编程之前绕了弯路、积累了跨领域知识的人,在 AI 时代处于独特的有利位置。孩子们去打长曲棍球的周六,他同时跑 15 个 Agent——这不只是炫耀生产力,而是重新找回了当初让他爱上软件的那种创造感。 > *"我可以在周六孩子们打长曲棍球的时候同时跑 15 个 Agent。这种感觉真的很强,让我回到了那种创造的感觉。"* ## [01:21] 嘉宾介绍 Kyle 的头衔是 GitHub COO,但他最近又兼任了微软开发者业务 CMO——整个微软生态面向开发者的产品与传播都由他统筹。他在 GitHub 已有 13 年,最初以开发者身份加入,亲手搭建了 Webhooks 和平台 API 层,一直负责工程团队直到 2018 年,之后转向运营与业务侧。COO 兼 CMO 的双重角色并不常见,Kyle 的理解是:这本质上是同一份工作,只是覆盖面更大——说实话、保持真实、让产品自己开口。 > *"我搭建了 Webhooks,与团队一起建设 API,构建了平台层,凡是与 GitHub 集成的部分,直到 2018 年,都是我在做或者带队做的。"* ## [04:57] AI 让 Kyle 重拾编程热情 swyx 指出,Kyle 的提交记录在管理岗位期间明显下滑,近期又陡然回升——完全由 AI 驱动。Kyle 并不是在给 GitHub 产品写功能,而是在搭建内部 Agent 和工作流工具,把零散的数据源串联起来。他最主要的用法是"回溯式"的:借助 WorkIQ、MCP server、Slack、Teams 会议记录和 Obsidian 笔记,问"上周究竟发生了什么、哪些有效、接下来几天该怎么调整"。他发现 LLM 在跨一周上下文的模式识别上出奇地好,远比从零开始生成前瞻性计划要强。 > *"我发现 AI 在这次发布里做的大多数事情,其实不太是在向前构建,而是一个递归式的向后循环。我总是先看发生了什么。"* ## [08:25] 用 AI 运营 GitHub:WorkIQ、MCP、Slack、Teams 与 Skills GitHub 在内部推行 AI 的方式,是在员工已有的工具上集成——Slack、Teams、邮件——而不是强推新平台。每位员工,无论技术与否,都能用 Copilot CLI,并共享一套存放在 repo 里的原子化微技能。那种一站式处理整个工作流的"巨型技能"时代已经过去;真正管用的是极小的、单一职责的技能,专注做好一件事、组合顺畅。Kyle 用 Postel 定律作为设计原则:每个技能的输入宽松、输出严格。WorkIQ 是 M365 MCP server,让任何人都能跨所有会议、邮件和聊天记录问"回溯式"问题——对一个完全远程、全球分布的团队来说至关重要。 > *"我们正在终结那种大而全、精心打磨的完美技能时代。我们发现,极致的微技能——只做一件事,而且做得很好——远比一个要生成完整报告的技能更有效,后者在我们这边基本已经不存在了。"* ## [17:00] 转型管理者中前开发者的黄金时代 swyx 问像 Kyle 这样有技术背景、如今身处高管岗的人,在 AI 时代是否有结构性优势。Kyle 的答案:模式识别和问题求解是他开发者经历留下的持久技能,而 AI 让他重新能够直接用代码来施展这些技能。更有意思的不是开发者回头更新老项目,而是那些花了十多年积累业务知识的人,现在把这些上下文作为杠杆,在使用 AI 工具时发挥出来。那种在纯工程组织里曾是负担的跨领域背景,现在成了倍增器。 > *"我觉得,那些从别的职业转过来、学过别的专业、做过其他事情然后才成为软件开发者的人——现在有了 AI 这个工具,我可以在周六跑 15 个 Agent。"* ## [18:52] 周六跑 15 个 Agent 与 AI 生成的高管工作 Kyle 完全用 AI 构建了 GitHub 的年度营收规划演示——一个用于查看数据的 SQLite 应用、从 Obsidian 笔记和工作上下文中拉取信息的技能,还有一个专门让输出看起来"人工地不够完美"的技能,这样读起来就不像 AI 生成的。他把这份演示呈给 CRO 和 CFO 团队,全程没有提及构建过程,没有人追问。他的重点不在于向同事隐瞒 AI,而在于说明:价值在于判断和把控,而不在于拼装幻灯片。能搭一个小型数据处理应用、掌控最终输出,恰恰是开发者带入管理岗的独特优势。 > *"我最终完全用 AI 搭出了这整份演示,一张幻灯片都没有手动碰过。然后我就这么呈给了我们的 CRO、CFO 和他们的团队,没有提一句是用 AI 做的。从头到尾没人问过。"* ## [21:41] AI 如何改变首席幕僚的角色 Kyle 仍然有首席幕僚,但这个职位的内容变了。幻灯片制作和演示组装已经交给了 AI;真正不可替代的是人的连接纽带:知道哪些城市的哪些人应该会面,在分布式组织里发掘关系机会,促成任何 MCP server 里都看不见的那些对话。类比是电子邮件取代信件拆信:没有人再指望首席幕僚去拆实体信件,很快也不会有人指望他们来做 PPT。留下来的判断是"谁"应该和"谁"交流。 > *"我还是有首席幕僚的,因为差别在于人与人之间的连接——我应该和这个团队见面,他们有一个机会,我今天会在旧金山。"* ## [23:06] GitHub 的历史:Actions、npm、Webhooks 与开源 Kyle 梳理了平台的架构演进:GitHub Services(2014 年前,任意 Ruby 执行,几乎没有容器化)、Webhooks、Pages,然后是 Actions——2018 年 10 月在 GitHub Universe 由 Kyle 亲自发布。Actions 从"我们不应该替别人跑任意 Ruby 代码"演变为完全容器化的计算层,现在用 Azure Dev Compute 实现快速小型虚拟机的 Agent 启动。收购 npm 出发点很简单:npm 支撑着整个互联网,但面临扩展性问题;GitHub 的任务是保持它正常运转,并提升安全水位。每一项安全改进——双因素认证强制推行、令牌泄露时立即失效——都会影响下游,而在加固这个已有 15 年历史的生态系统和避免给开发者造成大规模事故之间保持平衡,仍然是核心张力。 > *"我们调整了双因素认证策略,改变了令牌的运作方式。发现令牌已暴露或可能暴露时,我们会使其失效。这会带来问题,但我们在努力推动整个社区向前走。"* ## [30:06] Slop Fork、Vendoring 与 AI 依赖管理 swyx 提出了"slop fork"模式——AI 辅助的 vendoring,只引入你需要的源代码而不是整包导入——并问这是否能绕过 npm 的漏洞暴露面。Kyle 的看法:vendoring 是 2013 年的通行做法,只引入所需代码确实有其道理,但并不能解决根本问题。Agent 评估代码时,同样可以被说服认为某段代码是安全的,正如人类一样。无论包的范围大小,静态分析和运行时测试仍然需要持续投入。GitHub 一贯的立场——等待社区 RFC 和广泛共识再固化某种实践——意味着他们不会强推单一的 vendoring 标准,但会为维护者构建能自行定义信任规则的工具。 > *"漏洞这件事——在 Agent 看来,一遍又一遍,有无数种方法可以让 Agent 相信某个东西是安全的或不安全的。"* ## [35:18] Pull Request、Prompt Request 与对 Agent 生成代码的信任 GitHub 发明了 Pull Request 作为社会信任机制,如今在许多项目里,Agent 生成的 PR 已占多数。Kyle 评估了各种替代方案——Peter Coppola 的"prompt request"模型、Thomas Dohmke 的贡献资产方案——但他认为没有一种能彻底解决底层问题:信任是社会性的,不是技术性的。即便一个 PR 经过了静态分析的百分之百验证,人们在合并之前依然会寻找人的信号(Mitchell 批准了吗?)。GitHub 目前的方向是给维护者提供灵活工具,让他们定义自己的信任规则,而不是强加一套统一标准,因为任何单一标准都会立刻成为被博弈的目标。终点是某种更接近人类数字身份的东西。 > *"没有单一答案的原因在于,我们最终是在尝试将信任编码化。现在,当一个 Agent 写代码、另一个 Agent 审查代码,然后 Kyle 再去看时,这种信任是分散的。"* ## [42:42] GitHub Stars、2 亿以上开发者与新一波 AI 构建者 GitHub 账户数已突破 2 亿,而不久前还只有 8000 万。新 AI 项目快速积累 Stars 的现象大多是真实的:整整一批在 AI 时代完成第一个应用的新人正在涌向这个时代的浪潮。Kyle 拒绝纠结谁"算不算"开发者,他援引了自己的经历——在还不知道 git 是什么的时候就有了 GitHub 账户,却被人说是骗子。博弈刷 Star 的问题确实存在(靠 AI 驱动的反滥用打地鼠),但 Star 速度的大部分来自真实的新一批构建者,他们想参与这个时刻,就像 Kyle 当年想参与 Ruby 时代一样。 > *"不只是开发者,还有那些也许刚开始写代码、或者只是在 AI 时代才加入进来的人。那些项目在上涨,因为你想成为这个时刻的一部分。"* ## [46:36] GitHub Spark、低代码,以及为何 GitHub 始终展示代码 GitHub 曾以 Spark 做过试验,提供简单的应用构建与运行体验。结论是:对开发者而言,价值始终在于简单的运行时,而不是遮住代码的 UI 外壳。GitHub 有一条不可动摇的架构原则——始终向你展示代码。Kyle 描述的更大目标是降低那个"我有个想法、我把它做出来了"的第一次体验的门槛:任何人都应该能换个灯开关,而不需要先打开配电箱。 > *"每次我们试图在什么东西上面加一层外壳,我们仍然始终向你展示代码。这是一个原则,我们永远不会对你隐藏代码。"* ## [48:59] GitHub 最艰难的时代:14 倍增长、可靠性与规模挑战 GitHub 从 2025 年全年 10 亿次提交,增长到 2026 年 4 月每周 2.75 亿次——年同比增速达 14 倍,且仍在加速。这以全新的方式压垮了系统:不是以前的 Webhooks 可靠性问题(那些已经修复并重写了),而是只有在跨对象规模下才会出现的全新权限层故障。核心痛点是 MySQL 1,GitHub 多年来一直在拆解的一个单体权限数据库;大多数跨模块故障都源于权限层。与此同时,行业正在向 monorepo 回归,而 monorepo 在 git 基础设施上有独特的性能特征。Kyle 把这个扩展问题描述为"对角线式"的——垂直扩展和水平扩展都不够用,你得拆开那些运行了十五年几乎没动过的服务,重写它们。 > *"我们一个月做的事,比去年整年还多。几乎所有指标都在以远远超过预期的幅度增长。这正在以全新的方式——而不是旧有方式——破坏我们的系统。"* ## [60:42] Actions 作为 CI/CD 与自动化的计算层 Actions 早已超越 CI/CD,演变为通用的自动化计算层——这也是可用性压力的主要来源,因为每一个 Agent 任务和自动化工作流都会转化为更多构建和更多 CPU 消耗。GitHub 正通过自有数据中心和 Azure 云同步扩充算力,并在底层使用 Azure Dev Compute(快速小型虚拟机启动)来实现容器化 Agent 执行。减少故障的路径是一个阶跃模型:先做大的基础设施改造(需要时间),然后才能看到可用性的阶段性跃升,而不是逐步减少的噪声。 > *"Actions 是 CI 还是个人项目的核心计算层。更多工具、更多 Agent、更多 PR 意味着更多构建,更多构建需要更多 CPU,我们就是需要更多 CPU。"* ## [63:25] GitHub Copilot 的现状与未来 Copilot 的历史:以代码补全起步,后来将精力转向微调以满足行业对更高准确率的需求,再后来新一代模型出现,让微调变得不那么关键——导致 Copilot 的方向出现了一段时期的混乱。现在的架构在代码补全、新 CLI、新桌面客户端和云端 Agent 之间统一了一套 SDK 和 Agent 框架。Kyle 描述的未来覆盖整个 SDLC:安全漏洞修复、Issue 分类、文档漂移检测——而不只是写代码。剩下的硬问题是上下文与记忆:让 GitHub 能够"按 Kyle 的方式行事"——跨越他所有的依赖、偏好和团队上下文。 > *"我们认为,这不只是关于代码生成。真正的价值在于能够把这套以编程 Agent 为核心的能力,用于不仅仅是编程体验,还包括安全漏洞修复、每一个进来的 GitHub Issue。"* ## [69:45] 环境式 AI、后台 Agent 与 SDLC 的未来 Kyle 认为,整个行业仍然陷在一种"极度近视"的框架里,编程 Agent 只了解代码。他真正想要的是环境式 AI——把每一份规格文档、每一条邮件线索、每一次对话、每一条 Obsidian 笔记都带入决策过程,而不是一个被动等你查询的记忆工具,而是持续在后台运行、实时影响实现选择的上下文。OpenClaw 让他感兴趣,正是因为它把个人上下文和 Agent 行动连接了起来;但缺失的环节是在软件开发过程中让这些上下文真正可用。最极端的版本——AI 主动指引你而不是等着被问——是一种控制权的翻转,既让他兴奋,也让他有点不安。 > *"对我来说 AI 最有趣的是真正的环境式 AI。我在实现一个新功能,希望它能知道每一份规格文档、每一封邮件、我在网上进行过的对话、关于这个功能该怎么实现的一切,并能把这些作为决策的一部分。"* ## [74:30] OpenClaw、企业安全与面向 Agent 的新操作系统 微软专门为 OpenClaw 设置了一位 CVP——这很不寻常,毕竟微软并不持有 Anthropic。Kyle 解释:OpenClaw 展示了一个真正有价值的个人 Agent 应该是什么样子(完整的个人上下文、计算机操作,不只是聊天),而微软的任务是让这套东西在企业里跑起来——在 Windows 上做操作系统级别的沙箱,让你能在工作设备上运行 Agent 而不引发安全事故。Kyle 的类比框架是:微软是最初的操作系统公司,而 Agent 需要一个新的操作系统层。工作负载已经发生了根本性变化,正确的问题不再是"我们需要更多推理算力吗",而是"我们需要什么类型的算力来运行这些 Agent 工作流"——一直往下追溯到芯片层面。 > *"微软是最初的操作系统公司,这里是面向 AI 的新操作系统。操作系统需要和五年前看起来不一样,因为使用它们的不再只是你自己了。"* ## [79:24] Build 发布公告、WorkIQ、FoundryIQ 与微软背景 Kyle 预告了 GitHub 和微软在 Build 上的发布:WorkIQ(通过 MCP 提供 M365 上下文引擎,在跨所有工作资产进行回溯式提问方面表现强劲)和 FoundryIQ(同样的智能层,直接连接现有数据存储,无需迁移)。对企业开发者的价值主张是:"我周末怎么构建,在工作中就应该怎么构建"——但财富 500 强公司不能凭感觉写代码就直接上线,安全和合规门槛必须跟上开发速度。WorkIQ 和 FoundryIQ 的目标,是把周末级别的敏捷带入企业的上下文层,同时附带让它在大型组织里生存下去所需的治理能力。 > *"WorkIQ、FoundryIQ——这些上下文引擎强到出奇,我们已经把它们交给 GitHub 的开发者用了。你可以对工作上下文里的一切提问,效果出人意料地好。"* ## [83:02] swyx 应该问萨提亚·纳德拉什么? swyx 即将在 Build 上采访萨提亚·纳德拉,问 Kyle 该问什么。Kyle 的建议:追问萨提亚,他认为在两三年后哪些事情是可以被证实为真的——不是随口说说的未来学家问题,而是对微软现在正在押注什么的直接检验。外界对微软 AI 路线存在大量质疑,萨提亚给出一个直接的答案,既是一次真正的压力测试,也会是对开发者社区的一个有分量的信号。 > *"最好的问题是问他,两三年后他认为什么是真的。他看待这个 AI 问题、推理问题、token 问题的方式——为什么这套路线在两年后会有回报?"* ## 实体 - **Kyle Daigle**(人物):GitHub COO 兼微软开发者业务 CMO;在 GitHub 工作 13 年,亲手搭建了最初的 Webhooks 和平台 API 层。 - **swyx**(人物):Latent Space 播客主持人;从开发者布道师转型为播客主持,本次采访在 Microsoft Build 2026 现场进行。 - **GitHub Copilot**(软件):GitHub 的 AI 编程助手,现已整合在统一 SDK 下,覆盖代码补全、CLI、桌面客户端和云端 Agent。 - **WorkIQ**(软件):Microsoft 365 MCP server,为员工提供跨所有工作资产(Teams、邮件、日历等)的上下文引擎。 - **FoundryIQ**(软件):M365 智能层,直接连接现有企业数据存储,无需迁移。 - **GitHub Actions**(软件):GitHub 的通用计算与 CI/CD 自动化层;Agent 工作负载增长的主要 CPU 需求来源。 - **OpenClaw**(软件):Anthropic 的 Claude Code Agent 工具;被引用为具备完整上下文和计算机操作能力的个人 AI Agent 的范本。 - **npm**(软件):被 GitHub 收购的 JavaScript 包注册表;在 vendoring、slop fork 及依赖信任的供应链安全讨论中处于核心位置。 - **Mitch Hashimoto**(人物):HashiCorp 联合创始人,活跃的开源维护者;在讨论 vendoring 方式和 GitHub 维护者关系模型时被提及。 - **Thomas Dohmke**(人物):GitHub CEO;在讨论 PR 工作流演进时被提及。 - **Microsoft Build**(组织):微软年度开发者大会;本期节目的发布背景,也是 Kyle 新角色公告的场合。
走进 xAI:三个月搭出 Grok Imagine、视频生成 vs 世界模型、视频 Agent——Ethan He
Ethan He 在 NVIDIA 主导构建了 Cosmos 世界模型,2025 年中随即加入 xAI,在没有基础设施、没有数据、没有模型的起点上,三个月内从零搭出 Grok Imagine,并发布了首个大规模音视频联合生成模型。他与 swyx 和 Vibhu Viswanathan 逐层拆解完整技术栈:合成字幕管道、VAE 设计取舍、步骤蒸馏、音视频对齐,以及存储数 PB 视频训练数据背后隐藏的经济账。整场对话贯穿一个核心判断:扩散模型技术已基本成熟,视频质量的主要增量已经来自语言模型,而非视频模型本身——这一判断对视频 Agent、生成式 UI 和具身世界模型的走向都有直接影响。 ## [00:00] 开场钩子 这段对话截取自访谈后段,Ethan 在那里提出"视觉智能主要来自语言"这一颇为大胆的论断——他认为视频模型的质量提升越来越多地源于更强的 LLM 充当提示词改写器和编排器,而非扩散或流匹配架构本身的进步。 > *"每次你看到这些模型有所改进,我的判断是:大部分增益来自语言模型,而不是视频模型本身。"* ## [01:16] 介绍 swyx 和 Vibhu Viswanathan 在 Latent Space 录音室欢迎 Ethan,提到他曾多次出现在播客论文俱乐部——先是介绍 Cosmos 世界模型论文,后来又聊了混合专家(MoE)的工作。对话开头顺带提及当天同步发布的 Poolside 论文——一个完全开源、以 40 万亿 token 训练的 Gemma 量级模型——随后话题转向 Ethan 自己的职业轨迹。 ## [02:41] 从 NVIDIA Cosmos 到 xAI Ethan 在 NVIDIA 主导构建了 Cosmos,这是一个面向机器人领域的大型视频基础模型,旨在提供可仿真的物理世界环境,并于 2024 年底发布。当他意识到视频模型遵循与语言模型相同的扩展定律时,便开始寻找更多算力。xAI 给出了答案。他于 2025 年中加入,彼时 xAI 刚决定自研图像与视频技术栈,既无基础设施,也无数据管道和模型。他全程参与了预训练、后训练(参考视频转生成、视频续写),并在最后阶段带领一支小团队攻关实时长时序视频生成。 > *"我加入时,xAI 正准备搭建视频模型和多模态模型。没有基础设施,没有数据,没有模型。就几个工程师——我们用三个月搭出来,发布了第一个模型 Grok Imagine 0.9。"* ## [04:40] 从零到一搭出 Grok Imagine 三个月的时间线让 Ethan 自己也感到意外。他将其归结为三个因素:人才密度(工程师能力强,目标高度一致,每天通常只开一次同步会)、xAI 现有的数据与推理基础设施,以及他在 NVIDIA 经历过同一套建设流程的先验经验。真正的瓶颈是迭代速度:每天能跑几轮训练。基础设施强、算力充足,问题就暴露得快,每次失败的运行损耗也小,数周之内就能把那些不可避免的数据和管道错误全部筛查一遍。 > *"最重要的是人才。每个人都很强、很聪明,大家朝着同一个目标紧紧靠在一起。这大幅加速了进展——人与人之间的沟通带宽降到最低。"* Ethan 描述了一种规律:微小的数据或管道缺陷会造成超出预期的质量下滑,而快速迭代才能让这些问题浮出水面。在某个规模下几乎看不见的 bug,到了下一个规模就会酿成灾难。决定团队交付速度的,往往不是设计架构最精妙的人,而是那些能最快发现并修复问题的人。 ## [11:23] 图像与视频模型的训练方式 视频模型的训练需要合成文本-视频对,因为互联网上视频的标题和简介几乎从不准确描述视觉内容。第一步是人工标注:在 NVIDIA,标注员被要求尽可能详尽地描述视频片段中的每一个物体、人物、交互和对话。这些标注训练出一个早期 VLM,再由它大规模生成字幕。整条管道——视频→VLM→合成字幕→(视频,字幕)训练对——是 Cosmos 和 Grok Imagine 的共同基础。 图像模型必须先于视频模型构建:训练更快、存储需求更低,且学到的表示可以直接迁移到视频。Ethan 把图像模型比作视频模型赖以存在的地基。在 VAE 隐空间上运行的扩散变换器架构已成行业标准,但数据质量和字幕细粒度依然是模型质量的首要杠杆。 > *"构建视频模型,其实要先构建图像模型。所需的数据 100% 是语言与图像、或语言与视频的合成配对——因为互联网上的视频天然不附带文本。"* ## [20:09] 视频压缩、VAE 与实时性权衡 原始 MP4 压缩产生的 token 隐空间对变换器来说难以理解,因此业界转向学习型 VAE,以构建模型可训练的更平滑、更连续的隐空间。核心设计抉择在于时间维度的压缩力度。时间压缩效率高——相邻帧大量冗余——但代价是牺牲实时能力。Wan 2.1 采用 8×8 空间压缩和 4× 时间压缩;生成单个 token 需要重建四帧,使 200ms 以内的延迟在架构不变的情况下几乎不可能实现。 Ethan 将此定性为根本性权衡:高压缩率让训练成本低、预渲染视频的推理效率高,但彻底封死了所有需要响应实时用户输入的场景。世界模型恰恰需要做出相反的选择。 ## [23:26] 生成式 UI、Flipbook 与神经 OS Ethan 认为,如果推理成本降为零,视频生成的逻辑终点是对传统 UI 的全面替代:不再从服务器加载网页,而是模型根据用户意图实时生成。曾经刷屏的 Flipbook 演示就是这一思路的字面呈现——"浏览器"里的每个元素都由图像模型生成,点击链接触发的是新页面的生成,而非页面的拉取。 更深层的主张是:这并非噱头,而是世界模型应用于人机交互的最终形态。传统应用是输入到输出的固定映射函数;生成式 UI 则是一个可以产出任意界面的模型,无需开发者预先构建。Ethan 将其称为"神经 OS"——用户意图与渲染像素之间的鸿沟彻底消失。 > *"想象互联网不存在,你输入 google.com——模型应该展示什么?模型可以凭空想象。这些网页完全不存在,所以我可以探索任何东西。"* 短期瓶颈在于推理成本。当前视频模型在没有大量蒸馏的情况下无法达到交互帧率。但 Ethan 将其视为一个有明确解决路径的工程问题,而非根本性障碍。 ## [33:26] 训练大型视频模型的成本 训练大型视频模型的总成本与训练中等规模语言模型大体相当,但成本结构截然不同。算力部分相近,但存储和数据搬运的占比远超 LLM 从业者的预期。10 亿条视频、每条 5MB,就需要 5PB 的原始存储。VAE 特征还要额外存储一遍,规模大致相当——总量达数十 PB。仅 AWS S3 的存储费用,5PB 标准存储每月约 10 万美元,数据出口流量费用甚至高于存储本身,而每次训练都要完整拉取一遍全量数据集。 > *"光存储视频的成本就相当高。5PB 放在 S3 标准存储,每月约 10 万美元。出口流量——把这些视频下载下来——我估计比存储还贵,每次训练大概要拉取一遍。"* 这意味着视频模型研发在 GPU 算时之外,同样受制于数据基础设施。没有高效数据管道的团队,每做一次实验都要付出额外的倍数代价。 ## [38:20] 蒸馏、GAN 与视频快速推理 训练阶段的成本基本固定;推理阶段则有更大的优化空间。步骤蒸馏——训练一个小模型,用远少于大型教师模型的去噪步骤复现其输出——可将推理成本压低 10-25 倍。训练至收敛的流匹配模型通常需要约 100 步;生产环境一般跑 4-8 步。在极端情况下,简单的图生图任务可以做到单步完成。 Ethan 给出的直觉:教师模型必须学习整个互联网视频的完整分布,复杂度极高;而蒸馏后的学生模型只需匹配教师,目标固定且简单得多。一致性模型和 LCM 路线遵循相同逻辑。在 Cosmos 中,线上服务根据质量要求分别使用 4 步和 8 步两种变体。 GAN 在判别器角色上依然有价值:GAN 判别器能在蒸馏过程中施加纯分数匹配损失无法捕捉的真实感约束;Ethan 指出,尽管理论出发点不同,一致性模型与 GAN 在实际部署上正在走向趋同。 ## [42:37] 音视频联合生成与 Grok Imagine 0.9 Grok Imagine 0.9 是首个大规模部署的音视频联合生成模型。核心难点在于模态对齐:文本-视频配对相对充足;文本-音频配对稀少;语义层面对齐的音视频配对在规模上几乎不存在。语音 token 具有准离散性,可以用类语言建模的方式处理,但音乐是连续的,需要完全不同的表示方式。 训练联合模型需要从头构建合成音频字幕管道,并在 VLM 力不从心的地方依靠人工标注——尤其是音乐部分,VLM 的表现普遍不理想。在不损害视频质量和音频真实感的前提下,将文本、视频、音频三个模态统一对齐,是 Ethan 眼中这个项目中最难的部分。 > *"音频有两个分量:离散分量——语音——和连续分量——音乐。音乐完全不同,无法用离散 token 建模。这已经够难了,更不用说还要把文本、视频、音频三者同时对齐。"* ## [49:50] 什么才算世界模型? Ethan 的定义包含三个要素:实时、交互、长时序视频生成。他将这三点视为相互独立的要求,而大多数现有模型在这三点上均未做到。 实时,意味着以显示帧率生成——日常使用需要 60fps,游戏场景需要 300fps,数字人需要 200ms 以内的响应延迟。当前视频模型做不到;单是 VAE 的时间压缩就会引入延迟,使得在架构不变的情况下 200ms 内响应几乎不可能。交互,意味着模型能接受用户可以提供的任何输入模态——键盘、鼠标、语音——并给出连贯的响应。长时序,意味着在数分钟的时间跨度内保持一致的物理规律、人物身份和因果逻辑,而非仅仅数秒。 > *"世界模型是实时、交互、长时序的视频。当前视频模型这三点都做不到。这就是它们还不是世界模型的原因。"* ## [57:07] 参考视频、长上下文与视频记忆 与语言模型上下文扩展的类比十分直接:视频模型目前还处于 2000-8000 token 的时代,需要扩展到百万 token 量级的上下文,才能生成连贯的长视频。Ethan 描述了他在 xAI 构建的参考视频功能(类似 Cameo)——其机制是把精选历史帧注入模型上下文,而非把完整视频全部带入。 FramePack 的启发式方法——最近一秒以完整分辨率存储,更早的帧逐渐压缩——指向了正确的方向:模型从历史中筛选相关上下文,而不是暴力保留完整序列。Ethan 预计,这种上下文管理终将成为模型本身的能力,而非停留在外部工具层面的启发式——就像 KV 缓存管理正在被吸收进模型内部一样。 ## [61:27] xAI 文化、研究氛围与第一性原理 swyx 指出,xAI 在研究传播上严重低估了工作的实际价值——伴随 Grok Imagine 发布的博客文章停留在高层能力介绍,完全没有 Ethan 刚刚花了一个小时展开的技术深度。Ethan 外交式地表示认同,指出不同实验室有不同的表达风格。 他描述的 xAI 工作文化极度精简:几乎不开会,没有繁文缛节,技术决策可以直接触达最高层,强大的基础设施团队保障了极快的迭代速度。代价是公司优先级转变迅速,这也是他最终转向独立研究的部分原因之一。从模型架构到产品,团队始终坚持从问题的物理本质出发,而非从竞争对手已经发布的东西出发。 > *"你刚刚描述的一切都是顶尖水平,没有其他人做到过。然后你就发了那篇带曲奇图片的博客。我当时心想:这还不够。"* ## [71:01] AI 安全、水印与提示词改写 Grok Imagine 在所有有法规要求的司法管辖区部署了水印,并构建了与 xAI 社交平台基础设施集成的下架管道。在水印技术上,Ethan 对 SynthID 的长期鲁棒性持怀疑态度:该技术已公开记录,Reddit 用户已经逆向工程出 Google 使用的精确频率模式,可以从任何生成图像中将其剥离。他预计水印检测将演变成一场军备竞赛。 关于提示词改写:视频扩散模型会字面理解指令。用户输入"一只猫",模型就会生成一只静止在白色背景上、没有任何动作的猫——因为训练数据的配对是对物理场景极为详尽的描述。生产系统会在前面叠加一个大语言模型作为提示词扩写器,把用户的简短指令转换成视频模型赖以训练的详细物理描述。这也是 Ethan 认为语言模型在视频质量中越来越核心的原因之一。 ## [74:26] 视频 Agent 与 AI 辅助创作 Ethan 在开场就提出的核心论断:视觉智能现在主要来自语言。扩散模型架构已基本收敛;增益来自更大、更强的 LLM——它们改写提示词、规划视频序列、调用编辑工具、拼接片段。在 Cosmos 中,提示词改写器甚至比视频模型本身还要大。 视频 Agent 将这一逻辑进一步延伸:不再一次性生成完整视频,而是由 Agent 规划制作流程,将视频生成模型作为工具,与确定性编辑操作(文字叠加、调色、剪切)配合调用,迭代至符合规格为止。Ethan 预测,到 2025 年底,视频 Agent 的产出将达到可发布的制作质量——无需人工剪辑师介入就能生成可用的视频。 > *"视觉智能其实主要来自语言。每次你看到这些模型有所改进,我的判断是:大部分增益来自语言模型,而不是视频模型本身。"* ## [88:48] 语言模型如何解锁更好的视频 LLM 为视频模型写提示词比人类写得更好,因为 AI 模型理解 AI 模型的训练分布。语言模型知道扩散模型需要明确的物理描述,而非诗意的简写,并能自动生成正确的提示词格式。除了写提示词,Agent 还可以对确定性视频编辑工具使用精确操作(精确的文字叠加、帧级剪切),处理概率性扩散模型难以精确应对的任务,让随机模型专注于生成,把精度交给工具。 Ethan 的时间线:到 2025 年底,视频 Agent 产出将达到制作级质量,这一拐点在已经上线的产品中已经可见。 ## [92:31] 机器人、物理 AI 与具身世界模型 Ethan 对机器人领域的预测颠覆了常见叙事:物理 AI 的突破,可能不是靠把机器人部署到真实世界,而是靠视频世界模型对物理环境的仿真能力强大到足以等效提供具身经验。一旦模型能够实时控制计算机界面并具备完整的因果理解,扩展到机器人控制就只是增加一个工具的事。从"能操控屏幕的视频模型"到机器人控制器的路径,可能比现有机器人学习系统到达同一目标的路径更短。 ## [93:54] Ethan 为何离开 xAI 研究抱负与公司优先级出现分歧。xAI 的重心转移,使某些研究方向——尤其是语言模型侧——在内部变得难以推进。Ethan 还指出,驱动他离职的洞见,与他那个"大胆论断"如出一辙:如果语言模型现在是视频质量的首要驱动因素,那么最有杠杆效应的工作是在语言模型上,而非视频模型上。他把离开定性为追随证据指向、而非心存不满。 ## [95:32] 上下文自管理与 LLM 的未来 Ethan 正在研究的问题:能够感知自身上下文状态并自主管理的语言模型,而不是依赖外部工具层的启发式——比如在填充度达到 80% 时触发自动压缩。他指出,视频模型在长时序生成上面临的上下文管理难题,在两种模态中如出一辙。他以 Claude Code 在用户消息中附加当前时间戳的做法为例,认为这是让模型具备上下文感知的早期尝试,并预计这一模式终将被纳入模型训练,而非永远作为外部脚手架存在。 > *"语言模型意识不到自己的上下文长度还剩多少。一旦到了 80% 左右,自动上下文压缩就会触发,而模型在工作时对此毫无察觉。"* ## [99:59] Ethan 的职业轨迹与收尾思考 Ethan 回顾了十年间的几次跃迁:在 NVIDIA 和 ResNet 原作者一起做图像识别、在 Facebook AI Research 做自监督学习、在 NVIDIA Cosmos 做规模化训练、在 xAI 接触极致算力。尽管在顶级会议以第一作者发表过论文,他还是被所有顶尖博士项目拒之门外,这把他推向了工业界。回头看,他把自己的职业轨迹理解为始终跟随扩展前沿——从图像识别到自监督学习,再到视频,再到 LLM——并认为在 ML 领域内跨方向切换,比大多数从业者想象的要容易得多。 > *"在 ML 内部,跨方向切换其实比你想的更容易。很多人认定'我做计算机视觉,就得一直做计算机视觉'。但从我的经验来看,基础是可以迁移的。"* ## 实体 - **Ethan He**(人物):前 xAI 研究员,从零搭出 Grok Imagine;此前主导 NVIDIA Cosmos 世界模型;现专注于 LLM 研究 - **swyx**(人物):Latent Space 联合主持人;专注 AI 工程与研究的技术访谈 - **Vibhu Viswanathan**(人物):Latent Space 联合主持人;本期联合访谈者 - **Grok Imagine**(软件):xAI 的图像与视频生成产品;首个版本(0.9)是首个大规模音视频联合生成系统 - **NVIDIA Cosmos**(软件):面向机器人仿真的开源视频基础模型;Ethan 加入 xAI 前的主要项目;2024 年底发布 - **xAI**(组织):马斯克创立的 AI 实验室;以快速迭代文化和极致算力资源著称 - **Flipbook**(软件):实时生成式 UI 的病毒式演示;所有界面元素均由图像模型实时生成 - **SynthID**(软件):Google 的 AI 水印技术;Ethan 指出其模式已被公开逆向工程 - **步骤蒸馏**(概念):将模型训练成用远少于教师模型的去噪步骤复现其输出的技术;可将推理成本降低 10-25 倍 - **VAE**(概念):学习型视频压缩方案,构建平滑隐空间;时间压缩效率高,但会产生实时延迟权衡 - **世界模型**(概念):Ethan 的定义——实时、交互、长时序视频生成;有别于普通视频生成 - **视频 Agent**(概念):LLM 编排视频生成模型、编辑工具和确定性操作,以制作制作级视频的系统 - **FramePack**(概念):面向长上下文视频生成的渐进时间压缩方案;最近帧以完整分辨率存储,历史帧逐步压缩
Devin’s 80% Moment: Background Agents, 7x PRs, & End of Hand-Held Coding — Walden Yan & Cole Murray
🔬 苦涩的教训即将降临蛋白质领域 — Alex Rives,BioHub
Alex Rives 是 BioHub 科学负责人,曾在 Meta FAIR 主导 ESM-1 到 ESM-3 的研发。他来到节目,向 Brandon 和 RJ 解释为什么他花了八年时间押注:在蛋白质序列上扩展掩码语言模型,终将解锁生物结构、功能与设计。本集涵盖:从 UniRef 迁移至宏基因组数据如何恢复 ESMC 的缩放定律、稀疏自编码器特征图谱在无任何监督的情况下如何自发再现百年生化分类体系,以及首次通过世界模型搜索设计出具有治疗级亲和力的单链抗体的成功案例。Rives 还详细阐述了 BioHub 的 5 亿美元虚拟生物学计划,以及他认为能够产出细胞通用模型的核心原则。 ## [00:00] ESMC 设计抗体——预览 开场片段剪自访谈后段,Rives 正讲到 ESMC 在可编程生物学上的实现路径。他描述了对蛋白质世界模型进行搜索以满足设计标准的过程,并提到团队已经设计出 mini-binder,最值得关注的是:设计出了具有治疗级结合亲和力的单链抗体片段(SCFVs)。这段预览先于正式开场出现,预示着整集的核心走向。 ## [00:33] 苦涩的教训降临蛋白质领域 Brandon 和 RJ 介绍 Alex,称他或许是"蛋白质生物学领域目前最信奉苦涩的教训的人"。Rives 欣然接受这个标签。他追溯自己的信念源头——2018 年,他在 Meta FAIR 的团队用掩码词预测在蛋白质序列上训练了第一个 transformer 语言模型,随后看到结构与功能的涌现表征在没有任何显式监督的情况下自发出现。核心直觉借鉴自 Zellig Harris 1954 年关于分布结构的论文:氨基酸能够出现的上下文,由蛋白质的结构、功能与进化角色共同决定。将这种统计压力施加于来自生命全域的数十亿条序列上,模型应当被迫习得支配蛋白质生物学的隐变量。 > *"我相信缩放定律。"* ## [06:00] ESM 谱系:从 ESM2 到 ESMC Rives 回顾了 ESM 的四代演进。ESM2 展现出缩放收益,但在 100 亿参数处遭遇收益递减——不是因为模型饱和,而是因为数据饱和了。UniRef 这个黄金标准蛋白质数据库,收录的是可培养生物,严重偏向人类相关生物学。ESMC 的解决方案是宏基因组数据:从热液喷口、极地土壤和污水中提取序列,直接由原始环境 DNA 读段拼装而来,无需物种归属,包含不完整拼接片段。将数十亿条宏基因组序列加入训练后,整洁的对数线性缩放定律得以恢复——小规模实验能够准确预测 60 亿参数旗舰模型的表征保真度。 > *"缩放不再有收益递减。ESM2 受限于数据,而非算力。"* ESMC 本质上是一个标准 transformer,采用标准掩码目标,没有 AlphaFold 式的 MSA,没有几何归纳偏置。Brandon 和 Rives 短暂讨论了 ESM3 的多轨道架构是否走了一段有价值的弯路;Rives 认为两种范式各有其位,但 ESMC 的结果表明,在当前数据规模下那些先验并非必要。 ## [18:30] 机械可解释性与蛋白质特征图谱 BioHub 团队对 ESMC 模型族(300M、600M、6B)各层训练稀疏自编码器,从中提取蛋白质表征空间的内在特征几何。浮现出的结构与生物学在一个世纪实验中归纳出的还原层次高度吻合——从基本氨基酸化学,向上延伸至结构模体、结构域家族和大功能主题——而训练过程中从未输入任何分类知识。 > *"任何氨基酸的选择,几乎与序列中所有其他氨基酸的选择完全纠缠在一起。要做好这件事,模型就必须开始拥有那些代表生物学的隐变量。"* 一个具体发现:模型将亲核肘——一种被认为在多个无关蛋白质家族中独立进化的催化模体——编码为单一特征,并在所有这些家族中激活。团队还构建了一个包含 68 亿个非冗余蛋白质的结构图谱,为其中 11 亿个聚类代表预测了结构,并利用稀疏自编码器特征连接了进化上相距甚远的基因编辑系统。被纳入这些聚类的部分蛋白质功能未知;Rives 将它们视为一个待发现队列。ESM 图谱的第一个版本已被外部团队用于发现一种新型基因编辑系统。 ## [35:30] 用 ESMC 设计抗体 Rives 将蛋白质设计描述为世界模型搜索:对生成模型求逆,找到满足目标结合标准的序列。mini-binder 现已成为常规;纳米抗体和 SCFV 对于基于结构预测的方法仍具挑战性,因为抗体进化最大化多样性而非收敛于受限折叠,这使得基于 MSA 的方法用武之地有限。而 ESMC 在大规模多样性上训练,恰恰是表征应当最丰富的地方。 > *"抗体从进化信息中获益的方式,很可能与预测分子的结构拓扑完全不同。"* 团队报告 SCFV 设计在少量实验轮次内达到治疗级亲和力,并指出 SCFV 可被重新格式化为完整 IgG。ESMFold 2 是建立在 ESMC 表征之上的结构预测头,无需 MSA,每条序列推理仅需数秒,使得全蛋白质组多聚体图谱绘制成为可能。Rives 表示该模型目前是开放权重多聚体预测的最新水平。 ## [42:00] BioHub 的愿景:走向可编程生物学 入职 BioHub 六个月后,Rives 阐述了该机构的架构:一家慈善机构,在开放科学使命下,将前沿实验生物学、前沿测量技术与前沿 AI 整合于一体。他将终极目标定位为个性化生理预测模型——不是一粒药,而是一个能够追踪从蛋白质层面分子事件,经由细胞回路,直至在特定人类基因组中疾病表现的系统。 > *"我们正在为这个新范式构建一座科学机构。"* 他梳理了必须依次建模的生物复杂性层级:蛋白质(当前代),细胞(下一代),组织与系统,生理。从蛋白质到细胞的跨越,需要目前尚不存在的数据,以及很可能尚未被发明的建模方法。当前的"虚拟细胞"模型泛化能力弱——它们能很好地表示训练数据,但在新颖干预情境下预测能力不足。 > *"面对从未观测过的新情境下的新型干预,它们预测能力极为有限。"* ## [57:00] 虚拟生物学计划与细胞数据的规模扩展 BioHub 近期宣布拨出 4 亿美元用于内部数据生成和测量技术,另拨 1 亿美元撬动外部投入——合称虚拟生物学计划。Rives 将此定位为种子资金:实际所需数据量远超于此,希望 BioHub 的承诺能引发更广泛的科学界投入。 他提出三项数据原则:速度(蛋白质数据花了半个世纪积累;细胞等不起那么长时间)、泛化性(训练分布必须横跨细胞类型和情境下的大量多样干预,类比宏基因组对于蛋白质的广度),以及反馈(由模型预测引导的主动实验循环——类似于将 RLVR 应用于湿实验室生物学)。扰动测序、空间转录组学和跨模态单细胞测量是当前已可大规模运行的技术。 在算力方面:ESMC 在约 10 亿条序列上训练。估计存在约 1000 亿条,而模型甚至尚未充分利用当前图谱中的 68 亿条。将算力提升 100 倍会有帮助,但必须配以相应比例的数据扩展。收益何时递减,Rives 将这一问题留给实验来回答——ESM2 的曲线看起来已经饱和,直到宏基因组数据将其一笔抹去。 > *"我们需要在几年内搞清楚如何做到这一点。通用 AI 发展的速度意味着生物学将从根本上受限于实验科学和数据。"* ## 实体 - **Alex Rives**(人物):BioHub 科学负责人;ESM-1、ESM-2、ESM-3、ESMC 和 ESMFold 2 的架构师;前 Meta FAIR。 - **Brandon**(人物):Latent Space AI for Science 子系列联合主持;隶属 Atomic AI(RNA 疗法)。 - **RJ Honicky**(人物):联合主持;Miro Omix 联合创始人兼 CTO。 - **ESMC**(软件):BioHub/EvoScale 第四代蛋白质语言模型;参数量 300M 至 6B;在约 10 亿条序列(含宏基因组数据)上训练;MIT 许可开源。 - **ESMFold 2**(软件):基于 ESMC 表征的结构预测模型;无需 MSA,每条序列推理仅需数秒;开放权重多聚体预测当前最优水平。 - **ESM**(软件):Evolutionary Scale Modeling——由 Rives 团队开创的多代蛋白质语言模型谱系(ESM-1、ESM-2、ESM-3、ESMC)。 - **稀疏自编码器 / SAEs**(概念):机械可解释性工具,用于提取 ESMC 表征空间的内在特征几何;无需监督即可揭示生物可解释的层次结构。 - **苦涩的教训**(概念):Richard Sutton 的论点:利用算力与数据的通用方法,一贯优于编码领域知识的方法;此处应用于蛋白质生物学的缩放。 - **宏基因组测序**(概念):环境 DNA 测序,无需培养即可捕获微生物和病毒多样性;正是这一数据扩展恢复了 ESMC 在 UniRef 饱和后的缩放定律。 - **BioHub**(组织):Chan Zuckerberg BioHub;在实验生物学、测量技术与 AI 交汇处构建开放科学工具的慈善机构。 - **虚拟生物学计划**(概念):BioHub 投入 5 亿美元(4 亿内部,1 亿外部)以生成训练细胞通用模型所需的细胞尺度数据。 - **AlphaFold**(软件):DeepMind 的结构预测系统;使用 MSA 和几何归纳偏置;与 ESMC 的无 MSA 方案形成对比。 - **UniRef**(软件/数据库):黄金标准策展蛋白质序列数据库;ESM2 的训练数据,后来被发现是造成 ESM2 缩放瓶颈的根源。 - **亲核肘**(概念):出现在多个进化上无关蛋白质家族中的催化结构模体;被编码为单一 ESMC 特征,在所有相关家族中均可激活。 - **Zellig Harris**(人物):语言学家;1954 年论文《分布结构》阐述了词语上下文编码意义的思想——Rives 援引此论文作为氨基酸上下文统计应能编码生物功能的理论先驱。
⚡️ 为什么你应该构建科幻小说 — Sunil Pai,Cloudflare
这期闪电对话中,swyx 与 Sunil Pai 坐在一起——Sunil 是 Cloudflare 开发者平台负责人,swyx 称他为 Code Mode 的发明者。两人围绕三条主线展开:Cloudflare 押注 Durable Objects 和 Dynamic Workers 作为 AI 智能体底层基础设施、他与 Vercel 之间那场差点断送职业生涯的推特误会,以及为什么 fork 代码是一种尊重而非掠夺。Sunil 最后向开发者发出直接挑战:别再搭第十个智能体框架了,去构建科幻吧。 ## [00:00] Code Mode 是谁发明的? 开头三秒是片头板。紧接着,swyx 介绍 Sunil 是"Code Mode 的发明者",Sunil 半开玩笑地欣然接受,自称从小就在思考这件事。这是两位老朋友之间的纯粹玩笑,不是从后面内容剪出的预告。 ## [00:03] 介绍与 Sunil Pai 的背景 swyx 重新介绍 Sunil——老朋友,也是 AIE Europe 的主题演讲嘉宾。简短的叙旧交代了后续背景:Sunil 目前专注于 Cloudflare 的 AI 智能体平台,而 Anthropic 刚发布的 Cloud Managed Agents 恰好给了他一个具体的对标对象。 > *"我就是想聊聊 Cloudflare 那边最近发生的一切。"* ## [00:30] 聊聊新的云托管智能体 Anthropic 新推出的 Cloud Managed Agents——一个用于构建和部署长期运行智能体的平台——是 Sunil 的切入点。他说他喜欢 Anthropic 团队,也觉得这个产品有意思,但看完规格说明后,他的第一反应是竞争心:Cloudflare 可以做得更好。swyx 追问 Cloudflare 到底有什么底气支撑这个判断。 > *"我看完这个产品,第一反应是——我想竞争。我觉得用 Workers 和 Durable Objects 我们能做出更好的东西。"* ## [01:10] Cloudflare 核心基础设施:Durable Objects 与 Dynamic Workers Sunil 点名了他认为每个智能体平台最终都需要的两个原语。Durable Objects 是有状态的无服务器单元——他主张这是世界上第一个在基础设施层实现 actor 模型的方案,而非用户态的库实现。Dynamic Workers 是 Cloudflare 对安全运行 LLM 生成代码的回答:重新设计的 eval,零启动时间,可配置的 API 接口,出站流量默认锁定。两者结合,让 Cloudflare 能在沙箱计算中运行智能体步骤,无需启动完整虚拟机。 > *"这是世界上第一个在基础设施层实现 actor 模型的方案,不是在用户态。"* ## [02:34] Cloudflare 如何设计 AI 智能体架构 由同事 Matt Carey 构建的 Cloudflare MCP 服务器展示了 Dynamic Workers 的实际效果。Cloudflare API 有 2600 个端点——每个端点暴露一个工具会把任何 LLM 的上下文窗口打爆。取而代之的方案是把所有功能收拢进两个工具调用:`search` 和 `execute`,背后都是运行在隔离环境中的 JavaScript 代码。智能体提交代码,隔离环境执行,结果返回——一来一回,带类型检查。 > *"一次工具调用,无需与 LLM 来回沟通,而且带类型检查。说白了,LLM 本来就很擅长运行代码。"* ## [03:40] 智能体软件的未来与标准化编排器 swyx 问 Anthropic 规格里的编排器概念能否成为跨平台标准。Sunil 的回答是:没有人造出 AI 智能体领域的 React。他刻意拿 2013 年的 React 做类比——JSConf 演讲结束后观众纷纷走人,指责 Facebook 痛恨 JavaScript,然而 React 最终定义了此后所有 UI 框架。现在每个人都在用自己的方式搭自己的编排器,在不同语言、公司、基础设施之间几乎无法复现。swyx 提出 skill——纯 markdown——或许已经是那个统一层;Sunil 觉得这个想法很有吸引力,但担心它的具体性上限。 > *"太难了,但我脑子里的框架是:没有人造出 AI 领域的 React。"* ## [06:11] "垃圾 fork" 现象与开源文化 swyx 提到"垃圾 fork"——用 AI 生成的热门项目 fork——Sunil 立刻来了兴致。在他看来,fork 是一种声望和尊重的表达,不是抄袭。React 生态就是靠各种 fork 长起来的。他鼓励任何想做 Cloudflare Agents SDK 竞品的人放手去干:大家都 fork,大家都赢。 > *"在我的文化里,fork 是声望和尊重的象征。"* ## [06:36] Vercel 与 Cloudflare 的社交媒体误会 在 JSConf España,Sunil 遇到了来自 Vercel 的 Harvey,相处愉快。他发现了 Vercel Labs 的 Just Bash——一个纯 JavaScript 实现的 Bash——想把它移植到 Cloudflare。午饭时间他让 Opus 对着代码库跑了一遍,拿回 5000 行代码,打算周一整理好再发正式 PR。他睡了一觉,醒来发现 Cloudflare 管理层发来私信问他有没有看推特:Vercel CTO 公开批评了这份代码,把它定性为公司行为而非个人业余项目。Sunil 直接回复,解释了来龙去脉,然后看着半个互联网涌来为他辩护。 > *"我上推特一看,Vercel CTO 在骂我的东西,说……'这是 Cloudflare 干的。'"* ## [09:45] fork 在软件开发中的重要性 swyx 把 Vercel 这件事和一个更大的模式联系起来:某个泄露的代码库有人用 Python 重写以绕开许可证,律师最终裁定仍属衍生作品。swyx 真正想说的是:应该鼓励垃圾 fork——fork 一个依赖,把它内化,自己掌控——这样就能避免 LiteLLM 或 Axios 那种上游突然断掉的惨剧。Sunil 认同:NPM 出现之前,软件就是通过 Usenet 以同样的方式传播的,缩短 fork 周期不过是这一传统的延续。 > *"fork 是我们构建软件的根本方式。"* ## [12:04] 现代开源仓库的对抗性本质 Cloudflare Agents SDK 已经完全关闭了 PR 贡献入口,现在只接受 issue。Sunil 在大会上和开源维护者交流,大家都有同感:仓库已经变成对抗性领地,最危险的攻击向量是看起来完全合规、仔细读才发现有问题的伪装安全报告。swyx 把这件事和 Peter 早上关于 Claude Code 的演讲联系起来——当前最大的攻击面是一个被攻陷的依赖进入 Claude Code,这会让所有使用它的开发者都暴露在风险中。 > *"开源仓库已经变得如此对抗,以至于人们几乎害怕在这个领域获得知名度。"* ## [13:04] 结语与鼓励原创 Sunil 的结语很直接:别再造第十个智能体框架了。去构建科幻。为你的家人做点东西。用 Agent SDK,但把它用在那些基础设施和 LLM 几乎撑不住你的地方——因为下一次质变就藏在那里。swyx 以 Sunil 2018 年在 React Rally 造出的"alpha thought leading"收尾。 > *"构建科幻。为你的家人做东西。你拥有改变世界的巨大能动性,我希望大家都能做出真正原创的东西。"* ## 实体 - **swyx** (人物):Latent Space 主播;Sunil 的老朋友;2018 年 React Rally 上因 Sunil 的一句话创造了"alpha thought leading"。 - **Sunil Pai** (人物):Cloudflare 开发者平台负责人;swyx 称其为 Code Mode 的发明者;AIE Europe 主题演讲嘉宾。 - **Cloudflare** (组织):云平台公司;基于 Durable Objects 和 Dynamic Workers 构建智能体基础设施。 - **Anthropic** (组织):AI 公司;推出了 Cloud Managed Agents,即 Sunil 定位 Cloudflare 要竞争的产品。 - **Vercel** (组织):前端云公司;Sunil 使用其 AI SDK;推特误会的主角。 - **Durable Objects** (软件):Cloudflare 的有状态无服务器原语;Sunil 主张这是世界上第一个在基础设施层实现 actor 模型的方案。 - **Dynamic Workers** (软件):Cloudflare 功能,用于在安全、零冷启动的隔离环境中运行 LLM 或用户生成的 JavaScript。 - **Just Bash** (软件):Vercel Labs 项目——纯 JavaScript 实现的 Bash——Sunil 在推特事件发生时正在将其移植到 Cloudflare。 - **MCP** (概念):Model Context Protocol;Cloudflare 的 MCP 服务器利用 Dynamic Workers 将 2600 个 API 端点收拢进两个工具调用。 - **垃圾 fork** (概念):AI 生成的现有项目 fork;Sunil 将其定性为开源 fork 文化的延续——是尊重的表达,不是抄袭。
⚡️ Google 的开源 AI 战略 — Omar Sanseviero,Google DeepMind
在 AI Engineer London 现场,swyx 与 Google DeepMind 开发者体验负责人 Omar Sanseviero 进行了一场紧凑的 30 分钟对谈,覆盖 Gemma 4 的架构创新、Google 的开源模型战略,以及开发者体验团队的下一步扩张。Omar 拆解了逐层嵌入的设计逻辑,谈到微调热潮为何降温、Kaggle 加入 DeepMind 对基准测试意味着什么,以及"自动研究"究竟是真突破还是炒作。 ## [00:00] Gemma 4 介绍与团队职责 Omar 的一句话概括:Gemma 4 是"迄今发布的最强开源模型",核心约束是在有限参数规模内榨取最高智能密度,同时支持完整的多模态输入,并将权重体积控制在本地推理可接受的范围内。 > *"我们真的尽力把每个参数的智能压缩到极致。"* ## [00:23] 有效参数与激活参数的区别 Gemma 4 小模型的关键架构变化是在每个 Transformer 块中插入一张逐层嵌入表。由于这是查表操作而非矩阵乘法,那 30 亿个嵌入参数无需常驻 GPU 显存——可以放在 CPU 或磁盘上,只有 20 亿个激活参数参与实时计算。Omar 坦言这个方案本就是为端侧场景量身设计的:在更大规模下,稠密或 MoE 布局才是更合适的选择。 > *"Gemma 4 模型是 E2B。也就是说,加载进 GPU 的有效参数量是 20 亿。但它实际上有将近 50 亿参数,其中 30 亿可以放在 CPU 或磁盘上。"* ## [01:43] 端侧使用场景与 Gemini Nano 集成 Pixel 手机和三星高端机型出厂内置 Gemini Nano,而 Gemini Nano 是在 Gemma 3N 架构基础上训练的——这套架构专为手机硬件约束设计。Gemma 4 的参数卸载思路同样适用于这些更小的变体。当 swyx 问到能否扩展到 290 亿至 310 亿参数级别时,Omar 只说"我们正在做大量实验,敬请关注"。 > *"买了这些高端手机,开箱就能用 Gemini。"* ## [03:14] 模型发布背后与开发者生态 Gemma 团队规模比外界预想的小——两三个 PM、一名市场人员,加上核心工程师和研究员。让发布变得复杂的是外部协调网络:50 家合作伙伴(llama.cpp、Ollama、MLX、Hugging Face、vLLM、NVIDIA、AMD 等)并行对齐,同时还要与 Google Cloud、Vertex、ADK 和 Android 内部联动。Gemma 4 发布时还随附了与 Android Studio 智能体模式的原生集成,让开发者可以在本地运行 Gemma 4 推理辅助编码。 > *"Gemma 4 发布涉及将近 50 家外部合作伙伴,是迄今最复杂的一次发布。"* ## [04:29] 离线与 API 使用之别及未来模型演进 离线与隐私的区分是真实存在的,但这只是问题的一部分。Omar 划了一条更清晰的线:当前本地模型在能力层面已经相当出色——函数调用、指令遵循、智能体任务都表现良好,但知识密度仍有差距,要可靠地召回冷门事实还是需要大模型。他的一两年预判:Gemini Pro 级别的模型将完全在端侧运行,彻底解锁现在必须依赖 API 连接才能用的那些体验。 > *"我确实认为,一两年后我们会进入一个新阶段——可以直接在手机上运行 Gemini Pro 级别的强大模型。"* ## [06:26] Gemma 4 多模态能力与当前局限 Gemma 4 继承了 Gemini 3 的研究底座,即便是 20 亿参数的版本也具备音频理解能力(语音识别、语音转译文字、基于音频片段的问答)和视觉能力(目标检测、指向定位、图像描述)。Omar 点名了两处明确的缺口:目前不支持图像分割,同一个提示词里同时输入视频和音频也还不行——两者需要作为独立流分别传入。原生语音输出正在探索中,但尚无任何公告。 > *"我们可以分别理解视频输入或音频输入,但如果想在同一个提示词里同时传入视觉部分和音频部分,这方面还需要继续改进。"* ## [08:08] 多语言分词器的设计洞察 Gemma 的分词器与 Gemini 共用同一套,这个设计让它在 140 种语言上拥有极强的多语言基础。Omar 举了个具体案例:以 Gemma 3 为基座,针对越南语等东南亚语言进行微调,其表现可以超越英语基准分更高的其他基座模型。原因在于这套分词器能捕捉到语言本身的词汇单元,而不是把非拉丁文字强行拆成针对英语优化的子词片段。 > *"如果把所有这些模型都针对某种东南亚语言——比如越南语——进行微调,Gemma 的结果会更好,哪怕其他基座模型在基准上本来分更高。"* ## [09:30] Google 开发者体验团队亮相 AI Engineer 伦敦是 DeepMind 的大本营,因此带着完整团队出席 AI Engineer Europe 是一次刻意的宣示。Omar 带来的不只是开发者体验路演,而是横跨 Gemma 4 开发、文本扩散生成、机器人、端侧 ML 和 Android 的研究人员。swyx 直接点出了这个团队的覆盖广度:"这是业界范围最广的实验室,什么都做,连海豚研究都有。" > *"我们带来了从机器人到研究再到 Android 的各方向人才,能把公司在做的所有事情都展示出来,真的很令人兴奋。"* ## [10:42] 研究方向介绍:文本扩散模型 Google 在 I/O 上发布了 Gemini Diffusion——一种用于生成文本而非图像的扩散 Transformer,推理速度明显快于自回归解码。Omar 坦率地说:当前质量仍低于自回归基线,而且扩散 Transformer 的微调难度更高,因为分布偏移对路由的影响方式不一样。swyx 勾勒了一个合理的架构猜想:扩散模型作为快速的系统一执行器,自回归模型负责复杂规划——Omar 认为这个思路有一定道理,但现在下结论还太早。 > *"目前仍处于非常实验性的阶段,模型质量比常规自回归模型还差一些。"* ## [13:37] 微调现状与社区趋势 微调社区在 2023 年前后达到顶峰,Omar 看到退潮的迹象。Gemma 4 发布时,几家合作伙伴原本计划微调 270 亿参数的视觉模型,但做到一半就放弃了——基座模型本身已经够用。过去需要微调才能改变的通用行为,现在靠提示词就能解决。剩下真正值得微调的场景:医疗、金融等垂直领域的专属数据,以及基座模型更新后 LoRA 兼容性的管理问题。 > *"我见到了很多这样的情况——作为通用对话模型,大家对微调的热情确实在下降。"* ## [16:29] 稠密架构与稀疏架构的权衡 Gemma 4 发布了参数量相近的两款大模型:310 亿稠密版(原始智能上限最高,量化后可跑消费级 GPU)和 270 亿 MoE 版,激活参数 40 亿(在相同硬件条件下推理速度更快)。这些规模选择背后有刻意的开发者友好考量。Omar 对打算微调的人提了个警告:MoE 的训练方案和超参数不能直接从稠密模型迁移——分布偏移对路由的冲击方式目前还没被完全理解,可能是因为输入分布的变化会改变激活的专家组合。 > *"MoE 微调是有挑战的。推理表现很好,但人们微调时会遇到不少困难。"* ## [18:29] 单参数智能密度与未来研究方向 从 Gemma 2、3 到 4,Google 把总参数量大致锁定在 300 亿左右,而能力上限却显著提升——这正是单参数智能密度持续提升的直接佐证。更难比较的问题在于:一旦引入 MoE 稀疏性和参数卸载,参数量就不再是统一的衡量货币。Omar 坦诚地说,知识瓶颈可能是结构性的——三年后的 300 亿参数模型,在冷门事实的准确召回上依然会有短板,因为信息论限制了固定权重能压缩的信息量。 > *"单参数智能是多少?我们怎样最大化单参数智能?"* ## [20:09] Gemma Scope 与机制可解释性 Google 在去年 12 月发布了 Gemma Scope——一套用于分析 Gemma 3 模型逐层激活的工具,背后支撑的是覆盖每一层的多 TB 甚至可能 PB 级激活数据集。Omar 把机制可解释性定位为进入 ML 研究的低算力入门路径:不需要训练集群就能跑激活分析,而这些实验能让你对 Transformer 内部机制建立切实的直觉。 > *"这是一个不需要大量算力就能入门的方向,能让你真正理解模型是怎么工作的。"* ## [21:12] 研究与工程的边界 带研究人员来工程师大会的出发点:当工程师理解模型是怎么被训练出来的,他们对模型的信任感会更强,哪怕自己永远不会去训练一个模型。Omar 和 swyx 都注意到研究与工程的边界已经模糊——大多数研究工作本质上是接近工程的经验性消融实验,而代码智能体让工程师也能直接参与以往需要研究背景才能做的实验。Omar 举了 franken-merge 和 Axolotl 社区的例子:Reddit 和 Discord 上的人独立摸索出了一些技术,研究实验室后来才把这些写成论文发出来。 > *"大量实验都是看什么有效、什么没效、反复调整——在我看来,这更接近工程而不是研究。"* ## [23:59] 关于"自动研究"与智能体自动化的思考 swyx 抛出了真正的问题:自动研究究竟只是"智能体参数扫描",还是能产出像 Move 37 那样没人会主动去搜索的原创发现?Omar 持审慎的怀疑态度——AutoML 的历史战绩基本上是网格搜索换了个外壳,深层架构工作在未来一两年内大概率无法自动化。但他认为微调本身很快就会完全由智能体驱动:用户直接告诉智能体启动实验,而不是自己写训练代码,借助 Hugging Face AutoTrain 或 Axolotl CLI 这类工具。 > *"下一代微调用户根本不会写代码,大多数人只需要几个技能提示就能完成微调。"* ## [26:06] 团队扩张、全球据点与 Kaggle 整合 开发者体验团队正在新加坡和印度招人——这两个据点与 DeepMind 研究办公室共址,DevRel 人员可以走几步路就找到研究员,而不是待在孤立的销售卫星办公室。更大的组织动态是:Kaggle 加入了 DeepMind,其竞赛和基准基础设施与 Gemma/Gemini 的能力缺口直接挂钩——社区创建的基准可以反哺成为训练信号。Omar 把这个模式描述为反馈驱动:团队在社交媒体和活动现场了解开发者在做什么,再把这些信号带回到模型侧。 > *"我们做 Gemma、Gemini 以及所有工具的方式,真正立足于来自初创公司、社区和开发者的反馈。"* ## 实体 - **Omar Sanseviero**(人物):Google DeepMind 开发者体验负责人;此前在 Hugging Face 负责 DevRel 增长;主导 Gemma 开发者生态。 - **swyx**(人物):Latent Space 播客主持人;2026 年 AI Engineer London 采访者。 - **Gemma 4**(软件):Google 开源模型家族,采用逐层嵌入架构(E2B 有效参数卸载),提供 2B、4B、27B MoE、31B 稠密等变体,支持 140 种语言及多模态输入。 - **Gemini Nano**(软件):基于 Gemma 架构构建的端侧模型,通过操作系统预装于 Pixel 及三星高端手机。 - **Gemma Scope**(软件):Google 的机制可解释性工具包,用于分析 Gemma 3 模型的逐层激活;于 2025 年 12 月发布,配套 PB 级激活数据集。 - **Gemini Diffusion**(软件):Google 实验性文本生成扩散 Transformer(非图像),于 Google I/O 发布;核心优势是推理速度。 - **Kaggle**(组织):竞赛与基准平台,已加入 Google DeepMind;将社区评测与 Gemini 能力反馈循环直接打通。 - **Google DeepMind**(组织):Google 整合后的 AI 研究实验室,业务涵盖 Gemma、Gemini、机器人、端侧 ML 和机制可解释性。 - **AI Engineer London**(组织):应用 AI 工程师大会(2026 年版);本次采访地点,也是 DeepMind 的所在城市。 - **MoE(混合专家)**(概念):稀疏架构,每个 token 只激活部分参数;在同等参数量下推理速度快于稠密架构,但因路由对分布变化敏感,微调难度较高。 - **逐层嵌入**(概念):Gemma 4 的架构创新——在每个 Transformer 层插入查找表嵌入,使 30 亿参数无需矩阵乘法即可卸载至 GPU 之外。 - **单参数智能密度**(概念):能力与权重之比;Gemma 2→3→4 在总参数量维持约 300 亿不变的同时持续提升了这一指标。
AI 智能体需要计算机:每月环比增长74%、每日85万次运行,全新 Agent Cloud 来了——Ivan Burazin,Daytona
Daytona CEO Ivan Burazin 讲述了一场深刻转型:从为人类开发者构建开发环境,到为 AI 智能体提供可组合计算机。凭借每月 74% 的环比增长与每日 85 万次运行,Daytona 打造了有状态、高性能 Agent 工作流所需的裸金属基础设施。本期节目深入探讨突发性算力的技术挑战、10 万亿美元的计算机使用市场,以及未来的 AI 云为何更像 Stripe 而不是 AWS。 ## [00:00] 开场 Ivan Burazin 描述了用户对 Daytona 基础设施的强烈需求——有人直接打电话给他本人要求获得访问权限。这种需求强度表明,为未来每一个 AI 智能体提供执行环境是一个巨大的空白市场。团队意识到,他们找到了 AI 开发栈中一块关键的缺失拼图。 > *I've never experienced this that people literally call you if you do not give them access. Like they want access right now.* ## [01:12] 嘉宾介绍 主持人 swyx 介绍 Ivan Burazin,两人在开发者体验与"本地开发终结"领域渊源颇深。Ivan 回忆起多年前曾主动联系 swyx 请教开发者体验问题。他们聊起早年的互动与对云端开发工具的共同兴趣,正是这些经历最终促成了此次合作。 > *I was one of the co-founders of code anywhere... we were thinking a long time of like local host should die.* ## [03:15] CodeAnywhere、Shift 与本地开发的终结 Ivan 讲述了与联合创始人长达二十年的合作历程——从 2000 年代初做虚拟化服务,到共同创立 CodeAnywhere,打造出第一款浏览器内 IDE。那个年代 Docker 和 Kubernetes 尚未诞生,这段经历为团队积累了深厚的基础设施底层功底。成功举办 Shift 开发者大会之后,他们回归基础设施赛道,创立了 Daytona。 > *We originally started stacking stacking servers doing like virtualization in the early 2000s... and that was a services company which we sold.* ## [05:58] Daytona 是什么:面向 AI 智能体的可组合计算机 Ivan 将 Daytona 定义为面向 AI 智能体的"可组合计算机"提供商,刻意超越"沙盒"这一行业惯用但不够准确的说法。他解释道,智能体需要针对不同任务定制的多样化计算环境,就像不同职业的人类专业人员需要不同的硬件配置。这套 API 驱动的基础设施让智能体能在生产级环境中执行代码,而不只是临时测试盒子。 > *What Daytona is today is essentially composable computers for AI agents... the market calls them sandboxes which [is] misleading.* ## [08:07] 从开发环境到 AI 沙盒的转型 观察到 Devon 和 OpenHands 等早期 Agent 产品之后,Ivan 意识到 AI 智能体需要专属的计算运行时。他们最初面向人类自动化的 SaaS 产品反响平平,却吸引了一批专门需要 Agent 沙盒的开发者。这个反馈信号揭示出一个巨大的未被满足的市场——主流云服务商根本没有在解决这个问题。 > *a lot of people reached out that were building agents and they were like hey my agent needs a compute sandbox runtime* ## [10:17] 跨年夜的 MVP 与抢着要 API Key 的用户 跨年夜那天,Ivan 用"vibe coding"方式写出了新版 Daytona 的第一个 MVP。CTO 起初直接说代码是"垃圾",但核心思路够硬,值得花两周认真重写。把新版本演示给之前持怀疑态度的人看时,反应立竿见影——电话还没挂,用户就已经在催要 API 访问权限了。 > *I've never experienced this that people literally call you if you do not give them access.* ## [12:56] 裸金属、有状态沙盒与 Daytona 的调度器 团队从第一性原理出发设计技术架构,选择在裸金属上运行,而不是传统虚拟机。目标是兼得 AWS Lambda 的启动速度与 EC2 实例的长驻有状态特性。这样一来,智能体可以像人类合上笔记本盖子一样"暂停再回来"继续工作,状态和性能都不会丢失。 > *agents will be like humans in the sense of you don't want your laptop to be shut down until you're done with work* ## [17:28] 60 毫秒启动、5 万个沙盒与每日 85 万次运行 Daytona 的基础设施在单实例速度和大规模并发上都做了极致优化:单个实例启动只需 60 毫秒。这套规模支撑着高吞吐客户每天接近 85 万次的运行量,部分客户甚至要求同时跑 50 万个并发 CPU。系统采用自研调度器和本地 NVMe 硬盘,消除网络延迟、最大化 IOPS。 > *Our time to spin up one is 60 milliseconds with network latency... if you want to spin up 50,000 at once, we are now at about 75 seconds.* ## [21:53] 突发性 RL/评估负载与新型 Agent 基础设施难题 AI 负载的"突发性"是算力提供商面临的重大挑战,导致平均利用率仅有 15%,峰值却能冲到 90%。负载大致分两类:跟随人类节奏的"后台 Agent",以及在不可预测时段爆发大量请求的"评估/RL 任务"。为应对动辄 10 万个 CPU 的瞬间爆量,Daytona 必须提前做容量预留。 > *Daytona's mean utilization is 15%... because it's very spiky. But it's very spiky but we get up to 90%.* ## [28:12] RL 负载、Kubernetes 的痛点与动态扩容 Daytona 的主要竞争对手是 EKS、GKS 等托管 Kubernetes 服务,但 Daytona 把自己定位成算力领域的"Twilio 或 Stripe"——用起来更顺滑。比起 Kubernetes,Daytona 提供无缝的 API 来启动沙盒,启动速度也快得多。一个关键优势是可以在运行时动态扩容沙盒,避免 OOM 崩溃——这在其他平台上很难实现。 > *Daytona although it's a compute provider it's more akin to a Twilio and Stripe from a consumption perspective than it is an AWS* ## [33:31] 为什么每个 AI 智能体都需要一台计算机 Ivan 估算全球知识工作者的薪资总额约为 50 万亿美元,其中大量工作被锁在遗留 Windows 应用中。他认为,真正的自动化需要能通过 GUI 与这些遗留系统交互的"人类模拟器"。如果能自动化其中 40% 的工作,Agent 计算机使用市场每年大约能达到 10 万亿美元。 > *If you take 40% of that, you get to essentially like 10 trillion dollars a year.* ## [38:48] macOS 沙盒与 Apple 的授权困境 macOS 沙盒的托管难度远超 Windows 和 Linux。Apple 的授权限制每台机器只能同时跑两个虚拟机,且用户需要绑定 24 小时,按秒计费在经济上根本不可行。此外,安全限制导致内存快照无法在物理机器之间迁移,严重制约了 Mac 硬件上 Agent 负载的可扩展性。 > *Apple is shooting itself in the foot... if it would just enable a concurrency model similar to what you can get on a Windows.* ## [44:28] 为什么 CLI 可能比 MCP 更重要 本节对比了 MCP 与 CLI 在 Agent 行动中的角色。MCP 是对 API 的一层接口封装,而 CLI 让智能体能在沙盒内执行脚本、做深度数据分析。这层间接性使得 Agent 工作流远不止于简单的数据拉取,而是真正能"做事情",而不只是做集成。 > *the MCP is an interface against an API whereas the CLI is like you can actually go do things... the difference between integrations and actually running scripts.* ## [48:11] 开源、GitHub Star 与智能体集成 Ivan 详述了 Daytona 沙盒产品切换到 AGPLv3 协议的决策——在开放性与商业保护之间取得平衡。这种"著佐权"方式允许企业使用,但禁止竞争者做闭源 fork。保持核心引擎透明,既能建立用户信任,也让大型企业无需漫长安全审查就能给智能体提供完整上下文。 > *in the new sandbox product we did add a AGPL3... you essentially can't make a competitor without open sourcing your stuff.* ## [53:11] Git、CI/CD 与智能体协作瓶颈 GitHub 等现有版本控制系统往往跟不上 AI 智能体的高速输出,成为 CI/CD 流水线的瓶颈。部分开发者已经开始自制变通方案,把整个代码库打成 JSON 文件扔到 S3 上,绕过 Git 的开销。随着有些公司每天产出超过 1000 个 PR,一个先于 Git 流水线的智能体协作层正在成为迫切需求。 > *GitHub as-is was an overhead... it wasn't fast enough what they needed.* ## [58:15] 创始人之路与打造一家 25 人的基础设施公司 Daytona 的成功离不开一支核心团队——25 人中有 13 人共事超过七年,形成了高度信任的文化。Ivan 坦言创始人之路艰难,包括长期离家,但他认为成长本身就意味着承受"痛苦"。他把自己的工作视为打造 Agent 时代的新一代 Serverless 与 Kubernetes,而极致的响应速度是他们的核心竞争力。 > *Of the 25 people in Daytona, I think about 13 of them we have worked with seven years plus.* ## [1:02:44] AI SaaS、Token 转售与 API 优先商业模式 Ivan 对 SaaS 生态提出批判性判断:市场正在错误地给那些只是转售 AI Token 的厂商打出溢价,而这类模式的利润率远比传统 SaaS 差。他主张企业应当通过 API 开放数据、按消耗量收费,随着 Agent 使用量提升,收入也能真正加速增长。 > *The market is adding premium to SAS vendors that are reselling tokens. And I think that's incorrect.* ## [1:06:10] GPU 沙盒、数据中心与算力增长 Daytona 计划推出 GPU 沙盒,支持 3D 渲染、CAD 强化学习等负载,而非将重心放在推理上。公司目前通过托管机房运行裸金属服务器,Ivan 表示架构上已预留自建数据中心的可能性,但现阶段为了个位数的利润率提升而承担高额资本风险并不划算。 > *We will [offer GPUs], but not for inference. Like essentially what we think about is like the GPU sandbox.* ## [1:09:48] AI 云为什么更像 Stripe 而不是 AWS 对话最后畅想了"面向 AI 智能体的 AWS"会是什么样——Ivan 认为它更像 Stripe,而不是传统云厂商。这个未来的"AI 云"将把沙盒、网页搜索和数据库作为基础原语整合在一起。Cloudflare、OpenAI 等公司都在争夺这个赛道,而 Ivan 暗示,专为 Agent 设计的基础设施原语还有很多有待开发。 > *There will be a cloud built out specifically for agents and so that cloud will have sandboxes and it will have web search and it'll have databases.* ## [1:11:26] 结语 AI 基础设施市场正以每月 40%-75% 的史无前例速度增长。Ivan 与 swyx 谈到抢占硬件资源的竞赛,以及向专业化 Agent 云迁移的大趋势——这将定义未来十年计算的走向。 > *The entire infrastructure market is growing 40% plus or minus month over month... if you're not growing 40%ish... you don't have to come to work.* ## 实体 - **Ivan Burazin**(人物):Daytona CEO,CodeAnywhere 联合创始人。 - **swyx**(人物):Latent Space 主持人,Daytona 早期投资人。 - **Daytona**(组织):为 AI 智能体提供可组合计算机和沙盒的公司。 - **CodeAnywhere**(组织):第一款浏览器内 IDE,由 Ivan Burazin 联合创立。 - **Devon**(产品):早期 AI 软件工程师 Agent。 - **OpenHands**(产品):开源 AI Agent 项目,前身为 OpenDevin。 - **Kubernetes**(技术):容器编排技术,被提及为 Daytona 人性化 API 的竞争对手。 - **Apple**(组织):因 macOS 虚拟化授权限制被重点提及。 - **Salesforce**(组织):云软件公司,因 API 优先战略被提及。 - **GitHub**(组织):开发者平台,被指出是 Agent CI/CD 工作流的瓶颈。 - **Nvidia**(组织):GPU 主要供应商,其供货状况直接影响市场增速。 - **Stripe**(组织):用于类比未来 AI 云按消耗量计费的商业模式。
原生智能体云:Jake Cooper 谈 Railway 的未来
Railway CEO Jake Cooper 详述了这家公司从高速烧钱的初创企业到可持续裸金属云基础设施平台的演变历程——平台目前已服务 300 万用户。他认为,AI 智能体的崛起要求从根本上重建云,从以人为中心的工具(如 Kubernetes 和 Pull Request)转向高密度 CLI 接口和生产环境分叉机制。这场对话为构建模块化、高扩展系统提供了路线图,这类系统能够支撑下一代自动化软件开发。 ## [00:00] 开场 Jake Cooper 认为开发者应该停止手写代码,转而专注于审查智能体生成的代码,以维护架构的完整性。他强调,尽管 AI 工具已大幅改进,在自动化工作流中,底层架构模式的重要性反而比以往更高。主持人将 Jake 介绍为 Railway 的"指挥官",引出一场关于云平台与开发者体验未来的讨论。 > *你应该审查你写出来的代码,而不是试图亲手去写它。* > *[0, 10]* ## [01:19] Railway 是什么? Railway 是一个让用户通过画布或 Claude 等 AI 提示即可秒速部署应用和数据库的平台。Jake 解释说,目标是管理软件版本控制和环境克隆,降低 Docker、Kubernetes 等传统工具的复杂度。通过追踪所有变更,Railway 让开发者能够将生产环境分叉成平行宇宙,无需手动复现预发布环境即可安全验证。 > *Railway 是发布任何东西最简单的方式。* > *[2, 29]* > *我们希望不仅仅让部署变得容易,还能让你几乎像在演化应用一样持续迭代。* > *[2, 49]* ## [03:26] Jake 与 Railway 的缘起 Jake 回顾了自己的职业历程:从 Wolfram 做前端,到在 Uber 用 Cadence 为 Jump 共享单车构建分布式系统。他把自己的工程哲学概括为"游到泳池底部"的意愿——包括亲手写内核补丁,只为把用户体验做到最好。他还批评了 GitHub 的架构设计,认为克隆操作产生的"断裂指针"让上游贡献极为繁琐。 > *我们会游到泳池底部,去把那个体验拿到手。* > *[4, 35]* > *GitHub 的原罪在于它几乎就是一串断裂的指针。* > *[6, 2]* ## [07:32] Railway 六年成长史 Jake 展示了一张增长曲线,说明 Railway 每日注册量从"缓慢爬升"跃升至每周新增 10 万用户。早期增长靠的是在 Discord 上的高度互动运营,以及手动拉来第一批 100 名核心用户的执念。这张图表也成为公司规模化历程与迈向主流云服务商这一叙事的转折点。 > *我想给你们看这张漂亮的图——基本上就是你们的使用量或每日注册数。* > *[7, 34]* > *想方设法让最初那 100 个用户真的留下来、反复回来用。* > *[8, 21]* ## [10:11] 砍掉免费层后的重建之路 在只有 5 万美元月收入的情况下,Railway 一度每月烧掉 50 万美元,尽管账上还有 2000 万美元。Cooper 意识到这条路走不通,决定把长期可持续性放在漂亮数字前面,暂时关闭免费层来重建业务。公司现在保持 35 人的精干团队,倾向于构建自动化系统,而非靠堆人头解决问题。 > *我们基本上不得不暂时关闭免费用户通道,重新把业务做起来。* > *[11, 47]* > *我们现在是 35 人……我们不想为了加人而加人。* > *[10, 52]* ## [12:36] 智能体:下一个软件平台 过去六个月,Railway 把"智能体化"开发列为构建和部署软件的首要机制。Cooper 认为行业正从汇编语言、高级语言,一路演进到以"自然语言"作为主要交互界面。他预见未来将有数千个智能体并行运行,需要全新的协调和版本控制工具来应对超指数级增长的工作负载。 > *我们从汇编语言走到 C,再到 C++,再到 JavaScript,现在到了自然语言这一步。* > *[13, 23]* ## [14:48] Railway 的基础设施理念 Jake Cooper 解释说,Railway 把对网络、计算、存储等底层原语的精细控制放在首位,以便为 AI 智能体工作负载做深度优化。通过绕开 Kubernetes、使用自研编排方案,团队能够以极高的精度放置工作负载,从而保证内存效率。随着智能体用量攀升、对数千个并行实例的需求不断放大,这种控制力是防止成本结构失控的必要条件。 > *你必须对这些智能体极度精打细算……否则你的成本结构会炸得一塌糊涂。* > *[15, 10]* > *怎么让智能体协调起来?怎么让它们能够安全地对变更进行版本控制?* > *[14, 28]* ## [17:01] 裸金属、云经济学与算力紧缺 Cooper 描述了迁移至裸金属的高回报:与租用云资源相比,回收期仅需三个月。这一策略让公司在充分利用可用数年的硬件的同时,实现了 70% 的毛利率。他还提到,由于全球算力短缺和供应链限制,RAM 等硬件资产甚至出现了意外增值。 > *我们迁移到裸金属……如果在云上租用,回收期大约是 3 个月。* > *[17, 2]* > *硬件和这些东西……反而升值了,因为 RAM 价格涨了。* > *[17, 50]* ## [18:41] 云突发与五云组网 为了在不受算力制约的情况下保持增长,Railway 采用混合云策略,在 AWS、GCP 和 Oracle 之间动态扩充容量。为此,团队构建了一套自定义网络叠加层,能够同时横跨五个不同云环境。这套复杂架构虽然曾带来可靠性挑战,如今却让 Railway 能够无视单一云厂商的配额或硬件供应瓶颈,快速弹性扩容。 > *我花了一个周末把整个网络叠加层重写了一遍,这样我们就能同时横跨五朵云。* > *[19, 41]* > *我们依然保持云端存在,主要用于弹性突发。* > *[18, 52]* ## [21:39] 数据中心债与基础设施融资 Cooper 强调了以硬件为抵押的数据中心债务的战略价值,认为这比用风险资本扩张基础设施更高效。把算力容量视为收入的线性驱动因素,Railway 能以多快部署硬件就能以多快扩张营收。他鼓励基础设施创业公司探索多元化融资手段,不要只依赖昂贵的风险股权来购置实物资产。 > *我们基本上能以多快扩算力就以多快扩收入。* > *[21, 20]* > *我们裸金属的毛利率相当高,大概 70%。* > *[20, 46]* ## [24:50] 太空数据中心 Jake Cooper 与主持人探讨了在太空建设数据中心的技术难题,核心问题是在真空中散热。Cooper 对那些忽视基本热力学定律的方案持怀疑态度,把"以后再想办法"的心态比作科幻小说。他指出,投资人在太空科技领域很难分辨哪些是有远见的构想,哪些只是技术"骗局"。 > *我没见过任何人证明如何在真空中散掉那么多热量。* > *[25, 16]* > *你怎么判断什么基本上是不可能的、是个骗局,什么是可能的但听起来完全像科幻?* > *[26, 16]* ## [26:43] 智能体对基础设施的需求 Cooper 梳理了 AI 智能体的基础设施需求,指出它们与人类需要的东西相似——版本控制、可观测性和存储——但规模要大 1000 倍。他预测,随着智能体工作负载大幅压缩开发周期,Kubernetes、Envoy 等行业标准将成为瓶颈。为此,基础设施必须足够模块化,支持在无需人工干预的情况下快速替换故障组件。 > *工作负载的模式没有大变,但被极度压缩了——因为你需要同时做几千件事。* > *[28, 28]* > *你只是需要在千倍的规模上做同样的事。* > *[29, 13]* ## [29:43] CLI、画布与原生智能体 UX Cooper 解释说,虽然人类偏爱简洁,但智能体受益于高密度的 CLI 界面——大量参数和标志正是它们的"抓手"。Railway 画布也在从输入工具演进为输出机制和"上下文锚点"。这种对基础设施的层次化视图,能防止关键知识在团队用自动化智能体构建复杂"超结构"时形成信息孤岛。 > *如果你把它交给一个智能体,说"这里有 40 个参数和 600 个标志",它会说——太棒了。* > *[30, 35]* > *它必须成为上下文的锚点,必须是风暴中的港湾。* > *[34, 27]* ## [36:34] Central Station、故障通报与负责任披露 Railway 用一个叫 Central Station 的内部工具聚合用户反馈和上下文,取代了 Slack 等静态沟通渠道。团队把透明度作为核心价值,实时暴露指标并发布详细的故障报告,秉持"荣誉"原则运营。这意味着宁可过度披露问题,也不在故障期间给用户模糊或误导性的信息。 > *我们宁可过度披露,让你知道有问题,也不想让你的云服务商给你洗脑。* > *[40, 22]* > *如果你能动态聚合这些信息并动态路由给合适的人……这就不再是手动流程了。* > *[37, 10]* ## [41:49] 安全发布、SRE 智能体与生产环境分叉 为了降低 bug 的影响,Railway 采用增量发布,并简化了在安全的影子环境中测试行为的流程。Cooper 认为,不能把生产环境"神圣化"到让迭代停滞的程度——基础设施应该让生产环境分叉变得轻而易举。这对 AI 智能体尤为关键:如果没有安全迭代的原语,系统会因"熵堆叠"而难以收拾。 > *我们在"生产环境神圣不可侵犯"这件事上建立了太多仪式感……我们需要让测试不同行为变得极其简单。* > *[41, 33]* > *如果你没有让生产迭代变安全的原语,这件事就会变得非常非常难。* > *[44, 3]* ## [46:19] AI SRE、规格说明、代码与测试 Jake Cooper 回顾了自己从 AI 怀疑论者到信徒的转变,指出 AI SRE 的安全性取决于基础设施原语。他推崇软件工程的"三位一体":清晰的规格说明、代码和测试。三者对齐,开发者和智能体才能在快速自动化迭代中发现分歧、维护系统完整性。 > *如果你直接把 AI SRE 放到生产基础设施上……它会把你的生产数据库清空。* > *[46, 37]* > *你本质上需要三个点:清晰的规格说明……代码,然后是测试。* > *[48, 22]* ## [49:43] 自我复制的基础设施与新 Serverless 嘉宾探讨了智能体通过 Railway CLI 修改自身基础设施、形成自我复制闭环的构想。这一转变要求从昂贵的静态虚拟机,转向廉价、即时可用的"原子部署单元"——如 isolate 或沙箱。目标是让一次性的生产环境副本尽可能简单、廉价,为智能体实验提供充分空间。 > *智能体可以修改自己的基础设施——这件事真的……太疯狂了。* > *[50, 4]* > *怎么让那些一次性副本尽可能容易创建、运行成本尽可能低廉?* > *[50, 53]* ## [54:37] Heroku、Temporal 与工作流引擎 Cooper 把 Heroku 的衰落归因于 Salesforce 没有把算力视为核心业务,导致产品停滞。Railway 将自身定位为"流动计算"供应商,借助 Cooper 与 Temporal 及其前身 Cadence 近十年的深厚积累处理持久化工作流。Railway 是 Temporal 的重度用户,用它来管理大规模复杂的长期基础设施任务。 > *Salesforce 的核心业务是做好 CRM……然后他们收购了这家算力公司,后者只是个旁支。* > *[55, 33]* > *我用 Temporal 差不多快十年了,从 Cadence 时代开始,一路走来。* > *[60, 5]* ## [1:05:26] Railpack、Nixpacks 与懒加载文件系统 Railway 正在开发 Railpack,一个用于分析源码依赖的引擎,由早期基于 Nix 的工具 Nixpacks 演进而来。Nix 在理论上有版本控制方面的优势,但 Railway 发现它在真实工作负载中导致镜像严重膨胀和扩展问题。他们现在正探索内容寻址文件系统,以实现数据的懒加载,加速部署流程。 > *如果你同时需要版本 X 和版本 Y,你的包空间会膨胀得非常厉害。* > *[66, 2]* ## [1:07:20] 编程智能体、Token 消耗与路线图加速 Railway 每月云支出达 30 万美元,公司大力激励员工使用 AI 编程智能体。Cooper 认为手动写代码是低效的时间浪费,呼吁开发者把精力放在架构模式和代码审查上。这让团队得以"速通"产品路线图,把复杂的基础设施任务和测试生成都自动化。 > *如果你还在手写代码,你就走错路了……你应该审查你写出来的代码。* > *[67, 37]* > *如果你不用 AI 系统来"速通"路线图……你就错过了重点。* > *[69, 12]* ## [1:12:15] Pull Request 正在消亡 传统软件开发生命周期正在经历根本性变革:Pull Request 和人工代码审查正在失去其意义。衡量贡献的方式越来越多地转向"最终进入生产环境的 token 占比",而非代码行数。随着 AI 系统承担更多调和与验证工作,关注点从 PR 转移到最初的提示词和最终部署。 > *Pull Request 正在消亡……接下来是提示词……代码审查也在某种程度上走向消亡。* > *[72, 23]* > *衡量这件事最直接的方式,就是你最终进入生产环境的 token 占比。* > *[71, 40]* ## [1:13:47] 功能标志与智能体时代的 SDLC Jake Cooper 探讨了功能标志在管理 AI 智能体驱动的 SDLC 千倍压缩中的关键作用。他认为,随着部署速度加快,通过功能标志实现增量发布和爆炸半径管控将变得更加不可或缺。这种标志文化让团队能在不影响企业客户系统稳定性的前提下快速实验。 > *一切都将被压缩千倍,所有人都能去做这件事。* > *[77, 21]* ## [1:17:34] 牲口、宠物与克隆机器 Jake 对"牲口而非宠物"的哲学提出了反向观点:快照技术让开发者重新可以把基础设施当"宠物"来对待。通过对每一帧做快照、懒加载文件系统,Dockerfile 等传统 DevOps 工具的开销大幅降低。Railway 甚至修改了内核,以支持系统快照期间的持久连接。 > *我认为你可以重新拥有宠物,只要你有一台克隆宠物的机器。* > *[78, 2]* > *如果你能在每一帧对所有东西做快照,那么被干掉了又有什么关系。* > *[78, 12]* ## [1:20:48] 独立创始人的经验教训 Jake 反思了独自创业的历程,对照了硅谷主流观点中"一定要找联合创始人"的说法。他强调需要对技术栈的每一层都充满执念,从内核级改动到市场策略,一层不漏。他认为两位联合创始人往往因为没有打破平局的机制而陷入僵局,而独自领导则能保持单一愿景。 > *两人创始是最糟糕的组合,因为你没有打破平局的机制……你们只是一直在——好,我不同意这件事。* > *[82, 49]* ## [1:25:31] 专注、GPU 与构建新云 Railway 目前有意回避 GPU 供应商市场,以维持核心使命,尽管 Cooper 承认 GPU 终将是长期路线图的一部分。他强调,一家公司的定义,往往更多取决于它选择不做什么,而非它实际做了什么。最终目标是实现从逻辑到执行的完全垂直整合,打造无缝体验。 > *我认为一个公司的定义,更多来自你不做的事,而不是你做的事。* > *[86, 8]* > *我可以肯定地告诉你,我们现在不会做 GPU,但我们 100% 会在某个时候做。* > *[86, 50]* ## [1:29:39] 结语 Cooper 透露,Railway 正朝着 100% 自有数据中心的方向迈进,不想复制传统超大规模云厂商的基础设施路径。通过从零发明自己的基础设施,Railway 希望支撑"氛围编程"——彻底消除想法与上线应用之间的摩擦。这一方向将赋能新一代"公民开发者",让他们以思维的速度构建产品。 > *你的想法和它变成现实之间,不应该有任何摩擦。* > *[89, 4]* > *我们非常刻意地从零开始发明我们自己的基础设施。* > *[88, 30]* ## 实体 - **Jake Cooper**(人物):Railway CEO,"指挥官"。 - **Railway**(组织):专为简易部署和环境管理而设计的云平台。 - **Uber**(组织):Jake 的前雇主,他在此为 Jump 共享单车构建分布式系统。 - **Temporal**(软件):Railway 用于可靠基础设施任务的工作流编排平台。 - **Salesforce**(组织):收购 Heroku 的 CRM 公司,被认为导致了 Heroku 的停滞。 - **Heroku**(组织):PaaS 先驱,Railway 常被拿来与之比较。 - **AWS**(组织):Amazon Web Services,Railway 混合云突发策略的组成部分。 - **GCP**(组织):Google Cloud Platform,Railway 横跨的五朵云之一。 - **Claude**(软件):Railway 部署界面中提到的 AI 模型。 - **GitHub**(组织):代码托管平台,因版本控制架构缺陷被讨论。 - **Kubernetes**(软件):Railway 为获得更高层次控制而选择绕开的编排系统。 - **Central Station**(产品):Railway 用于聚合用户上下文和支持反馈的内部工具。
下一场战争已经打响——Yaroslav Azhnyuk(The Fourth Law)与 Noah Smith(Noahpinion)
Ukraine 去年生产了 400 万架 FPV 无人机;China 的产能足以生产 40 亿架。这一悬殊对比,构成了这场长达两小时、罕见扎实的对话的底色。对话嘉宾是 Yaroslav Azhnyuk——连续创业者出身、现在 The Fourth Law 主导 AI 无人机研发——以及经济学家 Noah Smith,他写 drone 战争经济学的时间比西方大多数政策圈早了好几年。两人覆盖了完整的技术栈(摄像头、自主模块、光纤链路、拦截器、在建晶圆厂),一套五级自主分类体系,一套自主战场八维框架,以及 China 在制造端的优势——西方近期找不到对等答案。贯穿全程的核心判断:西方仍在为上一场战争做准备,Ukraine 是 Defense Valley,下一场战争已在那里打响,差距正在以超出大多数人预判的速度拉大。 ## [00:00] 冷开场:China 的 40 亿架无人机与摄像头到炸药的生产链 Yaroslav 开门见山抛出一组数字对比,奠定全集基调。Ukraine 并非工业强国,却在一年内生产了 400 万架 FPV 无人机。China 拥有数量级更大的制造基础,消费电子供应链已在规模化生产同款摄像头、电机和芯片,理论产能可达 40 亿架。Noah 当即追问:这是否让 China 成为当下地球上最强的常规军事大国?Yaroslav 不敢断言,但也不愿排除这种可能。 > *"我认为我们没有充分的信息来断言这一点,但我们也不能排除这种可能性。仅此一点,就应该是一个很大的警示信号。"* 冷开场同时埋下了一个人生转折,也是全集后续展开的主线:Yaroslav 从做向宠物投喂零食的摄像头,转型为向占领者投掷炸弹的摄像头。 ## [01:04] 介绍:Brandon、Noah Smith 与 Yaroslav Azhnyuk 本集客座主持 Brandon 平时做科学播客,这集是例外。Noah Smith——Noahpinion Substack 作者、专注产业政策与地缘政治的经济学家——担任联合主持和联合访谈人。Yaroslav 交代了个人背景:2022 年 2 月 23 日深夜 11 点,他与当时的未婚妻搭乘最后几班飞抵 Kyiv 的航班落地。八小时后,炸弹开始落下。之后那段 17 小时向西逃离的车程——空无一人的街道、耗尽燃料的加油站、用挡风玻璃清洗液桶装柴油——读来像末日电影的情节,因为对亲历者而言,那正是真实发生的事。 > *"我们基本上打包好了行李,上了车,花了 17 个小时往西开。就是那么回事。导弹在落,Kyiv 冒着烟。"* ## [05:41] 从科技创业者到国防:PetCube、Brave One 与 D3 Fund Yaroslav 从宠物科技转向国防,走的不是一条直线。他从 2014 年到 2020 年在旧金山创办 PetCube——宠物摄像头领域的头部公司——此前从未修过军事课程,认为战争是过去的事。入侵的第一天,他就知道自己要用一切力量反击,但第一反应并非制造武器。早期行动包括游说美国国会推动《租借法案》(2022 年 5 月通过,执行不足)、联合创立 Brave 1(Ukraine 国防创新集群,对标 DIU),以及协助 Eric Schmidt 共同发起 D3 Fund。 到 2023 年,两件事已无法回避:战争会持续下去,而无人机已永久重新定义了战争形态——这是历史上第一个软件定义的武器平台,战场能力的升级可以像软件更新一样一夜之间推送。 > *"就好像你能推送一次软件更新,让你所有的罗马军团士兵都换上了新头盔。这在历史上从未有过。"* ## [10:42] 制造武器的伦理:两用技术与门口的狼 Brandon 抛出两用困境:这项技术不会永远停留在 Ukraine 手中。Yaroslav 的回答务实而非哲学化。从火到大语言模型,每一项技术都是两用的;制造者要考量的问题是,自己的贡献在边际上带来的风险,是否超过了眼前的迫切需要。Ukraine 正站在森林里,面对一匹狼。你先解决狼,再去咨询 Greenpeace。 他直视技术无法被限制这一现实——关于大语言模型在 North Korea 和 Russia 自由传播的担忧,同样适用于无人机自主技术——但将自己公司的责任框得很窄:他们只向 Ukraine 政府和武装力量供货,不接受任意买家。 > *"当你站在森林里,前面有一匹想吃掉你的狼,你会先对付狼,然后再去咨询 Greenpeace。"* ## [14:01] 技术栈:摄像头、自主模块、拦截器与半导体晶圆厂 The Fourth Law 由三个相互咬合的业务单元构成。摄像头(日光和热成像,销售给 200 余家 Ukraine 无人机制造商)。无人机自主模块(供货同一生态)。以及直销武装部队的 UAV 产品:FPV 攻击无人机、轰炸机、Shahed 拦截器,以及 ISR 拦截器——专门猎杀 Russia 侦察无人机,阻止其回传目标数据。 热成像摄像头部门即将动工兴建两座晶圆厂,自主生产传感器芯片。这一决策的背后,是对依赖境外传感器供应链作为战略漏洞的清醒认识。 > *"我们即将开始建造两座半导体工厂,为热成像摄像头制造传感器。对我这个学计算机的人来说,做半导体真的超酷。"* ## [18:47] 光纤与 AI:无线电地平线问题与 32 美元/公里的线缆 这一章的核心,是无线电 FPV 无人机在远距离为何会失效——不仅是因为干扰,还因为地球曲率。在 30-40 公里射程时,无人机若飞行高度低于大约 60-100 米,便会进入山丘、树林或地平线本身形成的无线电阴影区。驾驶员会在无人机逼近目标的关键时刻同时失去视频和控制信号,而目标按定义就在地面上。光纤线缆(32 美元/公里,从无人机上卷轴放出)能解决阴影问题,但增加了重量、限制了射程,并削弱了机动性。 AI 以另一种方式填补缺口:末端引导让无人机在无线电链路中断后仍能在最后几百米自主完成动作。两种方案并不互斥——可以在光纤链路之上叠加 AI,用更少的操作手指挥数百架无人机。 > *"如果你的无人机飞低——而通常 Russia 的步兵和车辆都在地面上,你得飞低才能打中——飞得越低,就可能躲进某座山丘或某片树林的阴影里,飞得够远的话,你就会钻进地球曲率的阴影里。"* ## [25:32] FPV 无人机:新的战争之神,承担 70–80% 前线伤亡 历史上,炮兵被称为"战争之神",因为它造成了 80% 的战场伤亡。在当前的 Ukraine 前线,70-80% 的伤亡由 FPV 无人机造成——比例相同,武器不同。坦克曾被设计为数十年内主宰陆战,如今却被 400 美元的消费级四旋翼机常规摧毁,因为装甲从来没有为抵御正上方的攻击而设计。 其发展轨迹与计算器被智能手机淘汰的曲线如出一辙:不是线性替代,而是指数式位移——新技术的影响呈非线性增长。 > *"人们过去常说炮兵是战争之神,因为炮兵造成了大约 80% 的伤亡。现在按这个排名,FPV 无人机称王。"* ## [28:28] 无人机自主的五个等级:从末端引导到完全自主 Yaroslav 提出五个自主等级,描述这个领域的现状与走向。第一级是末端引导——无人机在人工操控下飞行,仅在最后几秒锁定目标。第二级是投弹——从高空投放弹药,不直接撞击目标。第三和第四级引入逐步增强的目标选择和导航独立性:无人机可识别发射无线电的装备、追踪车辆,或在 GPS 拒止环境中自主导航。第五级是完全自主——发射后不管,任何任务阶段均无人介入。 当前战场部署主要集中在第一至三级。跃升至更高等级,瓶颈已不主要是技术问题,而是部署、条令与信任的问题。就目前而言,涉及致命打击决策的每个环节,仍保留人工确认。 > *"技术在进步,其影响呈非线性增长。一切都是指数级的。"* ## [41:37] 自主战场的八个维度 五个自主等级描述的是单架无人机的能力。八个维度描述的是这些无人机所处的完整战场环境。第一维:自主等级(五级量表)。第二维:平台类型(四旋翼、固定翼、导弹、海上无人机)。第三维:环境(昼/夜,城区/森林/开阔地形)。第四维:目标类型(运动车辆、静态建筑、无线电发射源)。第五维:集群规模与协调。第六维:指挥与控制架构。第七维:感知模态(光学、热成像、射频)。第八维:基础设施(仿真、数据流水线、安全、部署工具链)。 每个维度都与其他维度相互作用。一架在开阔白天地形表现优异的第四级自主无人机,在夜间森林中可能彻底失效。战场 AI 系统必须在全部八个维度上同时评估,而不仅仅着眼于自主等级这一个轴。 > *"我用'维度'这个词,是因为它们相互交织。理解自主性在现代战场环境中如何演进,至关重要。"* ## [45:32] AI 安全与自主武器的道德问题 Yaroslav 的立场颠覆了标准 AI 安全框架:五到十年后,使用不带 AI 的武器将是不道德的,因为纯人工武器会造成更多附带伤亡和误伤。他类比自动驾驶汽车:一旦自动驾驶成为常态,让人类在公共道路上手动驾驶反而成为危险选项。 Noah 将推论推向逻辑终点:一个第六级"AI 将军"——一个摄取所有战场数据并自主选择目标的大模型,人类只负责维修无人机。Yaroslav 说,技术上现在就能做到。瓶颈是部署与信任,不是能力。他引述了公开报道中 AI 辅助目标指定在 Iran 行动中的应用:AI 给出 127 个目标,人工审核列表后按下确认。这已经接近一个带橡皮图章的 AI 将军了。 > *"我认为,五到十年后,不使用 AI 的武器将是不道德的,因为不带 AI 的武器更可能造成附带伤亡或意外损害。"* ## [51:31] 步兵的终结?Noah 2013 年的预言与战场现实 Noah 重提 2013 年的预言:步兵已经过时,被远程武器取代。Ukraine 既验证了这个判断,又使它复杂化。FPV 无人机无疑已将步枪取代为主要消耗性武器,但步兵并未消失。他们挖战壕、固守阵地、承担后勤,并在持续无人机威胁下通过适应存活了数月:更好的伪装、更小的活动特征、无人机感知训练。 Yaroslav 将时间轴延伸到人形机器人。世界为两足人类而建;一个能操作步枪、开门或驾驶车辆的平台确实有其实用价值。他把终结者式的人形战斗机器人场景放在十年后,不是科幻。但两人都认同,现代战争是一个多维度问题——数十种无人机类型、地面行动、侦察、心理战、航空、坦克、后勤——媒体聚焦于最新最酷的技术,大大低估了每一层级仍有多重要。 > *"现代战争非常复杂,无人机是最新最酷的东西,并不意味着现在就只有无人机。"* ## [01:05:13] China 的制造优势与西方的脆弱性 这部分由 Noah Smith 的经济学背景主导对话。美中无人机对比,拼的不是单价或自主等级,而是规模化制造吞吐量。China 的消费电子供应链已在批量生产 FPV 无人机所需的电机、摄像头、芯片和电池。将这些产能切换到军事生产,需要的是监管意愿,而非重新建线。Ukraine 用航模零件造出 10 公里射程的固定翼无人机;China 能在相同成本曲线上造出 200-300 公里射程的固定翼无人机。 西方的脆弱性不只是数量。还有热成像摄像头(主要来自 China)、半导体晶圆厂(在无人机传感器相关节点上落后两代),以及采购速度(西方国防合同需要数年才能授出;Ukraine 以周为单位迭代)。Yaroslav 对西方的人才储备持乐观态度,工程师是有的,但对欧洲机构的迟滞公开感到不满,对美国是否真正吸取了 Ukraine 和中东的教训,他心存疑虑。 > *"我们没有充分的信息来断言这一点,但我们不能排除这种可能。如果我们想保住我们曾经的美好生活,就必须采取行动。"* ## [01:24:21] 西方防务的政策建议:Defense Valley 与不断扩大的差距 Yaroslav 的首要政策建议,围绕他归给 William Gibson 的那句话(实为 Arthur C. Clarke)展开:未来已经到来,只是分布不均。Kyiv 就是 Defense Valley——未来战争最早抵达的地方,拥有数百家专业公司、每个级别都经过实战检验的指挥官,以及学会了以创业速度运转的政府。 优先项一:深度融入 Ukraine 国防生态系统,不只是采购,而是嵌入式学习。优先项二:采购改革——无人机主导倡议方向正确,需要扩大十倍。优先项三:为争夺制海权的高强度海洋环境备好远程无人机(射程 2000 公里的 Shahed 级无人机可覆盖整个太平洋岛链)。他担心美国从 Ukraine 吸取的教训不如应有的多,并可能在 Iran 问题上重蹈覆辙。 > *"Kyiv 和 Ukraine 就是 Defense Valley。那里是防务未来已经到来的地方,有大量值得学习的东西。"* ## [01:32:54] 无人机竞赛:各品类谁领先 18 个月前,Russia 在无人机能力上与 Ukraine 持平甚至领先;此后 Ukraine 在 FPV 和自主性上已经反超。但 Russia 拥有 4 倍于 Ukraine 的人口优势和显著更强的工业产能——规模差距是西方供应之所以关键所在。分品类来看:FPV 攻击(Ukraine 领先),ISR 侦察(势均力敌),滑翔炸弹(Russia 领先,从轰炸机大规模投放),远程打击无人机(Russia 在数量上领先),拦截器(Ukraine 快速创新,Russia 追赶中)。Russia 使用直升机拦截 Ukraine 的远程打击无人机——代价高昂但有效,揭示了每一种新进攻手段如何催生定制化防御手段,以周为单位迭代。 > *"大家都说 Russia 在无人机战争中落后了。但一年前并非如此。"* ## [01:41:57] 反制手段:霰弹枪、干扰器、激光与渔网 霰弹枪有用——它是对抗来袭 FPV 无人机的主要动能反制手段——但前提是训练有素的士兵能在战斗压力下击中一个以 100 公里时速飞行的 20 厘米目标。电子干扰器是最普遍的防御手段:屏蔽无线电或 GPS 信号,无人机便失去制导。问题在于,干扰器覆盖的频谱往往也是己方部队使用的频谱,而干扰器正在被跳频和光纤链路所破解。 Russia 坦克如今看起来像刺猬——顶部临时加装金属笼和电子战天线,用于抵御顶攻无人机。Ukraine 的应对是专门调制的聚能装药,针对笼体与车壳之间的间隙。激光有效但昂贵(花费逾 1000 万美元的系统,击落一架 400 美元的无人机),且难以快速转向追踪高速机动目标。渔网正被部署在静态阵地周围,因为便宜、能缠住旋翼,且不需要电力。 > *"然后就是坦克——如果你看看 Russia 的坦克,有时还有 Ukraine 的坦克或装备——它们看起来都像刺猬。"* ## [01:58:19] 婚礼与最后寄语:为战争做好准备 Brandon 最后抛出两个问题。第一:Yaroslav 是否真的在 2 月 23 日那天在那座小教堂完婚?他们办了法律手续,但将婚礼宴席推迟到战争结束之后。第二:给听众一个最重要的启示。Yaroslav 的回答是对那句罗马谚语的重述:*si vis pacem, para bellum*。 > *"想要和平,就要为战争做好准备。必须投资于国防和安全。"* ## 实体 - **Yaroslav Azhnyuk**(人物):The Fourth Law 创始人(AI 无人机自主与热成像摄像头,Ukraine);前 PetCube 联合创始人;Brave 1 和 D3 Fund 联合创始人;生于并成长于 Kyiv。 - **Noah Smith**(人物):经济学家;Noahpinion Substack 作者;本集联合主持人;专注产业政策、制造经济学与地缘政治。 - **Brandon**(人物):Latent Space 常驻主持(科学播客背景);本集客座主持。 - **The Fourth Law**(机构):Yaroslav 的 AI 制导无人机公司;三个业务单元——热成像摄像头、无人机自主模块、UAV 产品(FPV 攻击、轰炸机、拦截器)。Ukraine 排名靠前的无人机 AI 团队。 - **PetCube**(机构):Yaroslav 在旧金山(2014–2020)联合创办的消费级宠物摄像头公司;"投喂零食的摄像头/投掷炸弹的摄像头"这一转型的起点。 - **Brave 1**(机构):Ukraine 国防创新集群;类比美国 DIU(国防创新单元);Yaroslav 参与联合创立。 - **D3 Fund**(机构):与 Eric Schmidt(前 Google CEO)联合创立的国防科技投资基金,旨在加速 Ukraine 无人机生态系统发展。 - **FPV 无人机**(概念):第一人称视角无人机——飞手实时通过机载摄像头看到画面;当前承担 70-80% 的前线伤亡;Ukraine 冲突中占主导地位的战术武器。 - **无人机自主五级体系**(概念):Yaroslav 的分类法,从末端引导(第一级)到完全自主操作(第五级);当前战场部署主要集中在第一至三级。 - **自主战场八维框架**(概念):Yaroslav 用于评估无人机系统的框架,涵盖平台类型、环境、目标类别、集群规模、指挥控制架构、感知模态和基础设施。 - **Defense Valley**(概念):Yaroslav 对 Kyiv/Ukraine 的定名——防务科技未来已率先降临的全球中心,类比消费科技领域的硅谷。 - **无线电地平线**(概念):地球曲率效应,在 30-40 公里射程时切断低空飞行 FPV 无人机的无线电/视频链路;光纤无人机普及的主要技术驱动因素。 - **Shahed**(概念):Iran 设计、Russia 使用的巡飞弹药;固定翼,射程达 2000 公里;西方基地与太平洋场景规划中长程无人机威胁的原型。

Abridge 内幕:AI 如何旁听 1 亿次诊室对话 — Abridge 的 Janie Lee 与 Chai Asawa
Abridge 的 Janie Lee 和 Chai Asawa 与 swyx 及 Redpoint 的 Jacob Effron 联手,带来一期 Latent Space × Unsupervised Learning 跨节目对谈,讲述一款 AI 抄写工具如何演变为医疗行业的"临床智能层"。他们聊到了空调式产品哲学、预授权用例、围绕临床科学家与 LLM 裁判构建的评测栈、HIPAA 如何重塑数据飞轮,以及在 1 亿次以上医疗对话中保持可靠运行的工程代价。 ## [00:00] 开场介绍 Janie Lee 开门见山抛出核心理念:上下文决定一切,警报应从被动变主动,产品本身应像空调一样退隐到背景中,直到临床风险出现才主动介入。swyx 随后插话,呼吁听众订阅节目。 > *"我们一直有个说法——希望产品像空调一样:默默在背后让一切变好。"* — Janie Lee ## [01:17] Abridge 是做什么的 swyx 介绍这是 Latent Space × Unsupervised Learning 年度跨节目对谈,Jacob Effron 应邀加入,因为 Redpoint 是 Abridge 的投资方。Janie 将 Abridge 定位为面向医疗系统的临床智能层,从文档切入:临床医生每周要花 10 到 20 小时写病历,而医患对话是几乎所有下游产物的源头——理赔、结算、诊断莫不如此。Chai 补充道,一旦掌握了患者、付款方、指南和文献的完整上下文,诊前、诊中、诊后的全链路都可以被覆盖。 > *"Abridge 是面向医疗系统的临床智能层。我们真正的起点是文档,为临床医生而建。"* — Janie Lee ## [03:22] 从环境文档到临床智能 Janie 把 Abridge 的发展梳理成三个"幕":省时间(最初的抄写产品,让医生终于能按时收工,不必在家穿着睡衣补病历)、省钱并创收(帮助运营利润率跌至历史低位的医疗系统),以及最终救人命。产品每周被打开数百万次,贯穿每次诊疗的前中后,正是这种高频触点让横向扩展成为可能。 > *"他们管那段时间叫'睡衣时间'……医生下班后穿着睡衣在家补病历,天天如此。"* — Janie Lee ## [05:21] 临床决策支持与上下文为王 Jacob 问 Chai,Abridge 的临床决策支持与他在 Glean 时的经历有何不同。Chai 的对比很直接:在 Glean,答错了顶多让人烦躁;在医疗场景,每一个输出都是高风险的,用户界面也窄得多——角色更少,但每个结果都得靠谱。这决定了从离线评测到灰度发布的所有策略,也呼应了过去十年每场黑客马拉松都有人想做的那个 Jarvis 式"真正了解你的助手"愿景。 > *"那个 Jarvis 愿景——过去十年我参加的每场黑客马拉松都有人做 Jarvis 竞品——但我觉得 Abridge 确实是从这个方向切进来的,而且一直在往那里走。"* — Chai Asawa ## [08:14] 警报疲劳、主动式智能与预授权 Jacob 提出经典的警报疲劳难题:怎么判断什么时候该打破"空调式安静"、真正打断用户?Janie 用预授权举了个具体例子:一张 MRI 申请被拒,今天往往要等几周才能收到通知,而 Abridge 可以在患者还坐在诊室里时就实时提示,依据是付款方政策、EHR 数据、既往诊断和诊所特定的规程。难点在于数据管道:预授权要跑通,助手必须在精确的时机把所有相关信号拼在一起。 > *"要让预授权这个例子成为现实,想想你需要哪些数据。"* — Janie Lee ## [13:53] 环境 AI 的交互形态与医疗客户 swyx 问到交互形态。目前主要入口是手机,但 Abridge 也跑在桌面端、EHR 内嵌的浏览器插件、住院场景的室内设备、护理工作流上,同时开始探索 AR。客户是多边的:CMIOs、CFOs、CIOs、临床医生、患者、付款方和医药公司都在这条链路上,付款方的交互通过结构化数据交换完成,而非直接接触 Abridge 的原始数据。 > *"你们经常谈环境 AI——主要是在手机上吗?"* — swyx ## [18:16] 医疗 AI 最难啃的问题 被问到 Abridge 面临的单一最难问题,Chai 的答案是:在高风险临床场景下同时做到高质量、低延迟、低成本的实时支持。把付款方政策的长尾编码成系统可以推理的中间表示,是其中一个具体例子——Pareto 前沿一直在移动,他们得自己推进,而不是等现成方案。 > *"当然,Pareto 前沿一直在变,而我们现在就得做到这件事。"* — Chai Asawa ## [19:43] 前沿模型、专有数据与模型策略 Jacob 问哪些东西直接拿现成的、哪些自己造。Chai 的框架是:前沿模型不断吸收通用医疗知识,Abridge 的壁垒在于专有医疗对话数据以及在此之上积累的专科特定行为。他们明确追求模型无关——最终只在乎产品体验,按工作流混搭不同模型。 > *"这个用这个,那个用那个,我们只在乎最终的最佳产品体验。"* — Chai Asawa ## [22:24] EHR 作为智能体的文件系统 Chai 对未来一年的判断:每个智能体骨子里都是编码智能体,在医疗场景里 EHR 就是文件系统——一个体量庞大、任何当前模型的上下文窗口都装不下的结构化信息仓库。Janie 补充,目标始终是让临床医生专注于患者:在正确的时刻备好正确的上下文,而不是重演对话。 > *"几乎每个智能体骨子里都是编码智能体,对吧——给它一个文件系统,它能写自己的代码……你可以把 EHR 理解成一个文件系统。"* — Chai Asawa ## [25:20] 个性化、记忆与医生偏好 Jacob 问 Abridge 如何处理每位医生的个性化需求。Janie 的答案是分层的:个人编辑成为信号,专科默认设置叠加其上,医疗系统策略作为最外层包裹。Chai 谈到记忆作为一种新型系统记录——后台任务持续汇总跨诊次的信号,类似人类睡眠整合记忆的机制,让模型从每一次编辑和每一次不编辑中"学习"。 > *"对我们来说另一个有意思的副产品是——记忆其实是一种新型的系统记录。"* — Chai Asawa ## [31:57] 评测体系、LLM 裁判与灰度发布 Janie 拆解了评测栈:内部临床医生跑"LFD"初审,LLM 裁判针对标注数据做校准,第三方评测机构提供独立视角,专科专项评测捕捉通用评测遗漏的问题。Chai 用自动驾驶做类比——他们想尽快接触现实分布,但只通过灰度发布来做,目的是让离线数据集的分布真正匹配生产分布。 > *"我希望尽快接触现实,但我要灰度发布——因为不管离线评测集有多完善,我都希望它的分布真正匹配真实生产分布。"* — Chai Asawa ## [38:04] HIPAA、去标识化与隐私合规 隐私被视为数据飞轮的硬约束。Chai 解释道,凡是用作在线评测或学习基础的数据都必须经过不可逆的去标识化处理,这套流程已经工程化落地。Janie 补充,客户合同还规定了 Abridge 内部哪些人可以接触 PHI,因此能回流到训练数据的门槛不只是政策层面的要求,更是合同层面的约束。 > *"我们使用的任何数据都需要去标识化——凡是作为在线评测集或学习基础的真实数据,都必须如此处理。"* — Chai Asawa ## [40:38] 1 亿次对话与规模化运营 达到 1 亿次以上对话后,关注面随之转移:模型路由、后训练、可靠性预算和单次调用成本都升级为一等公民。Chai 谈到可以向临床医生呈现的洞察,并把时间线拉得更长——最终同一段对话产生的信号可以直接惠及患者和消费者,而不只是医疗提供方。 > *"我们数据集里有 1 亿多次对话,可以想象——有很多洞察可以反馈给临床医生。"* — Chai Asawa ## [45:27] EHR 集成与临床智能层 swyx 追问 EHR 的关系。Abridge 在深度互操作性上投入巨大——EHR 合作是临床医生采用的门槛,但 Abridge 在此之上叠加的价值处于另一个维度:跨诊次上下文、感知付款方的推理,以及 EHR 本身因结构限制无法产生的临床智能。 > *"EHR 是关键合作伙伴之一,我好奇这段关系是什么样的。"* — swyx ## [47:56] 医疗监管、延迟与高风险 AI Jacob 问 Abridge 从监管中学到了什么。Janie 的回答颠覆了常见叙事——医疗 AI 其实有监管顺风:正因为门槛极高,最硬的问题反而会在这里率先被解决。Chai 聊到他们现在发布的那些"聪明招数",并坦承接受一个现实:其中有些五年后会被时代淘汰。 > *"我认为正因为门槛极高,最难的 AI 问题会在这里率先被解决。"* — Janie Lee ## [51:28] 临床科学家与长尾质量 Janie 介绍了 Abridge 内部的一个角色——临床科学家:既是 MD 又懂技术,从全栈工程师到"极其灵活的提示工程师"都有。把他们嵌入产品和评测团队,拉高了上线门槛,因为制定 LFD 标准的人,正是真正理解"临床有用"意味着什么的人。swyx 将此类比为针对已知薄弱点的主动学习——那种在大多数 AI 团队里已近乎失传的打磨功夫。 > *"我们有个叫临床科学家的角色,最近听我们一位负责人管他们叫'变种人'。"* — Janie Lee ## [54:21] 从 Glean 带来的经验与持久 AI 基础设施 Jacob 问 Chai 从 Glean 带来了什么。答案主要是关于什么东西经得起时间考验——上下文层、事件驱动系统、Kafka、Temporal、Sockets、来自 Google Docs 协作模式的 CRDTs。多智能体系统继承了人类组织中同样的冲突解决问题,过去十年的基础设施模式并没有被抛弃,而是被重新赋能。 > *"有很多事件驱动技术——无论是 Kafka、Temporal、Sockets 等等——如何把这些整合在一起,我认为确实是持久有效的。"* — Chai Asawa ## [58:20] 医疗智能体工作流的未来 一段简短交流,讨论更具智能体特性的 Abridge 会是什么样:仍以临床医生在医患关系中的角色为锚点,但承担更多后台工作——对检验结果作出响应、起草随访内容、代替临床医生执行更多能力,而不是取代这段关系本身。 > *"代表临床医生承担更多能力——我们相信临床医生在患者连接等方面有不可替代的重要角色。"* — Chai Asawa ## [58:51] PRD、产品清晰度与构建严肃的 AI 产品 Jacob 的快问快答:过去一年里你改变了哪个 AI 观点。Janie 反转了流行叙事——原型并非万能,PRD 也没有死。产品越复杂、AI 驱动程度越高,书面清晰度的价值反而更大,而不是更小。这一节的其余部分聚焦于在医疗场景构建严肃 AI 产品:所有权、书面规格纪律,以及抵制演示驱动开发。 > *"更辣的观点是原型才是终极答案、PRD 已经死了。"* — Janie Lee(她改变看法后否定的那个观点) ## [64:28] Abridge 的 AI 编程工具 swyx 的固定收尾问题。Abridge 内部使用 Claude Code 和 Cursor,Jacob 则开了个半玩笑的基准测试——他想看 Claude 掌管一家估值 10 亿美元、尚未盈利的公司。 > *"Claude 要来做这件事了——我想看 Claude 去运营一家估值 10 亿美元、尚未盈利的公司。"* — Jacob Effron ## [65:23] 结尾 Chai 引导听众前往 Abridge 官网查看他们的白皮书——涵盖幻觉减少、评测体系等研究成果。swyx 和 Jacob 致谢并收尾。 > *"在 Abridge 官网,我们发布了很多白皮书,包括我们在减少幻觉方面做的大量工作。"* — Chai Asawa ## 实体 - **Janie Lee**(人物):Abridge 早期核心运营者,负责产品与商业化,主导临床智能层建设。 - **Chai Asawa**(人物):Abridge 临床决策支持负责人,曾任职于 Glean。 - **swyx**(人物):Latent Space 主播。 - **Jacob Effron**(人物):Redpoint Ventures 合伙人,Unsupervised Learning 播客主播。 - **Abridge**(机构):医疗 AI 公司,构建临床智能层——从环境文档起步,现已扩展至决策支持、预授权、评测体系和 EHR 集成。 - **Glean**(机构):企业级 AI 搜索公司,Chai 的前东家,作为横向产品与垂直医疗的对照参照。 - **Redpoint Ventures**(机构):风险投资机构,Abridge 投资方,Unsupervised Learning 跨节目对谈的发起背景。 - **EHR(电子健康记录)**(概念):医疗系统运行所依赖的核心记录系统;Chai 的框架将 EHR 类比为医疗智能体的文件系统。 - **预授权**(概念):Abridge 的核心用例——将数周后才能收到的付款方拒绝通知,转化为患者仍在诊室时的实时提示。 - **LFD 流程**(概念):Abridge 内部由临床医生主导的初审流程,用于校准 LLM 裁判并定义评测标准。 - **临床科学家**(概念):Abridge 内部角色,既是 MD 又懂技术,嵌入产品和评测团队。 - **灰度发布**(概念):Abridge 的部署纪律——向一小部分真实流量发布,确保离线分布贴近生产分布,参照自动驾驶的发布模式。 - **Claude Code**(软件):Abridge 内部使用的 AI 编程工具。 - **Cursor**(软件):Abridge 内部使用的 AI 编程编辑器。

⚡️ Matt Pocock - 为何工程基础在 AI 时代更加重要
Matt Pocock 在 AI Engineer Europe 与 swyx 共同论证:旧日软件设计经典——DDD、深模块、统一语言——在 AI 编码时代不是过时了,而是更加重要。核心论点:代码不只是编译目标;对人类来说易于修改的代码库,对 AI 同样易于修改。两人沿途还聊到课程制作、为何传统讲授仍胜过 AI 原生学习,以及 TypeScript 悄然主导 AI 工程生态的现象。 ## [00:04] AIE Europe 开场与魔咒课程 swyx 在伦敦 AI Engineer Europe 播客展台迎接 Matt。Matt 开玩笑说 AIE 是他参加过"最糟糕"的活动(实际上场地令人叹为观止),随后谈到他刚结束两周制的 Claude Code 课程。他解释了为何采用短期集训制:AI 发展太快,自主进度课程无法保证及时更新,而"魔咒"——在课程发布时碰上颠覆性变更——已成常态:AI SDK v4 课程第二天 AI SDK v5 就发布了,这次 Claude Code 课程期间源码又意外泄露。 话题随后转向教学本身作为一种手艺。Matt 拒绝成为"预言者"型 YouTuber——他不预测未来,只教授经久耐用的内容——并指出"教师优先"的定位是他内容的核心差异所在。 > *我不是那种试图预测未来的人。我只是想教好东西。* ## [02:51] 为何工程基础在 AI 时代更加重要 Matt 预告了他在 AIE 的演讲主题。流行叙事说代码已不重要,因为英语加上 AI 编译器就能生成应用程序。但每次他试图忽略代码,最终都落得"一团糟"。于是他重拾经典——《极限编程》《程序员修炼之道》《软件设计哲学》以及 DDD——并发现这些原则可以直接移植到提示词中。即便将实现委托给 AI,仍在脑中维护架构,会带来超额回报。 > *如果你的代码库对人类来说易于修改,那它对 AI 来说也会同样易于修改。* ## [04:23] 窄腰架构与深模块 swyx 引入互联网架构中的"窄腰"概念(TCP/IP、HTTP 处于第 3-4 层),将其作为约束 AI 生成混乱代码的方法:定义严格接口,委托内部实现。他将这一思路延伸到以九人团队运营 AIE——"模型-视图-爪"(model-view-claw)而非 MVC,人与 AI 之间的协调才是真正的系统问题。 Matt 将此映射到 John Ousterhout 的"深模块"概念:在简单接口背后封装大量功能,即端口与适配器风格。这在他的经验中是将 AI 用于编码的最佳方式——人类负责把控接口,然后将实现委托给 AI。 > *深模块本质上就是——用简单的接口封装大量功能。有点像端口与适配器,对吧?* ## [06:37] 领域驱动设计遇见 AI DDD 正在迎来复兴,Matt 认为这是因为这套框架已经存在足够长时间,已沉淀进这些模型的潜在空间。你不需要发明新词汇;你可以接入一个模型已经理解的、可组合的体系。更深层的原因:DDD 从根本上就是关于让代码与语言对齐——而这恰恰是与 AI 对话时最需要的事情。 他用 `mattpocock/skills` 仓库(约 1.3 万星)及其"统一语言"技能加以具体说明——这是一个 Claude Code 技能,可扫描代码库、挖掘晦涩的术语,并与你共同将其提炼成一个 Markdown 文件,他在提示时会一直保持打开状态。他在 `agents.md` 中引用了它,但不会整段粘贴,这样 Agent 在搜索这些词汇时能自行找到它。 > *本质上,你是在构建一个统一的领域模型,让 AI 和你说同一种语言。* ## [10:05] 教学作为一种超强技能 swyx 问 Matt 是如何把事情讲解得如此出色的。Matt 的答案是:在成为开发者之前,他做了六年声音教练——当他以初级开发者身份入行时,沟通能力感觉就像一种不公平的优势。此后他不断收窄焦点:将时间对半分给学习材料和寻找合适的表达方式。经典著作在这方面帮助很大,因为它们提供了现成的心智模型,让他能借此解释新概念。 他还介绍了自己的课程制作流程:一个"探索与利用"阶段、卡片盒笔记风格的 Obsidian 知识库、一个定制规划应用、P1/P2/P3 优先级排序,以及"每节课只教一件事"且显式声明依赖关系的原则。他生产的大部分内容最终都被剪掉了。 > *沟通能力一直让我感觉是一种荒谬的超强技能,是我口袋里旁人都没有的东西。* ## [13:20] 人们究竟如何学习 AI 工程 话题转向 AI 是否改变了人们的学习方式。Matt 区分了知识(讲授)、技能(互动练习)和智慧(小组讨论——如今也包括与 AI 对话)。反直觉的是,他越是倾向于 AI 实验性教学,越会让受众反感。大多数学习者仍然希望接受传统讲授;swyx 回忆起 Maven 的基于集训的教育路径最终也落在了同样的地方。 Matt 的折中方案是强制完成作业,但不强制形式:在 TypeScript 课程材料中,他先让学习者直面问题,之后再给予知识讲解。 > *我越是倾向于那种 AI 实验性的东西,实际上就越会让人们对我的材料产生抵触。* ## [15:04] TypeScript 超越 Python swyx 指出 TypeScript 今年在 GitHub 调查中超越了 Python——这是他未曾预料到的转变,尤其是在 Python 的表达力一直主导后端 AI 工程的背景下。Matt 的信息茧房 100% 是 TypeScript,但他真正的论点在于生态系统:当你关注用户体验和交付聊天类应用时,框架引力在 TypeScript 一侧(Vercel 的 Next.js、Cloudflare 的各种变体)。swyx 承认这将实质性地改变他所推广的框架选择。 > *如果你关注用户体验,关注交付优质产品,你大多数时候都是在用 TypeScript 做。* ## [16:45] 控制反转与可组合技能 Matt 展望未来。他押注的 TypeScript 评估工具(Everlight)陷入停滞——"没人想做评估"。下一个前沿是*控制反转*:随着编码 Agent 在架构上趋于同质化(Firebase 风格后端、小型工具集),真正有趣的维度变成了控制权究竟掌握在开发者还是运行框架手中。Claude Code 的不透明性换来了易用性,但牺牲了可观测性;Pydantic AI("Pi")走向另一个极端——完全控制,完全维护负担。 他最后将视野拓展到编码 Agent 之外。软件工程师目前领先一步,是因为 AI 在他们的领域能产出高质量输出;但他编写的可组合技能——比如那个三句话"审问我"技能,让 AI 不断追问直到双方达成共同理解——可以推广到任何你希望 AI 与你保持一致的领域。 > *控制反转将变得非常重要——你把更多控制权交给开发者,而不是交给运行框架。* ## 实体 - **Matt Pocock**(人物):Total TypeScript 与 AI Hero 的创始人;通过两周制集训课程教授 TypeScript 和 AI 工程。 - **Shawn Wang / swyx**(人物):主持人;AI Engineer 及 AIE 系列会议的创始人。 - **AI Engineer Europe (AIE)**(组织):本次对话录制地点,位于伦敦;Matt 的演讲在 13 天内获得 100 万次观看,创 AIE 历史最快纪录。 - **AI Hero**(组织):Matt 的 AI 工程教育平台(aihero.dev)。 - **Claude Code**(软件):Anthropic 的编码 Agent;Matt 刚结束课程的主题,也是全程反复出现的示例。 - **Domain-Driven Design (DDD)**(概念):以将代码与业务领域语言对齐为核心的软件方法论;Matt 认为它可以直接移植到 AI 提示中。 - **Ubiquitous Language**(概念):DDD 中维护共享词汇文档的实践;Matt 同名的 Claude Code 技能可扫描代码库并与用户共同提炼这份词汇表。 - **Deep Modules / Narrow Waist**(概念):架构模式(Ousterhout / 互联网协议):在小接口背后封装大量功能——Matt 在 AI 辅助代码库中偏好的架构形态。 - **mattpocock/skills**(软件):Matt 的开源 Claude Code 技能仓库;录制时约 1.3 万星。 - **Pydantic AI (Pi)**(软件):基于底层原语构建的 Python Agent 框架;被引用为 Claude Code 不透明框架的高控制度对立面。 - **Obsidian**(软件):据报道由四人团队运营的笔记应用;用作非工程领域 AI 杠杆效应叠加的示例。

🔬GPT-5 如何在理论物理与量子引力领域推导出新成果 — Alex Lupsasca,OpenAI
Alex Lupsasca——2024 年新视野突破奖得主、OpenAI 驻场科学家——讲述了 GPT-5 如何破解量子场论中一个困扰研究者长达一年的开放难题:证明单负胶子树图振幅非零,并找到其紧凑的闭合形式。他随后介绍了公开版 GPT Pro 如何以胶子论文为起点,在不到三天的人类时钟时间内独立将结果推广至引力子振幅。对话中,Lupsasca 深入思考了这一轨迹对物理学研究方式、新一代物理学家培养模式的意义,以及现存的核心瓶颈——验证、创造力与出版基础设施。 ## [00:00] AI 对物理学研究的影响:开篇 Lupsasca 开门见山,在正式介绍前先阐明本期节目的核心论断:AI 已越过一个临界点,能够解决困扰人类专家超过一年的问题。他认为,这不仅是理论物理学家的个案,更是科学发现本质上的深刻变革——尽管这一变革尚未得到足够的重视。 > *"这是我们已经跨越的某个里程碑,对于普通大众来说也许不太显眼,但我认为这是一次极其深刻的变化,我们确实跨越了某种阈值。"* ## [00:43] 嘉宾介绍:Alex Lupsasca 主持人 Brandon(Atomic AI)和 RJ Honicky(Miro Omix)介绍了 Lupsasca:范德堡大学教授、OpenAI 研究员,同时持有 2024 年新视野物理学突破奖(常被称为"科学界的奥斯卡")和 IUPAP 青年科学家奖。Lupsasca 随即勾勒出叙事主线:一年前,AI 对他的科研毫无帮助;ChatGPT o3 是第一个真正助力数学研究的模型;而 GPT-5 在 30 分钟内重现了他最难的一篇已发表成果。 > *"GPT-5 问世时,它在大约 30 分钟内重现了我耗费大量心血才得出的最佳论文之一。就是从那一刻起,我真正被 AI 彻底说服了。"* ## [02:49] Alex 加入 OpenAI 及物理学研究的转变 GPT-5 发布后,Lupsasca 开始向持怀疑态度的同行宣传这一转变。他发现 OpenAI 同样对此充满热情,加之正值学术休假,便以驻场科学家身份加入——成为全球物理学家在发现惊人成果时第一个联系的人。他提到那周收到的一个案例:Codex 在 10 分钟内模拟了 Sachdev-Ye-Kitaev(SYK)模型,而这是许多研究团队因物理与编程技能交叉面窄而长期难以实现的壮举。 > *"我与 OpenAI 交流,他们也非常兴奋。我想,我必须参与其中,必须亲眼见证这一切。置身事外将是巨大的错误,所以我决定去 OpenAI。"* ## [04:08] GPT-5 的发布与能力跃迁 Lupsasca 将 Twitter 上对 GPT-5 的冷淡反应(抱怨写邮件没有更好)与他在科学前沿的亲身观察形成鲜明对比。他指出 GPT-5.4 又是一次重大跃升,并描述了自 o3 以来 AI 在物理领域的能力加速提升——o3 是第一个具备研究级数学水准的推理模型。他以此引出本期节目的核心技术故事:关于胶子和引力子散射振幅的两篇新论文。 > *"在科学前沿,AI 的能力正在真正腾飞。"* ## [10:05] 量子场论与振幅计算详解 Lupsasca 深入浅出地介绍了量子场论(QFT)——这一将狭义相对论与量子力学统一起来的理论框架。QFT 的核心对象是散射振幅:复值函数,编码了一组入射粒子(具有特定能量、动量和极化)散射为出射粒子的量子概率。这些振幅在 LHC 等粒子对撞机中得到计算,而 n 点振幅(对任意粒子数 n)几乎编码了理论的全部内容。 > *"如果你有一种特定的力,并且能够计算 n 点振幅……你就掌握了关于该理论的一切。"* ## [14:20] 胶子与强力概述 胶子是强核力的传播粒子——正是这种力克服了质子间的同性相斥,将原子核紧紧束缚在一起。胶子在量子场论中的地位类似于电磁力中的光子和引力中的引力子。与光子一样,胶子携带极化(螺旋度):正(右手)或负(左手)。这种螺旋度结构是下一篇论文的核心。 > *"强力通过交换强力粒子来传递,这些粒子被称为胶子,因为它们将原子核'粘合'在一起。"* ## [14:38] 第一篇研究论文:单负胶子树图振幅 Lupsasca 逐字拆解论文标题——"单负胶子树图振幅非零"。树图振幅是散射的领头阶(无圈)贡献。全正螺旋度振幅由对称性论证严格为零。单负振幅——除一个胶子外其余均为正螺旋度——在教科书中也被同样的论证假定为零。这篇论文证明了它们并非为零。相关工作由 Alfredo Guevara(IAS)、David Skinner(剑桥大学)、Andrew Strominger(哈佛大学)和 Kevin Wheel 合作完成。 > *"如果你查阅相关讲义和教科书,用于排除全正振幅的同一论证,表面上同样适用于单负振幅。"* ## [20:56] ChatGPT 如何破解困扰一年的物理难题 Strominger、Guevara 和 Skinner 已认识到教科书论证存在一个漏洞约一年:当粒子共线(动量方向完全对齐)时,标准量纲分析推理失效,单负振幅可以非零。但计算这些非零振幅的具体数值一直让他们一筹莫展。Lupsasca 邀请 Strominger 访问 OpenAI 并用 AI 攻克这一问题。在 Strominger 登机前一周,Lupsasca 开始使用 ChatGPT Pro。等 Strominger 落地时,答案已经找到。 > *"用 ChatGPT,我们在他下飞机前就解决了这个问题。"* ## [23:02] 物理学中手算的复杂性 Lupsasca 以一个具体例子向听众展示了难度所在:由 Alfredo Guevara 手工推导的六点单负振幅,是 32 项之和,每一项本身又是四个复杂因子的乘积。项数随粒子数 n 阶乘增长——超指数级爆炸。这正是团队一年来苦苦寻找 Parke-Taylor 公式类比物时面对的混乱表达式。 > *"等到六点时,它就在你面前爆炸了。"* ## [26:12] 费曼图的历史与原理 费曼图是 Richard Feynman 发明的一种视觉语言,用于组织微扰量子场论计算:图形代表散射过程的可能中间历史,完整振幅是所有图形的求和。图形按顶点数(相互作用点)分类;每增加一个顶点,贡献受耦合常数压低,因此树图(最少顶点)占主导。圈图——中间粒子产生后湮灭——贡献更小的修正。树图的组合爆炸正是阶乘增长的根源。 > *"原则上,需要对无穷多张图求和。"* ## [27:44] Parke-Taylor 公式与化简的追求 20 世纪 80 年代,Parke 和 Taylor 通过艰苦的费曼图展开计算了"最大螺旋度违反"(MHV,即双负)胶子振幅。尽管项数呈阶乘增长,一切相互抵消后只剩下一个紧凑公式——Parke-Taylor 公式——半行即可写下。Strominger、Guevara 和 Skinner 花了一年时间寻找单负情况下的类似公式,却一直困于混乱的费曼图表示。 > *"Andy、Alfredo 和 David 花了过去一年追寻 Parke-Taylor 公式的类比——那个 80 年代为双负振幅找到的极简答案。"* ## [31:26] 用 ChatGPT 在特殊相空间区域寻找化简形式 当五点单负振幅被输入 ChatGPT Pro 后,模型识别出相空间的一个特殊子区域(某粒子频率符号相反),在该区域振幅从八项化简为三项之积。这似乎是一个此前未知的事实;模型编写了 Python 代码并测试了数千种可能性,从中推断出这一规律。对于六点振幅(Guevara 的手算结果),ChatGPT 将 32 项化简为 4 项之积。随后它猜测了一般 n 点公式——项数仅线性增长,是可能达到的最优行为。GPT-5.2 Pro 猜出了公式,但无法给出证明。 > *"它提出的公式……项数不再阶乘增长,而是线性的。粒子数翻倍,项数也只是翻倍。"* ## [38:07] 从头证明公式以确保有效性 为了获得证明,Lupsasca 使用了 OpenAI 内部具有扩展推理能力的模型。他从零给出问题——没有提供猜测公式——让模型在特殊相空间区域寻找一般答案。经过 12 小时计算,模型独立重新发现了相同的公式,并给出了完整的三步证明。这一证明构成了已发表论文的主体。团队将 AI 的贡献压缩在一段文字中,将论文定位为一个独立成立的物理学成果。 > *"我们从头给出整个问题……它回来时给出了同一个公式——我们并未提供这个公式。它独立重新发现了正确答案,而且这次还找到了证明。"* ## [41:00] 评估科学影响与未来研究方向 被问及与 Parke-Taylor 公式的比较时,Lupsasca 坦言科学影响只有数十年后才能评估,但他认为这一结果确实出乎意料,并应为量子引力的深层问题开辟新的攻克路径。对话随之自然过渡到第二篇论文。 > *"我认为一篇论文的真正价值,只能在数十年后根据它引发了多少后续工作、开辟了哪些新方向才能评定。"* ## [42:27] 第二篇论文:引力子振幅概述 引力子是引力的假想量子——自旋为 2 的力传播粒子,类比于自旋为 1 的光子(电磁力)和胶子(强力)。与胶子不同,引力子从未被直接探测到,但它是量子引力理论的核心。第二篇论文"单负引力子树图振幅非零"表明,同样的漏洞适用于引力,紧凑公式也可推广至此——尽管引力子在数学上比胶子更为复杂。 > *"我们写了这篇论文,题目是'单负引力子树图振幅非零'。几乎与前一篇相同,只是将胶子换成了引力子。"* ## [45:41] 粒子、不可约表示与对称性的定义 Lupsasca 概述了量子场论对粒子的现代定义(Poincaré 群的不可约表示,由 Wigner 按质量、自旋和荷分类),并解释了为何引力子自旋为 2 而胶子和光子自旋为 1,使得引力子的极化数据比胶子丰富一倍。关键在于,第二篇论文在第一篇公开后三天内即告完成——大部分时间用于验证正确性,而非计算本身。 > *"大部分时间花在验证答案上,而非写作——如果退一步想,这实在令人震惊。"* ## [47:46] GPT Pro 如何将研究推广至引力 引力子论文无需使用内部模型——公开版 ChatGPT GPT-5.2 Pro 已足够。Lupsasca 提供了胶子论文作为上下文,加上两段描述关键数学变化的文字,然后说"加油,你是一位才华横溢的理论物理学家。"在长达 110 页的交流中,模型完成了引力子计算——应用了有向矩阵树定理(一个 Lupsasca 及合作者此前未曾想到援引的组合数学工具)——产出了正确的中间结果,并从第三节起写出了与最终 arXiv 版本高度接近的论文草稿。 > *"这是量子引力领域一个真实、扎实的成果,几乎完全由 AI 完成,由人类掌舵并提出正确的问题。"* ## [53:57] 认识论转变:这是做物理的新方式吗? 主持人提出核心认识论问题:如果一名具备领域知识、善于提示的本科生也能完成这项工作,研究生训练意义何在?Lupsasca 认为这是学术界面临的最难开放问题。他指出,艰苦的手算训练的不仅是技能,更是自信心;课程与研究前沿之间的鸿沟正在拉大;许多导师曾布置给学生的"简单"问题,AI 如今数分钟即可解决。他提出 AI 已改变他个人工作方式的两个具体例子:大幅缩短了步骤间的困惑时间,以及能够同时派出多个 AI 侦察兵探索不同研究方向。 > *"有了 AI,你可以同时开启 10 个对话,让每个对话尝试不同路径,作为快速深入未知领域的侦察兵。"* ## [59:27] AI 作为研究方向"侦察兵"的角色 Lupsasca 进一步阐释"侦察兵"比喻:研究者不必再谨慎地从 A 规划到 C 才开始行动,而是可以同时派出多个 AI"侦察兵",迅速获得各方向是否可行的反馈,并相应地重新分配人类注意力。即便侦察兵出错,其标记的路标也能降低后续人类探索的定向成本。这构成了一种质地全新的研究模式——瓶颈从计算转向了对哪个方向更重要的判断力。 > *"即使 ChatGPT 并不总是对所有事情都对,但拥有一个在关键步骤沿途标记路标的侦察兵,让你能够以此锚定自己的前进,是极其有用的。"* ## [61:44] "品味"的作用与 AI 的协作 主持人深入探讨"品味"问题——识别哪些问题处于知识边界的能力。Lupsasca 认为,有效使用 ChatGPT 需要与教授指导学生相同的技能:知道给出什么问题、细化到什么程度。"品味"——知道前沿在哪里、哪些问题在那里是可解决的——是最后才能养成的技能,也是 AI 目前尚不具备的能力。AI 就像一位技术能力极强的研究生:给定明确、表述清晰的问题,它能够正确完成极其艰难的计算,但它还不知道该问哪个问题。 > *"优秀物理学家与卓越物理学家的区别在于,知道什么是正确的问题——这才是成为科学家最难的部分。"* ## [70:23] 从 AI 怀疑者到驻场科学家的个人转变 Lupsasca 回顾了自己的个人历程:怀疑者→被 o3 说服(11 分钟内完成了他本人需要数天的计算)→被 GPT-5"彻底说服"(在 30 分钟内重现了他关于黑洞 Love 数与潮汐对称性的最佳发表成果——而该论文的 arXiv 发布时间晚于模型的训练截止日期)→现为 OpenAI 驻场科学家。他指出,当时没有任何竞争对手模型能在那项计算上与 GPT Pro 匹敌。 > *"不到 30 分钟,加上一个提示……它彻底解决了这个问题,而这是我做过的最精妙的计算之一。"* ## [72:46] 用 GPT-5 解决黑洞微扰问题 Lupsasca 详细讲述了让他彻底转变的"第 37 手"时刻:他的论文《为什么黑洞没有 Love?》建立了 Kerr 黑洞微扰的新对称生成元(解释了为何黑洞 Love 数——以数学家 Augustus Love 命名的潮汐响应系数——精确为零)。首次将完整问题直接提供给 GPT-5 Pro 时,模型失败了。但在用较简单的平直时空热身(一个有 200 年历史的已知结论)预热后,模型在 18 分钟内解决了完整的 Kerr 黑洞问题。 > *"GPT-5 能够重现我最艰难的计算之一——全世界能做到这件事的人,屈指可数。"* ## [76:34] AI 能否实现原创性的概念飞跃 主持人追问 AI 是在做真正的重新组合还是真正的创造性飞跃。Lupsasca 引用了陶哲轩的观点——他迄今尚未看到一个无法追溯到某篇冷僻文献的 AI 证明。但 Lupsasca 印象深刻,并将这一区别定性为程度而非性质之别——人类或许也只是重新组合机器。他相信持续的规模扩展将带来看起来像创造力的洞见,并指出 OpenAI 正积极致力于让模型实现更大、更超出分布的飞跃,以服务于科学发现。 > *"我不确定这里有什么质的区别。我认为这只是程度问题——随着我们持续扩大规模,我看不出有什么理由会停下来。"* ## [80:09] "AI 垃圾"的挑战与学术出版的未来 随着模型现在能够在适当引导下 30 分钟内产出一篇物理论文,arXiv 预印本服务器正被大量投稿淹没。Lupsasca 区分了合理使用(专家引导+仔细验证)与"AI 垃圾"——在没有充分检查的情况下提交的低质量提示输出。他提出的对策:提高标准而非增加数量。单负振幅论文为真正的量子引力问题开辟了清晰的攻克路径;目标应是追求更难的问题,而非增量式发表。 > *"相反,我认为既然我们拥有了这个赋予 AI 超能力的新工具,就应该提高撰写好论文的标准。"* ## [83:13] 撰写学术论文的瓶颈 被问及希望消除的单一瓶颈时,Lupsasca 选择了论文写作本身——他越来越觉得奇怪:研究者用 AI 做计算,将结果压缩进静态论文,然后读者再把论文输入 AI 来理解。他设想了可交互的、内嵌 LLM 的论文作为可能的未来。他还指出当前模型缺乏的两项能力:(1)识别下一个重要问题的创造力火花;(2)可靠的自我验证,使人类不必完全承担检查 AI 生成的长篇证明的责任。 > *"也许是某种活在某个 LLM 中的交互式论文。也许你的整篇论文就是某个 ChatGPT 页面……我认为我们正在朝那个方向前进。"* ## [90:19] 结语与展望未来一年 Lupsasca 的结语:请认真关注。从"写邮件有用"到"解决量子引力开放问题",这段轨迹大约历经 18 个月。模型正在解决专家群体花费数年之久的开放问题。向前推演,随着更多规模扩展已在路上,未来 6 到 12 个月将带来更多惊喜。正确的姿态是:保持兴奋、仔细验证,并致力于追求更难的问题。 > *"如果你把这一趋势外推到未来,想象一下 6 个月或一年后我们会在哪里——我认为活在这个时代有点超现实,但这一切确实正在发生。"* ## 实体 - **Alex Lupsasca**(人物):理论物理学家,范德堡大学教授,OpenAI 驻场科学家;2024 年新视野物理学突破奖和 IUPAP 青年科学家奖得主;黑洞物理与散射振幅领域专家。 - **Andrew Strominger**(人物):哈佛大学教授,Lupsasca 博士导师;天体全息学先驱;两篇单负振幅论文的共同作者。 - **Alfredo Guevara**(人物):普林斯顿高等研究院(IAS)博士后研究员;完成了 AI 辅助突破背后的基础手算工作。 - **David Skinner**(人物):剑桥大学教授;单负胶子振幅论文共同作者。 - **陶哲轩**(人物):菲尔兹奖得主,加州大学洛杉矶分校数学家;在 AI 证明是否具备真正创造力的问题上被引用。 - **散射振幅**(概念):量子场论中编码粒子散射概率的复值函数;两篇论文讨论的核心数学对象。 - **单负胶子/引力子振幅**(概念):除一个粒子外其余均为正螺旋度的树图散射振幅;教科书中曾被假定为零,但论文证明在共线相空间区域非零。 - **Parke-Taylor 公式**(概念):20 世纪 80 年代推导出的最大螺旋度违反(MHV,双负)胶子振幅紧凑闭合形式;单负振幅所寻求的类比公式的范本。 - **费曼图**(概念):组织微扰量子场论计算的图形技术;各图形代表不同中间粒子历史,振幅为所有图形之和。 - **Love 数**(概念):编码潮汐形变能力的系数;以数学家 Augustus Love 命名,对黑洞精确为零,这一事实与 Lupsasca 论文《为什么黑洞没有 Love?》所研究的隐藏对称性相关。 - **天体全息学**(概念):通过散射振幅结构探索量子引力对称性的研究纲领;是研究引力子振幅的动机之一。 - **OpenAI**(组织):Lupsasca 担任驻场科学家的 AI 研究公司;GPT-5 及用于振幅证明的内部扩展推理模型的开发者。 - **arXiv**(组织):物理与数学开放获取预印本服务器;在 AI 生成"垃圾"大量涌入投稿的背景下被提及。 - **GPT-5 / ChatGPT Pro**(软件):OpenAI 的前沿语言模型,两篇振幅论文中使用的主要 AI 工具;能够进行每次提示 20-34 分钟的扩展推理。