LaiDub

播客听见世界的声音，看见思想的刻度

浏览频道

全部 AI 与科技商业科学文化政治哲学健康

我们实测了 Anthropic 的 Fable 5 一周

Every CEO Dan Shipper 在 Fable 5 公开发布前，获得了整整一周的内测资格。Fable 5 是 Anthropic 的 Mythos 级前沿模型。他用完之后，坦言自己被真正改变了。Every 的高级工程师基准测试给 Fable 打出了 91/100，而 Opus 4.8 只有 63 分，GPT-5.5 是 62 分。Dan 把这种提升描述为"曲速引擎"级别的飞跃——专为持续自主执行大型任务而生。模型速度慢、价格高、消耗 token 多，但对于需要编排多小时自主任务的人来说，目前没有任何模型能与之相提并论。 ## [00:00] 一条提示词，生成无限延伸的 3D 图书馆 Dan 以一个现场演示开场：一座完全可以漫游的 3D 版博尔赫斯《巴别图书馆》，六边形的长廊、忠实原著数学设定的空间结构、可用的书签功能，全部由一条提示词生成。他给 Fable 一行指令：读这篇小说，自己规划，然后端到端地交付一个可在浏览器中游玩的 3D 游戏。模型自主运行了三到四个小时，自我检查，最终交付。 > *"我用 Fable 5 写了一条提示词，就做出了这整个东西。Fable 5 是 Anthropic 的新模型。"* ## [01:22] 我们的 Fable 5 发布日评测 Dan 介绍了自己和 Every 的测评方式：他们用真实的生产任务亲手测试模型，涵盖编程、写作、设计和商业决策，然后报告实际效果。Fable 在发布前就积累了异乎寻常的热度，Anthropic 起初甚至表示它危险到不适合公开发布。内测一周后，Every 的判断是：这个模型确实与众不同。Dan 这次的目标，是拨开炒作的迷雾，呈现一幅真实的图景。 > *"我们已经用这个模型用了大概一周，所以可以稍微揭开一下面纱，让你看看与这个模型朝夕相处是什么感觉。"* ## [02:25] 什么是 Mythos 级别的模型 Mythos 是 Anthropic 新设立的顶级模型系列，在其产品线中位于 Haiku、Sonnet 和 Opus 之上。架构上并无新意，仍是同一个 Transformer 家族，只是规模更大。Anthropic 为此加入了严格的安全护栏，禁止用于网络攻击和生物技术场景，才得以公开发布。定价高昂：输入每百万 token 10 美元，输出每百万 token 50 美元，大约是 Opus 的两倍。Dan 用了一周后的结论是：这是他用过的最强大的编程模型，差距悬殊。 > *"它确实是我用过的、目前为止最强大的编程模型。"* ## [03:28] 高级工程师基准：91/100 Every 有一套自己的高级工程师基准：把一份真实的"随手糊出来的"生产代码库交给模型，要求它像高级工程师一样从头重写。Fable 之前的最高分是 Opus 4.8 的 63/100，GPT-5.5 以 62 分紧随其后。Fable 拿了 91 分，仅凭一条提示词就达到了人类高级工程师的水平。Dan 原本预计这个基准要六个月才会被突破，结果两周就发生了。 > *"Fable 在这个基准上得了 91 分。91/100。这和一个人类工程师只用一条提示词得到的分数一样。太离谱了。"* ## [04:12] 为什么用起来像曲速引擎 Fable 的核心优势在于能够在多小时的任务中持续自主执行。你给它一个目标，让它跑着，回来时已经大功告成。不像早期的 Claude 模型对什么都一口答应，Fable 会深思熟虑，在某件事做不好时主动推后，并且能在提示词宽泛的情况下贯彻执行复杂任务。Dan 的比喻是曲速引擎——不是瞬间传送，但能把原本需要几个月的事压缩到几个小时里完成。 > *"你可以给它设定一个远途的目的地，它会把通常需要几年或几个月的事，压缩到几个小时或几天。"* ## [06:10] 模型的短板在哪里曲速引擎的比喻有两面：它不适合在城里跑短途。紧密的来回协作、快速提问、快速迭代，这些场景 Fable 都不擅长。它速度慢、价格贵、大量消耗 token。一个不那么直观的变通方法是：对于简单问题，把推理级别调到中档或低档，Anthropic 内部员工自己也是这么用的。没有一个够大够复杂的问题扔给它，这个模型就是大材小用。 > *"如果你想用它来真正协作、快速提问，或者处理需要频繁来回的事情，我觉得它并不擅长。"* ## [07:04] 用它搭建一个海德格尔讲座网站 Dan 描述了这样一个任务：他让 Fable 找到哲学家 Hubert Dreyfus 2007 年关于海德格尔的讲座，连 URL 都没给，然后把它们做成一个可消费的迷你网站。Fable 自己找到了这批讲座，为每讲写了摘要，搭建了一个同步播放器，音频播放时字幕实时高亮，加上章节导航、首字下沉和版式设计。Dan 评价这些排版选择"有真正的品味"，而不是千篇一律的模板输出。一条提示词，没有任何脚手架。 > *"这就是我说这个模型有真正出色的品味和细节把控时，我的意思所在。"* ## [09:05] 从用户数据里找增长机会 Every 有约 10,000 名付费订阅者和约 100,000 名免费用户，还积压着一批团队用 AI 分析了数周却始终没有得出清晰结论的调研数据。Dan 把这些全部喂给了 Fable。模型一次扫描后直接给出结论："你们有一个付费转化的营销问题。免费转付费的比例比正常水平低。"然后给出了一个可以验证的赌注：上线透明定价和试用优惠，转化率就会上升。这种综合解读，把调研回复、网站数据和产品现状放在一起看，是团队分析了好几周都没能浮现出来的。 > *"这是我期待一个非常优秀的增长人员，花大量时间深入思考和调研后才能做到的事。"* ## [10:35] 清空真实的 GitHub 积压工单 Every 的 agent-native Markdown 编辑器 Proof 会在 agent 使用过程中自动提交 bug，积累 GitHub 工单。Dan 把两周的未解决工单指给 Fable，让它关掉无关的，并为其余工单写 Rust 修复方案。Fable 横扫了整个积压，交出的补丁团队真的合并了。其他模型也能做到这些，但需要手把手盯着，一条工单一条工单地处理。Fable 直接批量完成。 > *"它就这样嗖嗖嗖嗖嗖嗖地跑完了。而且真的写出了我们合并进去的修复方案。"* ## [11:17] 哪些人真的适合用这个模型 Dan 很直接：Fable 现在并不适合所有人。按照 Every 的"AI 采用八级框架"，只有处于第 7、8 级的用户才能真正受益，也就是已经在编排多个 agent、手头积压着大型问题的人，通常是技术型构建者。对于还没有跑起 agent 工作流的知识工作者来说，会觉得大材小用；对于随手玩玩 AI 的用户来说，token 费用是实实在在的摩擦。Every 早期采用团队中，大约一半的人立刻感受到了回报，另一半还在朝这个工作流级别成长。 > *"使用它是一种技能。你需要接触到问题，并在一定的专业水平上工作，问题才会自然出现，它才能派上用场。"* ## [13:31] 其他模型还能赢在哪里写作是最明显的差距：Fable 的文字厚重、文学性强、大段铺陈，适合理清结构性写作问题，不适合文案写作或日常句子级别的工作。Claude 用户做写作，Opus 4.8 依然更好。GPT 用户的日常首选还是 5.5。Dan 自己的日常驱动也是 GPT-5.5，用在占据大多数时间的快速来回对话上；Fable 留给大型生产冲刺。 > *"对我的日常来说，它甚至对我自己也有点大材小用。"* ## [14:26] 自动化之后，这意味着什么 Dan 以他的文章《After Automation》作为分析框架：自动化不会缩减人的工作量，反而会创造更多工作，这是一个悖论。Fable 遵循同样的规律：它抬高了非专家的能力下限，让一个随手写 AI 的人也能一键做出视频游戏；同时也拔高了专家的上限，让专家得以独自完成 AAA 游戏级别的项目。这种替代是真实存在的，Dan 说面对它感到不安是正常的，但按照能力曲线的走势，即便现在用不起 Fable 的人，在六到十二个月内也会获得这种能力。 > *"这个模型拔高了非专家的能力下限，同时也拔高了专家的上限。"* ## [16:02] 最终结论 Dan 以一个简洁的建议收尾：去读 Every 的完整实测体验，查看编程、写作和知识工作各维度的详细基准数据；去看《After Automation》了解更宏观的背景，然后找到你一直在回避的第一个大问题，把曲速引擎对准它。 > *"如果你对这件事感到兴奋，我最推荐的事情就是去用你的新曲速引擎。然后告诉我你做出了什么。"* ## 实体 - **Dan Shipper**（人物）：Every 联合创始人兼 CEO；本集唯一出镜者；在发布前内测 Fable 5 整整一周。 - **Every**（机构）：AI 原生订阅媒体公司，专注于用真实工作任务测评前沿模型；约 10,000 名付费订阅者。 - **Fable 5**（软件）：Anthropic 的 Mythos 级前沿模型；发布时在 Every 的高级工程师基准中得分 91/100。 - **Anthropic**（机构）：AI 安全公司；Claude、Opus、Fable 模型系列的开发者。 - **Mythos**（概念）：Anthropic 的顶级模型系列层级，位于 Haiku、Sonnet 和 Opus 之上；以扩展推理能力和高 token 成本为特征。 - **高级工程师基准**（概念）：Every 自研评测——模型从头重写生产代码库；满分 100 分；Fable 得 91 分，Opus 4.8 得 63 分。 - **Opus 4.8**（软件）：Anthropic 前代旗舰模型；基准得分 63/100；日常写作任务仍是首选。 - **GPT-5.5**（软件）：OpenAI 的同级前沿模型；基准得分 62/100；Dan 个人的日常快速对话首选。 - **Hubert Dreyfus**（人物）：美国哲学家；《计算机不能做什么》（1972）作者；海德格尔讲座网站演示中的主角。 - **Proof**（软件）：Every 的 agent-native Markdown 编辑器；用于 GitHub 工单清理演示。 - **After Automation**（概念）：Dan Shipper 的文章，论述自动化创造更多人类工作而非消除它；作为理解 Fable 更大意义的解释框架。 - **AI 采用八级框架**（概念）：Every 用于划分 AI 工作流融合深度的框架；第 7、8 级是 Fable 最能发挥价值的层级。

#fable-5#anthropic#llm-benchmarks

SaaS 末日论其实是金矿——Figma 的 Matt Colyer 这么说

Figma 开发者产品经理 Matt Colyer 自己搭 AI 智能体已有两年，订阅的软件工具非但没减反而越来越多。他与 Every CEO Dan Shipper 一起拆解了"SaaS 末日论"在经济逻辑上究竟错在哪里——AI 如何才能冲破文本框的束缚、真正释放创意设计的空间——以及为什么未来一年的核心挑战不是生成，而是审查：在智能体出货速度远超人类评估能力的今天，人本身已成为系统瓶颈。 ## [00:00] AI 将催生十亿开发者这段对话摘自访谈后半段，作为节目开场：Matt 认为，全球开发者数量——十年前大约 2500 万到 4000 万——正朝着十亿迈进。推动 SaaS 市场成为"金矿"的是这场人口爆炸，而不是 AI 取代软件。在他看来，Figma 和大多数成熟 SaaS 企业面对 AI 趋势是兴奋的，而非惶恐的。 > *"如果你在那个赛道里，这就意味着它是一座金矿，对吧？"* ## [01:03] 节目介绍 Dan Shipper 交代谈话背景：他最近在关注"SaaS 末日论"的舆论后买入了 Figma 的股票，想搞清楚一家 AI 时代之前就已成立的公司，面对智能体能在产品内部自主运转的新世界，究竟是怎么应对的。Matt 以 Figma 开发者产品总监的身份，正是回答这个问题的最佳人选。 > *"有很多人都在说，'哦，我不需要再用 Figma 了。'而你们刚刚在产品里上线了一个智能体，还推出了 Figma MCP。"* ## [02:15] SaaS 末日论为什么搞反了 Matt 的反驳从两条线展开。第一，软件创作的民主化会大幅扩大可寻址市场——被构建出来的软件越多，支撑它运转的工具、基础设施和服务的需求就越大。第二，靠"氛围编程"搭自己的 app 听起来很解放，直到凌晨还在折腾 SMTP 升级的时候就不这么想了。他两年前自己做了个邮件智能体，眼看着它越来越脆；现在他干脆付钱让别人帮他跑智能体，省得自己维护管道。 > *"我现在订阅的软件比以前更多，因为我会想，'你知道吗？那个工具看起来不错，我直接付钱让别人帮我跑智能体算了。'"* ## [05:27] Matt 的邮件智能体创业故事起点很朴素：三个孩子分在三所学校，家长会邮件轮番轰炸，还有那次错过的校服日。Matt 用 Python 脚本抓取收件箱，再把内容粘贴给 LLM——整个系统摇摇晃晃，回复有时也不管用，但核心循环跑通了。后来他加了记忆系统，把每日摘要主动推送给自己，这才是真正的突破：不用主动打开工具去问，信息直接送上门来。Dan 也分享了自己用 Codex 管理收件箱的经历，坚持了四周终于清零。两人还聊到语音作为一种被低估的交互方式——Matt 偏爱用 Loom 录制，因为对着空屏幕开口说话总感觉有点奇怪。 > *"对我来说真正的突破是：不用再去工具里主动问，它就直接出现了。"* ## [13:21] 发散与收敛的设计思维基于聊天的 AI 天然是线性的——你沿着一条设计路线不断迭代。Matt 的观点是，好的设计形如菱形：先发散（生成多个方向），再收敛（挑出最佳）。Figma 的画布内智能体是打破文本框约束的第一次尝试。在画布上，智能体可以一次性生成一整组帧——灰阶版、棕褐色版、不同字体版——然后另一个收敛型智能体对它们聚类，并推荐下一步应该深耕哪个方向。命令行智能体做不到这种空间化的并行探索，这正是画布所释放的能力。 > *"文本框太受限了——它就是'先这个再那个'的线性模式。一旦到了画布上，智能体就能支持发散思维。"* ## [17:39] Figma 的 MCP 服务器 MCP 让第三方智能体（Cursor、Windsurf、Claude Code）获得了接入 Figma 的标准接口。两种工作流：代码转设计——启动开发服务器，让智能体截取页面截图并导入 Figma 画布；设计转代码，通过"获取设计上下文"将组件属性和设计库规范打包进智能体提示词，再由它建分支、写代码、并把截图发到 PR。两种流程都省去了设计文件和代码库之间那些反复手动复制粘贴的繁琐工作。 > *"你打开代码库，启动 MCP 服务器，然后问它：'能把这个页面复制到 Figma 画布上吗？'它真的会去做。这有点令人叹为观止。"* ## [19:45] 设计智能体为什么需要个性化通用智能体只会产出通用结果。对 Figma 来说，一个还行的智能体和一个让人真正喜爱的智能体，差距就在于它是否理解设计系统——组件、间距规则、命名规范。没有这层个性化，生成的设计根本无法直接使用。Matt 把这类比于聊天智能体的记忆系统：在 Figma 的语境里，设计库就是记忆。他还透露 Figma 内部正在推进一些主动型智能体的工作，并把核心挑战定义为：如何在智能体的生成速度下保持设计价值观。 > *"真正区分一个还行的智能体和一个让人真心喜欢的智能体的，是个性化这件事。Figma 版本的个性化，就是设计系统。"* ## [22:09] 所有问题本质上都是上下文问题 Matt 讲了一个 Figma 产品运营团队的故事：他们发现每一项反复出现的产品管理任务——入职文档、项目跟踪、团队介绍——本质上都是上下文问题。于是他们搭了一套叫"PMOS"的系统：用本地 SQLite 存储组织架构图，接入 Asana、Slack 和 GitHub，再在上面叠加 Claude Code 技能。新成员入职时，系统会遍历组织架构图、读取过去 30 天的 Slack 频道、查看 Asana 看板，生成一份质量出奇好的入职文档。Dan 指出，Claude Code 的强大也源于同样的洞察：不是一个需要手动接入一切的常驻云端智能体，而是一个天然就能访问用户机器上所有内容的智能体。 > *"AI 带给我的启示之一是：你会逐渐意识到，所有问题都变成了上下文问题。工作本身变成了用正确的信息来构建问题框架。"* ## [25:12] Apple 和 Google：上下文争夺战的两强 Matt 一直在等 Apple Intelligence 兑现 WWDC 上的承诺——手机掌握着所有个人数据，一个永远在线、真正够聪明的 Siri 应该是显而易见的产品。但它还没来。他以同样的期待关注着 Google 传言中的"Spark"智能体（常驻、连接所有 Google 内容）。Dan 的判断是：Apple 无论如何都会赢，因为大家都在 Mac 硬件上跑 AI，这给了他们追赶的时间。Matt 补充道，Apple 优先隐私的定位是真正的战略资产，不只是 PR。 > *"即便是晚入场，他们依然是上下文领域的王者。我觉得今年 Google I/O 有意思的地方也在于此——Google 似乎也终于意识到了这一点。"* ## [28:18] 审查才是新瓶颈生成已经不是难题。智能体便宜、能干、随时可用；问题在于人类正被大量全新内容淹没，需要评估和审批。Matt 把"审查"定位为未来一年的核心设计挑战：如何在智能体的出货速度下，将人的价值判断——什么是好的、什么符合品牌调性——规模化？形式尚未定型：视频讲解、截图、还是一个可信赖的审查智能体。他最后谈到职业发展：基本功依然重要（即便有计算器，也要懂除法是怎么回事），而未来能脱颖而出的，是那些好奇心强、愿意追问"这是怎么做到的"而不是直接接受输出结果的人。 > *"我们有能力生产所有这些东西的智能体，它们也足够普及、足够便宜。我们只是被新内容淹没了。瓶颈变成了：我们怎么把自己的价值体系规模化，用来评估这一切？"* ## 实体 - **Matt Colyer**（人物）：Figma 开发者产品管理总监；已自行搭建 AI 智能体两年；资深开发者工具从业者。 - **Dan Shipper**（人物）：Every 联合创始人兼 CEO；"AI & I" 播客主持人；活跃的 AI 智能体实践者（用 Codex 实现收件箱清零）。 - **Figma**（机构）：设计与原型设计平台；已上线画布内智能体和 MCP 服务器；本期 SaaS 与 AI 时代讨论的核心案例。 - **SaaSpocalypse / SaaS 末日论**（概念）：认为 AI 会让 SaaS 软件走向消亡的叙事；两位嘉宾均持相反观点——AI 扩大了开发者群体，也增加了对 SaaS 的需求。 - **菱形设计思维**（概念）：先发散（生成多种方案）再收敛（择优选择）；Colyer 认为当前基于聊天的 AI 只支持线性或收敛式工作。 - **MCP（模型上下文协议）**（概念）：供第三方智能体连接 Figma 等工具的标准接口；支持代码转设计和设计转代码两种工作流。 - **Figma MCP 服务器**（软件）：Figma 对 MCP 的实现；支持页面截图导入画布，以及"获取设计上下文"的设计转代码导出功能。 - **Claude Code**（软件）：Anthropic 的编程智能体；作为具备完整本地文件系统上下文的智能体被提及；Dan Shipper 用它管理收件箱。 - **Every**（机构）：AI 领域的媒体与软件公司；Dan Shipper 是联合创始人兼 CEO；旗下运营"AI & I" 播客系列。 - **主动型智能体**（概念）：无需用户主动询问、自行推送摘要或操作的智能体；Matt 认为主动推送每日邮件摘要是让他的智能体真正好用的关键突破。 - **审查瓶颈**（概念）：AI 辅助工作中出现的新约束：生成速度很快，但人类评估与审批的容量是限制因素。

#saas#ai-agents#developer-tools

Opus 4.8 为何让我重回 Claude

Every CEO Dan Shipper 在 Opus 4.8 发布当天交出即时测评，直言 Anthropic 完全可以叫它 Opus 5。这个模型在 Every 的资深工程师基准测试中比 Opus 4.7 高出 30 分，以微弱优势超过 GPT-5.5，写作测试拿到 79.6 分对比 GPT-5.5 的 73 分，也是第一个能一次性生成真正合格 PPT 的模型。两个短板给热情降了温：推理强度低于"极高"档时表现明显下滑，Claude 桌面端的使用体验依然不及 Codex 整洁。 ## [00:00] 什么是 Every Every 是一家 30 人的 AI 应用实验室，同时也是专注于 AI 与未来工作的媒体平台。Dan 先介绍 Every 订阅的内容——写作、课程、自研 AI 工具一站式收录，网址 every.to——随即切入 Opus 4.8 评测正题。团队提前一周拿到内测资格，接下来的内容都是实际使用后的发现。 > *"Every is the only subscription you need to stay at the edge of AI."* ## [01:07] Anthropic 归来：Opus 4.8 的核心论据 Opus 4.7 发布后，Dan 基本放弃了 Claude——太慢、难以深度使用，Codex 和 GPT-5.5 几乎接管了他日常 90% 的工作。连 Every 内部最铁杆的 Claude 用户也开始转向。Opus 4.8 打破了这个趋势：在 Every 的资深工程师基准测试中拿到 63 分，比 Opus 4.7 高 30 分，比 GPT-5.5 高 1 分；写作测试同样登顶；Dan 第一次看到一个模型能一次性生成他愿意真正使用的 PPT。Every GM Kieran Klaassen 的评价是"他用过的最像人类的模型"。唯一持续的摩擦点是 Claude 桌面端本身。Codex 快、简洁、体验流畅；Claude 端更像三个独立团队拼出来的产品——聊天标签、代码标签、协作标签各自为政，每次进去都不确定该打开哪个。Dan 现在开始在两个应用之间来回切换，这是之前从未发生的事。 > *"But honestly, they could have called it Opus 5 cuz this is a really great model."* ## [05:02] 触达测试：Every 团队的范式转移评分 Every 的触达测试核心只有一个问题：遇到难题时，你会主动打开这个模型吗？Dan 给出金/绿评级——范式转移级别的质量，因为 Claude 端体验只能算"还行到不错"扣了一档。每天同时运行 50 个 agent 的 Kieran 直接给出纯金范式转移，这是团队极少见的最高评级。资深撰稿人、长期 Claude 用户 Katie Parrot 给绿色，她的工作在 Opus 4.8 和 Codex 之间平均分配。 > *"It's very rare to give a paradigm shift grade to a model. So I would pay attention to this."* ## [06:32] 基准数据：编程与写作的具体数字编程方面，Opus 4.8 在资深工程师基准测试中拿到 63 分——测试方式是把一个 vibe-coded 代码库交给模型，要求从头重写，再与两位人类资深工程师的重写结果对比评分（人类通常在 80 到 90 分段）。GPT-5.5 拿到 62 分。在 Kieran 的 LFGbench（覆盖 SaaS 构建、电商网站、3D 游戏场景等真实任务）上，Opus 4.8 写出的代码兼具技术严谨性和创意感——"舒适岛屿"3D 场景比 GPT-5.5 更丰富、更有生命力。写作方面，Opus 4.8 在 Every 内部写作基准中拿到 79.6 分（满分 100），涵盖文章开头、推广邮件、段落续写等场景；GPT-5.5 是 73 分。差距主要体现在 AI 痕迹：在高和极高推理档，Opus 4.8 产出的文字听起来更不像机器。给它一段你自己写的文字，它续写时的风格贴合度超过 Dan 测过的所有模型。 > *"Opus 4.8 scores a 79.6 out of 100 on the writing benchmark. GPT 5.5 is 73."* ## [08:57] 情绪智能、知识工作与最终结论 Dan 用这个模型处理人际和管理问题——梳理决策、质疑自己的思维框架。Opus 4.8 的思维链显示它在回答前真的在遍历各种可能性，而不是直接迎合你的判断，这让它更像一个有用的思考伙伴。知识工作方面，代码和写作在同一个对话线程里无缝切换，PPT 的生成质量是 Dan 第一次愿意直接拿出手用的成果。最终结论：如果你本来就是 Claude 的拥趸，这个模型不会让你失望。如果 Codex 已经把你抢走了，至少把 Opus 4.8 加入工具箱——用它处理写作和知识工作，值得切换。端体验的差距是真实存在的，但模型本身是真的强。 > *"If you've been converted to Codex, I highly recommend you at least add it as part of your arsenal."* ## 实体 - **Dan Shipper**（人物）：Every 联合创始人兼 CEO；本视频主讲人，Opus 4.8 的主要评测者。 - **Kieran Klaassen**（人物）：Every GM，负责 Kora 业务；对 Opus 4.8 给出触达测试最高分——纯金范式转移。 - **Katie Parrot**（人物）：Every 资深撰稿人；给出绿色评级，工作在 Opus 4.8 和 Codex 之间分配。 - **Every**（组织）：专注于 AI 与未来工作的应用型 AI 实验室兼媒体订阅平台。 - **Anthropic**（组织）：Claude 和 Opus 4.8 的开发商。 - **Opus 4.8**（软件）：Anthropic 最新 Claude 模型，本视频测评对象。 - **GPT-5.5**（软件）：OpenAI 模型，全程作为主要对比基准。 - **Codex**（软件）：OpenAI 编程 agent；以简洁桌面端体验著称，是本视频中 Claude 日常主力地位的主要竞争者。 - **资深工程师基准测试**（概念）：Every 自研编程评测——把 vibe-coded 代码库交给模型从头重写，对照人类资深工程师的重写结果打分。 - **LFGbench**（概念）：Kieran Klaassen 设计的真实场景编程基准，涵盖 SaaS 构建、电商网站和 3D 场景生成。

#claude#opus-4-8#llm-benchmarks

用 AI 把所有事情都自动化了，员工却增加了两倍

Dan Shipper 的 Every 从 GPT-3 时代的四个人扩张到了三十人，几乎把所有流程都接入了 agent，招聘却依然没有停。这一期 *AI & I* 换了阵型——COO Brandon Gell 反过来采访 Dan，聊他那篇 8000 字的文章「自动化之后」。文章的核心论点是：AI 能力越强，对人类判断力的需求越大，而不是越小。背后的机制是：AI 把昨天的专家能力压成了廉价标配，结果每个领域都被"差不多对"的输出淹没——而填平这道差距，恰恰需要更多能做到位的人。 ## [00:00] AI 做完之后，问的是：接下来呢？这段对话来自采访后段，却被放在开头，因为它最能点出整集的核心张力。Brandon 描述了那个典型的 AI 时刻——你输入一段 prompt，它把你震住了，你觉得自己要被淘汰——然后它停下来，问："接下来你想让我做什么？"Dan 用一句话锚定了整个论点："agent 离人越远，价值就越低。"两段片段分别来自主体对话的约 00:11 和 00:35，放在这里是为了让后面的内容有个落脚点。 > *"agent 离人越远，价值就越低。"* ## [00:51] 节目介绍 Brandon 说明了这期的特殊格式：今天他来采访 Dan，不是反过来，而且他会挑战 Dan 的论点。Dan 解释了文章的缘起——他在一家最深度使用 agent 的公司里工作，亲眼看着自动化程度和员工人数同步攀升，这和主流"AI 正在消灭岗位"的叙事之间有一道说不通的裂缝。ClickUp CEO 最近发了一条推文（大规模裁员，并把原因归结为 AI），这成了 Dan 论点的第一块试金石：「自动化之后」适用于 Every 这样的早期采用者，但对 ClickUp 这样一万人规模的成熟 SaaS 公司，逻辑还成立吗？ > *"在我们的 Slack 里随便挥一根棍子，打到人类和打到 agent 的概率差不多。"* ## [05:51] AI 悖论：自动化越多，人力需求越多 Dan 拆解了核心论点。AI 在所有已有产出上训练，因此能把"昨天的专家能力"以极低成本交付给任何人。这让产出门槛民主化了——运营人员可以合并 pull request，非工程师也能上线功能——但这些产出统一的特点是"差不多，但不到位"，没有校准到真实情境。于是出现了一个悖论：接近正确的产出大量涌现，单个产出的价值随之缩水，但与此同时，能把这些产出推过终点线的专家需求反而上升了。Brandon 补了一个 Every 内部的例子：pull request 看着没问题，直到资深工程师翻到代码里面。 > *"你把一堆差不多的东西全倒出来，漫过整个区域。"* ## [10:00] AI 如何让昨天的专家能力变得廉价 Dan 进一步回应"模型能力指数级提升"的反驳：基准测试确实会被刷满，但只要把问题稍微换个角度，新的基准马上出现。更深层的问题是，人类有一层隐性的、无法清晰表达的能力——凡是你能说清楚的东西，模型就能在上面爬坡；说不清楚的部分，才是真正的护城河。Every 的经历印证了这一点：Kieran 一两个月内独立完成了一整个收件箱功能，这在以前"根本不可能"。但价值的来源是一个专家知道该做什么、并在每一步把关。 > *"你做的很多事情，其实没办法用一个清晰的框架说明白。"* ## [18:00] AI 能自主执行，但没有主体意志 Brandon 划出了自主执行和主体意志的界线：AI agent 越来越擅长在没有人盯着的情况下完成开放式任务，但这和"主体意志"——那种自我驱动、带着玩劲、"我就是想做这件事"的冲动——是两回事，连一个蹒跚学步的孩子都有后者。Dan 认同，整个行业也没有经济动机去开发这种特质：你坐在电脑前，agent 说"我现在不想做"，那就是产品失败。整个激励结构都在把 AI 推向顺从和可纠正，而这正是人类留在回路里的原因。 > *"Agent 的意思是代表他人行事。这和拥有主体意志完全不同——哪怕最小的孩子都有主体意志。"* ## [20:39] Dan 为何全力押注 AGI Brandon 提出了一个一字测试：你觉得 AGI 会到来吗？Dan：会。这是好事吗？Dan：是。Dan 给 AGI 下了一个足够精确、可以被检验的定义——任何持续运行在经济上都划算、能主动生成 token 并完成任务、不需要反复触发的 agent。他的逻辑是：就算真正自主的系统出现，它也是为了服务人类目标而被构建的；如果不是，我们根本不会造它。Brandon 的担忧是：一旦持续运行的 agent 在经济上合理，大规模裁员的逻辑就变得站得住脚了。 > *"任何你永远不会关掉的 agent——持续运行在经济上始终划算、一直主动完成任务、从不需要你重新触发它。"* ## [21:57] AI 裁员是个谎言 Dan 和 Brandon 一起剖析了 ClickUp 案例——CEO 公开裁掉大量员工并把原因归结为 AI。Dan 的判断：普通 SaaS 公司在经营困难或人员臃肿时会裁员，然后借 AI 当遮羞布。Brandon 补充了 Jensen Huang 的反驳——"如果你面对进步的答案是裁人，说明你不够有创意"——这话有自利成分，但大概率是对的。诚实的说法是：AI 深刻改变了工作流，这迫使公司整体重组。那些跳过这个过程直接裁员的公司，走的是最省力的路。Meta 给员工做键盘记录以获取训练数据的操作也被顺带提了一下，算是更有创意（尽管令人不安）的另一种路径。 > *"我会对任何声称 AI 将消灭所有工作或所有知识性工作的人保持高度怀疑。"* ## [25:42] 跟上模型的节奏，你就没问题即便在 AGI 情景下，真正关键的变量依然是人对"什么重要"的判断——而什么重要会不断变化，部分原因正是 AI 本身在持续重塑这个世界。奥马哈不信任聊天机器人的客服人员，或者那些裁掉支持团队又悄悄在两个月后重新招人的公司，都说明现实世界的采用速度比炒作慢了整整一个时代。新技术的普及需要一代人才能落地；所有人最终都能用上这些工具；赢家是那些每次新模型上线时都第一时间上手学的人。Dan 最后给出了他最简洁的一句话：跟上模型的节奏，你就没问题。 > *"只要跟上模型的节奏——新模型出来了，就学着用它做你手头的事，不管那是什么——你就没问题。"* ## [35:30] 如何用 AI 担任长篇深度稿的编辑 Dan 讲述了「自动化之后」背后具体的 AI 辅助写作流程。每天早上他对着 Proof 把当天论点的状态口述一遍，然后把记录喂给 Claude，问："我真正想说的是什么？"稿子超过 4000 字之后，他用 Codex 把最新版本转成播客音频，在通勤路上用耳朵听，免手操找出行文问题。整篇文章经历了四五次完整的推倒重来，论点才真正咬合。他的体会是：AI 没有替他写这篇文章，但它让他在不丢失线索的情况下，把整个 8000 字的结构装进工作记忆里成为可能。 > *"没有它我根本写不出来。我会让 Claude 看我的记录，然后问'我到底想说什么'，它说出来之后我会想，'对，这就是我想说的。'"* ## 实体 - **Dan Shipper**（人物）：Every 联合创始人兼 CEO；*AI & I* 常驻主持人；本期作为受访者，分享他的文章「自动化之后」 - **Brandon Gell**（人物）：Every COO；本期客串主持，反向采访 Dan - **Every**（组织）：AI 原生媒体与软件公司；自 GPT-3 以来在大规模自动化的同时从 4 人增至 30 人；出品 *AI & I* 播客 - **自动化之后**（概念）：Dan Shipper 的 8000 字文章，论点是 AI 自动化通过在各领域涌出大量"差不多对"的产出，反而增加了对专家人力的需求 - **专家能力缺口**（概念）：AI 以低成本交付"昨天的专家能力"，但输出始终稍有偏差，因而创造出更多需要人类把关到位的需求 - **AGI**（概念）：本集定义为持续运行在经济上始终合理、无需重新触发的 agent；Dan 认为 AGI 会到来，且整体是好事 - **自主执行与主体意志**（概念）：Brandon 区分的两个层次——AI 在无人监督下执行开放式任务（自主执行）vs. AI 拥有自我驱动的欲望（主体意志）；后者目前没有人在做 - **Proof**（软件）：Dan 用于每日语音口述草稿的写作工具；在文章写作过程中作为 AI 反馈回路使用 - **Codex**（软件）：OpenAI 工具，Dan 用它把文章草稿转成播客音频格式，方便通勤时收听审阅 - **ClickUp**（组织）：SaaS 公司，其 CEO 公开裁员并将原因归结为 AI；被用作 AI 洗白裁员的典型案例

#ai-automation#future-of-work#llm

Claude Code 可以成为你的第二大脑

Noah Brier 在地下室的迷你 PC 上运行 Claude Code，通过 Tailscale VPN 与 Obsidian 知识库同步，用手机进行真正的思考、研究和客户代码工作。本期对话涵盖他如何搭建这套系统、为何强制设置「思考模式」护栏以防止模型过早生成产物，以及他关于 AI 成功的更宏观理论——AI 应该钻进人们既有工作流的每个角落，而不是要求人们调整组织结构来迎合它。Dan Shipper 和 Noah 还探讨了培养 AI 直觉究竟意味着什么，以及 Noah 为何认为让孩子为 AI 做准备，更应该教会他们认知怀疑论，而不是盯着他们有没有作弊。 ## [00:00] Noah Brier 的 Claude Code 地下室服务器配置 Dan Shipper 在开场就介绍了让 Noah 值得上节目的那套配置：一台放在地下室的家用服务器，在 Obsidian 知识库之上运行 Claude Code，可以通过手机从任何地方访问。Noah 把这套系统搭好之后，不用坐在桌前就能思考、研究、写作，甚至发布代码。 > *"He rigged a home server in his basement, put his Obsidian vault in it, and then runs Claude code on top so he can think, research, write, and even ship code right from his phone."* ## [00:52] 开场 Dan 和 Noah 重新叙旧，距离上次对话大约已经过了 5 年。Noah 的背景横跨品牌战略（他联合创办了 Percolate）、Alephic 的 AI 咨询业务，以及 BRXND.AI 大会。Dan 把本次采访的重心放在 Noah 实际搭建的技术栈上，而不是抽象的 AI 讨论。 > *"I'm excited to have you. It's really good to get to chat. This is our first interview in probably like 5 years."* ## [02:10] 如何用手机完成深度工作 Noah 一开始就澄清：他的配置与其说是「氛围编程」，不如说是结构化的知识工作。他从 Evernote 换到 Obsidian，原因是 Markdown 文件和文件夹结构能让 Claude Code 真正操作起来。他最主要的 Claude Code 用途是与自己的笔记交互，而不是生成代码，而把这套配置延伸到手机上，从根本上改变了他的工作方式。 > *"My number one Claude Code use is using it as a tool to interact with my notes."* ## [05:30] Noah 为何认为 Grok 的语音 AI 最好 Noah 更喜欢 Grok 的语音模式，胜过 OpenAI 和 Gemini 的同类功能——Gemini 不够聪明，旧版 GPT-4o 语音对他来说完全没法用。他曾在一次 5 小时的独自驾驶途中使用 Grok，通过蓝牙把它当成私人研究播客，专门深入研究一篇关于 Transformer 的文章。对话中也暴露出一个共同的痛点：语音模型在工具调用和网络研究方面仍然表现不佳，限制了它们在严肃知识工作中的实用性。 > *"I did like an hour session and it really—it was by far the sort of best explanation I've ever read for it, or ever heard I guess."* ## [11:11] Noah 的 Claude Code-Obsidian 配置详解 Noah 在屏幕上实时展示他的 Obsidian 文件夹。Claude Code 放在 Obsidian 的根目录，因此可以访问完整的笔记存档。他正在为 BRXND.AI 大会准备一个演讲，主题是二战时期的《Simple Sabotage Field Manual》以及它对大型组织官僚主义的启示。为此，他在 Obsidian 里建了一个项目文件夹，汇入了与 ChatGPT、Claude 和 Grok 对话的记录，以及相关文章和 PDF。在这个阶段，Claude 的职责不是写演讲稿，而是帮他思考：提取相关笔记、将每日进展整合进日志，并提出澄清性问题。他在项目的 CLAUDE.md 前置配置中明确设定了思考模式约束。 > *"I'm in thinking mode, not writing mode yet. There's some stuff in here where I've specifically told, I think it's in the front matter actually, where I've told Claude Code: don't help me write anything right now."* ## [26:05] 把 Claude Code 中的 agent 用作「思维伙伴」 Noah 认为「生成式」这个词让人们用错了 AI——所有人都聚焦于它生成产物的能力，几乎没人谈论它惊人的阅读能力。他维护着一个专用的思维伙伴 agent，并设置了明确的护栏："不要创建大纲、草稿或任何版本的演讲/文章。" 这个 agent 记录问题、追踪正在浮现的洞见，并建立持续记录，让 Noah 无论休息多久，都能准确接续之前的思路。他梳理了从 ChatGPT 对 Wild Bill Donovan 的深度研究，到一个关于 Transformer 架构并行性与特种部队作战自主性之间类比的初步想法的整条线索。 > *"I think partially because we call it generative, there's entirely too much focus on its ability to write and not enough focus on its ability to read."* ## [30:23] Noah 的 Thomas 英式松饼 AI 理论本章从 Noah 的官僚主义论点开始：大型企业不是因为懒惰而无法采用新软件，而是因为新软件历来都要求组织围绕它重新调整结构。他认为 AI 不同，AI 能钻进人们既有工作方式的每个角落，这就是他的 Thomas 英式松饼比喻的由来。Dan 补充了一个来自 Every 的具体案例：两个基于不同技术栈的产品需要共享一套文件搜索方案，Claude Code 让他们复用了逻辑，而不需要强制推行公共框架。对话进一步延伸到 Noah 关于「官僚主义即位置编码」的想法——这是一个他在演讲前还在打磨的、关于 Transformer 架构与组织层级之间半成形的类比。 > *"I call it my Thomas's English muffin theory of AI, which is that it like gets into the nooks and crannies."* ## [39:47] AI 领域尚待探索的空白地带 Noah 和 Dan 认为，大多数从业者，包括资金充裕的那些，对这些模型实际能做什么仍然停留在脆弱的直觉层面。Noah 在每次客户会议上的破冰话题都是「你对 AI 的顿悟时刻是什么？」——因为那个不确定性的瞬间，问同一个问题两次却得到不同答案，是真正新颖的体验，需要时间才能内化。他借用 Destin Sandlin 的倒骑自行车实验来说明这一点：运动直觉和概念直觉是两回事，无法走捷径去建立它们。Dan 则反驳说，语言模型本身也许会生成我们目前缺少的那套词汇，让我们能更好地思考概率性系统。 > *"We're not used to using things that—you ask them the same question twice and they have different answers."* ## [48:44] Noah 如何让孩子为 AI 时代做准备 Noah 10 岁的女儿用 Claude 做了一个 Secret Santa 应用，意外地学到了数据建模——她意识到自己需要用「组」而不是「大人和孩子」才能让逻辑更通用。这个故事成为一个更大论点的锚点：教育者的职责不是阻止学生用 AI，而是让他们相信基础技能值得学习。他正在为 2026 年秋季筹备一门叫做「Code is Essay」的 NYU 课程，他认为最重要的元技能是认知怀疑论——对证实自己已有观点的信息更加警惕，而不是更少警惕。 > *"I don't actually think your job is to teach these kids to write because that's like a lifelong pursuit. I think your job is to convince them that it's worth learning to write."* ## [01:00:06] 他如何把 Claude Code 配置搬到手机上 Noah 现场演示了完整的移动端技术栈：Termius（iPhone 上的 SSH 客户端）、连接地下室迷你 PC 的 Tailscale VPN、通过私有 GitHub 同步的 Obsidian、在终端运行的 Claude Code。他展示了问 Claude「这两天有什么新内容？」并得到近期 Obsidian 活动综述的过程。他还从手机上修复了会议网站上的一个失效链接——确认问题、让 Claude 推送 PR，搞定。他目前还在捣鼓 Simon Willison 的 `llm` CLI 工具，以及一个能重命名 Obsidian 知识库中所有附件文件并重建链接表的脚本。 > *"I went and sat outside for a while and then we had a project that needed to get delivered to a client and a small change needed to be made. I told Claude Code exactly where to look, confirmed the problem was what I thought it was, and just had it push a solution and it pushed a PR and then I was done."* ## 实体 - **Dan Shipper**（人物）：Every 的 CEO 兼联合创始人，本期采访主持人 - **Noah Brier**（人物）：Percolate 联合创始人，Alephic AI 战略咨询公司创始人，BRXND.AI 大会组织者 - **Every**（机构）：制作本播客的媒体与软件公司 - **Alephic**（机构）：Noah 的 AI 战略咨询公司，服务 Amazon、Meta、PayPal 等财富 50 强客户 - **BRXND.AI**（机构）：Noah 组织的年度大会，聚焦营销与 AI 的交汇，2025 年版将于 9 月 18 日在纽约举办 - **Claude Code**（软件）：Anthropic 的 agentic 编程工具，Noah 第二大脑和移动端工作流的核心 - **Obsidian**（软件）：基于 Markdown 的笔记应用，Noah 的主要知识存储，采用 PARA 方法组织 - **Tailscale**（软件）：Mesh VPN，用于将 Noah 的手机安全连接到地下室迷你 PC - **Termius**（软件）：Noah 用来从手机访问家用服务器的 iOS SSH 客户端 - **Grok**（软件）：xAI 的 AI 助手，Noah 认为其语音模式在实质性研究方面明显优于 OpenAI 和 Gemini - **Simple Sabotage Field Manual**（概念）：Noah 重新发布的二战时期 OSS 文件，作为他在 BRXND.AI 演讲中审视现代组织官僚主义的视角 - **Thomas 英式松饼理论**（概念）：Noah 关于 AI 成功方式的比喻——AI 钻进现有组织工作流的每个角落，而不是要求组织重新调整结构来适应它

#claude-code#obsidian#second-brain

Claude Agent 平台的内部秘密：来自亲历者的深度拆解

Dan Shipper 在 Anthropic 的"Code with Claude"开发者活动上，与 Claude 平台产品负责人 Angela Jiang 和工程负责人 Katelyn Lesse 进行了一次深度对话。三人共同拆解了 Claude 平台从简单补全 API 成长为全托管 Agent 基础设施的历程，探讨了为何执行框架（harness）与模型正日益不可分割，以及"结果 + 预算"愿景对 Agent 开发未来意味着什么。他们追溯了 Agent 生命周期的每个阶段——从启动第一个会话到停用老旧 Agent——并分享了 Anthropic 内部真实部署中的经验与教训。 ## [00:00] 一年后，平台会变成什么样 Dan 一上来抛了个之后整集都在绕的问题：一年之后，Claude 平台会是什么样？Angela 给出的画面是：Claude 对自身的理解深到能自己挑子 Agent、自己即时写出执行框架。Katelyn 接上另一半——这种世界对底层基础设施的要求会高得离谱。这段对话其实剪自节目后半段，放在开头是因为整场访谈都是在拆解：从今天的原语，怎么走到那个终点。 > *"我们希望探索这样的方向：Claude 能真正深度理解自身，自行决定应该使用哪个模型，自行决定如何启动所有子 Agent。"* — Angela Jiang ## [01:48] Claude 平台如何从 API 演进为 Agent Angela 勾勒了一条演进轨迹：从早期的 LLM API（无状态、探索性、最大曝光面），到基于会话的对话，再到如今的全自主 Agent。贯穿始终的逻辑只有一条：将抽象层提升到足够高，让客户以尽可能少的投入从 Claude 获得最佳结果。早期用户想要所有底层旋钮；如今，大多数来到 Anthropic 的团队都希望"开箱即用"地获得完整的功能集。平台的使命，就是不断缩短意图与结果之间的距离。 > *"最终可能就是这样：一套原语加上一套基础设施，让你能以尽可能少的工作量尽快获得结果。"* — Angela Jiang ## [04:09] Claude Managed Agents 的基础原语 Katelyn 解释道，Claude Managed Agents 由 Messages API 上所有人都能使用的相同原语组成——代码执行沙箱、网页搜索和内置工具——但被封装在 Anthropic 已经在内部经过实战检验的精心设计的执行框架中。Angela 补充说，团队对两类原语有明确立场：文件系统和技能（skills）。这两者被视为承重性选择，决定了 Claude 在所有 Agent 任务中的行为方式。平台设计为模块化，开发者可以在标准框架不适配的地方插入自定义组件；对于希望直接使用 Messages API 的团队，Anthropic 也发布了参考实现。 Dan 描述了他的团队在 Mac Mini 上通过 `claude -p` 命令运行 Claude 的方式，并对锁定依赖和与 Claude Code 产生分歧感到担忧。Katelyn 回应说，Anthropic 内部的第一方产品与外部客户运行在同一平台上，这意味着 Managed Agents 和 Claude Code 之间的分歧会随时间缩小。 > *"我们将我们认为最强大的那些能力整合在一起，放入一个执行框架和一套基础设施中——这就是我们认为从 Claude 获得最佳结果的方式。"* — Katelyn Lesse ## [10:37] 为什么框架与模型正在合并为一个整体 Angela 挑战了一种传统认知：通用的、可随意替换模型的执行框架才是正确架构。随着各家实验室的模型在技术路径上日益分化，真正的优势在于框架与模型的紧密协同设计，而非随意热替换。Anthropic 在内部对记忆功能测试了多个框架变体，发现它们的表现"差异极大"。这意味着：应将 Agent（框架 + 模型）作为冗余的基本单元，而非单独把模型作为单元。 Dan 追问这是否会在模型本身产生路径依赖。Angela 承认，所选择的原语确实会塑造模型的发展轨迹，一旦选错就很难纠正。她以两条分叉路径为例：过度侧重推理的模型，与深入押注计算机使用的模型——两者都难以回头。 > *"框架与模型高度绑定。你仍然需要冗余，仍然可能希望在某些任务上使用其他模型，但这种切换应该发生在 Agent 层面——即框架加模型——而不是仅仅替换模型。"* — Angela Jiang ## [18:49] 扼杀大多数 Agent 项目落地的基础设施门槛 Katelyn 指出了大多数 Agent 项目真正的拦路虎：不是框架工程，而是团队试图从原型迁移到生产时碰到的基础设施门槛。保持持久化服务器运行、管理沙箱故障、存储对话记录数据、安全注入凭证——这些平淡无奇的问题，会杀死那些在 Mac Mini 上技术上"跑通了"的项目。Anthropic 自身反复踢到这堵墙的经历，正是构建 Managed Agents 的首要动机。 Angela 将 vaults（凭证保险库）原语描述为迈向一键部署 Agent 的早期一步：一旦 Agent 身份和凭证在平台层得到安全处理，添加 Slack 集成最终应该像告诉 Claude "添加 Slack" 然后看着机器人出现一样简单。 > *"所有人都会遇到同样的问题：哦，我要么需要一台一直运行的服务器，要么需要能弹性伸缩的基础设施，还要存储对话记录，还要安全沙箱，以及所有这些事情。"* — Katelyn Lesse ## [24:49] 为什么团队 Agent 与个人生产力工具形态截然不同 Angela 解释了为何像 Claude Code 这样的个人生产力工具无法简单地扩展到团队使用。一旦三个人需要一个共享 Agent 来跨角色自动化端到端流程，笔记本电脑上的工具就会在可用性、访问控制和协调方面崩溃。她引用 Vercel CEO Guillermo Rauch 提出的内部"AI 软件工厂"框架作为团队级 Agent 采用的正确心智模型：不是个人增强，而是一套完整的组织级 Agent 堆栈，持续为公司每个职能部门产出高价值的成果。 > *"一旦到了团队层面，一切都会变得复杂得多。最明显的一点就是，它不能放在你的笔记本电脑上。"* — Angela Jiang ## [26:36] Anthropic 法律团队如何用 Agent 审查营销文案 Katelyn 介绍了 Anthropic 内部真实部署的一个案例：一个法律审查 Agent，接收营销文案提交并在任何内容到达人工律师之前完成初审。Agent 可以直接批准文案，或将其升级为人工审查，从而消除低价值的工单排队工作。其形态是在 Managed Agents 之上构建的轻量应用层，两个团队共享可见性。 Angela 和 Dan 深入探讨了为什么这是一个 Agent 而非一个技能：人在环路中的要求、启动独立会话的需要，以及多团队协作，都超出了单次技能调用所能处理的范围。由此形成的治理模型颇为亮眼：终端用户发现可以通过 Claude Code 自助完成小幅改进，而无需等待平台团队审批。Angela 将最终用户体验描述为简单地"与 Claude 对话"，即便底层系统实际上是"无数个 Claude 彼此协作"。 > *"在底层，是无数个 Claude 彼此协作，直到那些 Claude 自己去完成更复杂的工作——而这些复杂工作并不需要人类逐一解读。"* — Angela Jiang ## [34:24] 用多 Agent 编排实现顾问策略、对抗组合与蜂群模式 Angela 重点介绍了人们正在用新发布的编排原语搭建的三种多 Agent 架构模式：顾问策略（将执行与建议分离）、对抗组合（一个 Agent 生成内容，另一个批判）、以及蜂群（将问题拆分为大量小的并行任务再汇总结果）。每种模式适用于不同类型的问题——蜂群擅长漏洞挖掘，而广泛研究类任务则更适合顾问或并行分解架构。乐高式的原语让从业者可以在架构层面持续优化，而不仅仅停留在提示词层面。 > *"如果我们能让原语像乐高一样，人们就可以将它们组合起来，以稍高一个层次的形式解决问题——更像是一种架构或策略。"* — Angela Jiang ## [35:50] 以"结果 + 预算"为终态衡量 Agent 的成功 Angela 阐述了长期度量哲学：将一切压缩为一个结果和一个预算，让平台解决所有中间决策。特定领域的评估指标（例如编码 Agent 的 PR 合并率）今天仍然有用，但终极目标是一个可验证的结果规格，让 Claude 能够反复自我评分。Katelyn 谈到了相邻的 Agent 老化问题：Anthropic 已经构建了技能，帮助团队在新模型发布时升级 Agent；最前沿的团队已经在运行元 Agent，持续监控其他 Agent 的性能退化并自动触发升级。 > *"我们的核心原则是：这些事物的终态，可能就是把一切压缩为一个结果和一个预算。大概就这两个参数。"* — Angela Jiang ## [39:11] 一年后的平台面貌：当 Claude 自行编写执行框架 Angela 设想了一个世界：用户只需提供结果和预算，Claude 便自行选择模型、启动子 Agent 并即时编写执行框架——完全消除框架工程，就像今天的平台已经消除了大量手动工具构建和提示词工程一样。她对"结果"这半个等式在一年内或许可以实现（允许一定的预算误差）持谨慎乐观态度。Katelyn 补充了基础设施层面的推论：这样的世界需要一个能够支持 Agent 持续自我重建的平台，在不设瓶颈的前提下处理任意形态的长期运行请求。 > *"Claude 能够充分理解自身，几乎可以即时地'写出自己'，在结果和预算这个二维世界中找出必要的解法。"* — Angela Jiang ## 实体 - **Angela Jiang**（人物）：Anthropic Claude 平台产品负责人；Managed Agents 产品愿景的共同设计者。 - **Katelyn Lesse**（人物）：Anthropic Claude 平台工程负责人；专注于基础设施的可靠性与规模化。 - **Dan Shipper**（人物）：Every 播客《AI & I》主持人；Every 的 CEO；正在 Claude 平台上构建内部 Agent 产品。 - **Claude Managed Agents**（软件）：Anthropic 的托管 Agent 基础设施——一套封装了 Messages API 的执行框架加云计算环境，内置记忆、沙箱、vaults 和技能（skills）。 - **Messages API**（软件）：Anthropic 的核心 API；Managed Agents 及所有第一方产品的底层原语。 - **Anthropic**（组织）：构建并运营 Claude 模型系列及其平台的 AI 安全公司。 - **Every**（组织）：出品《AI & I》的媒体公司；Managed Agents 的早期客户，正在构建内部编辑 Agent。 - **Stripe Minions**（软件）：Stripe 基于 Agent 基础设施构建的内部端到端软件开发平台；被引用为全公司范围编码 Agent 部署的标杆案例。 - **Vercel**（组织）：开发者基础设施公司；CEO Guillermo Rauch 提出的"AI 软件工厂"框架被用作团队级 Agent 采用的心智模型。 - **结果 + 预算**（概念）：Anthropic 的长期设计原则——Agent 交互的最终形态只需提供一个可验证的结果和一个成本上限，平台负责解决所有中间决策。

#claude#managed-agents#ai-platform

我们为什么从 Claude Code 切换到 Codex

Dan Shipper 与 Every 增长负责人 Austin Tedesco 探讨了为何 Codex 桌面应用已成为他们一切知识工作的首选界面——从起草上市计划到搭建实时 KPI 看板——在数月的并行使用后取代了 Claude Code。Dan 将这一转变定性为全新"Agent 管理界面"操作系统的崛起，Austin 则通过屏幕共享演示了他实际搭建的 Codex 工作环境，涵盖自动化方案、专用 Agent 矩阵以及招聘工作流。这期节目同时也是一份面向非工程师的实操指南，帮助他们复用同一套打法。 ## [00:00] 知识工作的新操作系统 Dan 开口就放话：三个月前 Codex 还是一坨垃圾。而现在 Austin 是那种每天早上第一件事就是打开 Codex、把 80% 工作时间塞进去的工程师。Dan 把这背后的结构性变化点出来：一个能伸手进你文件系统、浏览器、已接入应用的通用编程 Agent，正在变成知识工作的操作系统——所有主流实验室都在抢这块入口。 > *"有一个新的操作系统正在决定你如何工作、在哪里工作，它就是这种 Agent 管理界面。"* — Dan Shipper ## [00:57] Codex 如何从高级工程师专属工具演变为知识工作的日常利器 Dan 梳理了 Codex 的演变轨迹：从最初定位为面向高级工程师的沙箱结对编程工具——"它会和你争论，让你觉得自己很蠢"——到如今基于 GPT-5.5 构建的桌面应用。他将这一转型归因于 OpenAI 观察到 Anthropic 用 Claude Code 证明了一件事：一个具备情感智能、反应迅速、原生适配计算机的 Agent 能为程序员和知识工作者带来跨越式体验。现在各模型公司都在争夺 Agent 管理桌面的主导权：Anthropic 有 Claude Code 和 Claude.ai 桌面端，OpenAI 有 Codex，xAI 则实际上已将 Cursor 收入囊中。 ## [02:42] Claude Code 如何证明优秀的编程 Agent 同样适用于任何知识工作 Dan 解释了改变一切的洞见：如果 Agent 能自主编写软件，它就能自主完成任何知识工作。Claude Code 率先证明了这一点，将非工程师——包括 Austin——也带入了以 Agent 为核心的工作流。OpenAI 在过去三个月对 Codex 的大幅转型，正是对这一验证的直接回应。Dan 将新范式描述为：你的 Agent 是你与软件、互联网和日常任务的交互界面，而不仅仅是代码副驾驶。 > *"如果它能自主编写软件，它就能自主完成任何知识工作。"* — Dan Shipper ## [07:24] Austin 切换到 Codex 的历程 Austin 回忆了他的"Agent 觉醒时刻"：12 月份花了整整一周时间深入使用 Claude Code CLI，将其接入工作和个人生活中的所有工具，发现它在战略思考、数据分析和营销文案起草上不可或缺。两个月后初次体验 Codex 时感到陌生——模型态度傲慢，当他要求给出更清晰的解释时，对方反问"为什么？"。于是他继续用 Claude Code 承担 80% 的知识工作，同时只将 Codex 用于工程任务。转折点是提前获得了 GPT-5.5 的访问权限：在模型能力旗鼓相当的情况下，决定性优势在于 Codex 桌面应用本身——速度更快、组织更清晰，子 Agent 也"开箱即用"。 > *"所以说 Codex 应用可能好出 30% 到 40%，这已经是很大的差距了。"* — Austin Tedesco ## [13:48] Austin 如何通过文件夹、密钥和审查 Agent 搭建 Codex 工作环境 Austin 共享屏幕，展示了他在 Codex 应用中创建的"Every Growth OS"文件夹：目录中包含公司所有工具（Gmail、Slack、Notion、Stripe）的 API 密钥、一份同步到 GitHub 的 CLAUDE.md 项目上下文文件，以及一套从 Kieran Classen 的 Compound Engineering 插件派生的自定义审查 Agent。标准 Compound Engineering 审查器专注于安全和前端设计，而 Austin 的派生版本——以"Compound Knowledge"公开发布——则审查与公司目标的战略一致性和数据准确性，使其适用于知识工作计划而非代码 PR 审查。这一文件夹架构让 Austin 无需切换应用，就能从起草上市方案无缝跳转到提交代码 PR。 > *"它连接了我们在 Every 使用的一切工具，还有一些项目说明文件，解释 Every 的业务是什么、我们关注什么、我们喜欢怎样协作。"* — Austin Tedesco ## [18:24] 用 Codex 在 Gmail、Slack 和 Notion 中头脑风暴自动化方案 Austin 演示了他为 Codex 新用户推荐的入门路径：在 Growth OS 文件夹中打开一个新对话，运行 Compound Engineering 的头脑风暴工作流，然后提示模型查看 Gmail、Slack 和 Notion 并提出自动化建议。Codex 据此呈现了一个"跟进雷达"——对跨平台收到的通讯进行分级处理、活动和营期的指挥中心视图，以及招聘流程自动化方案——全部根据 Austin 的实际工作场景量身定制。在会话过程中，Codex 编写了几乎不需要调整的自动化脚本并开始排期；Austin 重点展示了一个夜间草稿回复例程，它会汇总未回复的消息并准备好回复内容，等待一键点赞确认。 > *"它们几乎不需要任何调整，就能成为我每天都会用到的东西。它根据对我的了解生成了这套操作指令。"* — Austin Tedesco ## [22:42] Codex 起草通讯内容时 Austin 如何把控人工审核环节观众 Margaret 的现场提问促使 Austin 详细介绍了他的人工介入审核规范。所有起草和编排工作都在 Codex 内部完成，但最终审核刻意在原生应用中进行：Slack 草稿回复在 Slack 的草稿标签中审核；邮件草稿在 Gmail 中审核；战略计划在 Notion 或 Proof Markdown 查看器中审核。走出 Agent 操作界面"让我的大脑重新清醒"，然后再将内容发给真实的人。另一位提问者、音乐人 Alex 询问如何保护高价值客户邮件，由此引发了一段讨论：Austin 如何将 Every 的 Kora 邮件助手与 Codex 管理的规则结合使用，包括让 Agent 通过提问来推导邮件规则，而不是让用户手动指定。 > *"我就是喜欢在内容真正触达人类之前的最后一关，走出这个 Agent 空间，在另一个界面做最后的检查。"* — Austin Tedesco ## [28:54] 受产品高管 Claire Vo 启发，用 Codex 构建专用 Agent 矩阵 Austin 讲述了受 Claire Vo 与 Lenny Rachitsky 访谈启发的经历——Vo 在访谈中提到，六个专用 OpenClaw Agent 的组合（而非一个功能臃肿的主 Agent）是释放杠杆效应的关键。Austin 直接将那段访谈文字稿粘贴进 Codex，提示它提出六个针对 Every 增长职能的 Agent 方案，并部署到公司 Slack。这些 Agent 偶尔会出问题，但调试很简单：截图报错输出，或在 Codex 中 @-提及相关 Slack 讨论串，让它修复 Agent 的架构。最终形成了一个自我修正的闭环：Agent 故障变成 Codex 任务。 > *"我实际上就是把 Claire 与 Lenny 那期访谈的文字稿发给它，然后说：我也想这么做，结合你对我和我工作的了解，给我建议。"* — Austin Tedesco ## [31:09] 将会议记录和 Slack 讨论串整合为上市计划 Austin 演示了他最省时的工作流：用 Codex 对所有存储在 Notion 的会议记录和 Slack 讨论串运行 Compound Engineering 头脑风暴步骤，为 Every 即将推出的 Plus One 产品组装上市计划，全程无需切换工具。在会议间隙仅有五分钟的碎片时间里，Austin 提示 Codex 查看已排定的内容日历（这一步骤若不提醒会被跳过），生成一份 Proof 文档，并将最终计划推送到 Notion。结果达到了 80%–90% 的完成度。Dan 补充了一个规范性观点：他更倾向于阅读 AI 写的文档，因为这让同事更容易产出内容，而 Every 的标准是：无论 Agent 写了什么，你都要为其承担全部责任。 > *"我依赖这个模型去查看所有我们已经讨论过、思考过的上市策略内容，把它们整合在一起，然后审查，对吧？"* — Austin Tedesco ## [40:15] 在 Notion 中构建可供 Agent 读取的实时 KPI 追踪器 Austin 分享了一个更技术性的工作流：将 Every 的 KPI 追踪器重建为 Notion 数据库，通过 Notion 的 Workers 工具每六小时从 Stripe、社交平台和其他数据源拉取更新。这个追踪器被刻意设计为既对人类可读、也对 Agent 可读，这样任何团队成员的 Agent 都能查询它并采取自主行动——例如，当某个 SEO 关键词表现不佳时自动启动落地页搭建。挑战在于：模型无法一次性生成完整追踪器，因为 MRR 数字哪怕有 3%–5% 的误差对商业决策来说都是不可接受的，所以 Austin 在逐列验证。Dan 指出了一致定义收入指标这件事在哲学层面的复杂性。 > *"所以我一直在做这个在我看来相当复杂的工作流：让我们在 Codex 中一起搭建这张表，让它实时存在于 Notion 数据库里，供我们所有的 Agent 调用。"* — Austin Tedesco ## [44:54] 用 Codex 辅助招聘 Dan 分享了用 Codex 做出站招聘的经历：他让 Codex 整理 General Assembly 的校友名单，然后筛选出其中后来转向 AI 领域的人，目标是为 L&D 总监职位寻找候选人。名单上的第一个名字正是 Dan 认为最合适的人选，而且此人已经在 Twitter 上关注了他，可以直接发私信。这一段随后延伸为更广泛的 Q&A：Austin 讨论了何时应该派生 Compound Engineering、何时直接开箱使用，团队如何用一个共享的 Notion"compound"数据库积累每次会话的学习成果并将其转化为可复用的技能，以及 Every 的"思考周"——每半年一次暂停日常工作的整周——如何为深度 AI 探索创造组织空间。 > *"尤其是任何类型的出站工作，它真的能在干草堆里找到那根你要找的针。"* — Dan Shipper ## 实体 - **Dan Shipper**（人物）：Every 联合创始人兼 CEO；AI & I 播客主持人；AI 与氛围编程主题文章作者 - **Austin Tedesco**（人物）：Every 增长负责人；Codex 深度用户，负责管理 Growth OS 项目和专用 Agent 矩阵 - **Claire Vo**（人物）：产品高管，其关于专用 Agent 矩阵的访谈启发了 Austin 在 Every 搭建多 Agent 体系 - **Kieran Classen**（人物）：Every 工程师；Compound Engineering 插件创始人，该插件是 Austin 知识工作派生版的基础 - **Codex**（软件）：OpenAI 的桌面 Agent 应用，本期讨论的核心工具；基于 GPT-5.5 运行，支持子 Agent、文件夹范围项目和插件集成 - **Claude Code**（软件）：Anthropic 基于 CLI 的编程 Agent；Austin 切换到 Codex 之前的日常主力工具 - **Compound Engineering**（软件）：Kieran Classen 开发的插件工作流框架；提供结构化的头脑风暴、规划和审查步骤，可跨 Claude Code 和 Codex 使用 - **Every**（组织）：聚焦 AI 的媒体与软件公司，出版文章、课程和工具，运营 AI & I 播客 - **OpenAI**（组织）：Codex 和 GPT-5.5 的创造者；向营地参与者提供 ChatGPT Pro 订阅积分 - **Notion**（软件）：Every 的主要知识管理和文档平台；用于存储会议记录、KPI 追踪器和可供 Agent 读取的数据库 - **GPT-5.5**（软件）：驱动当前 Codex 桌面应用的 OpenAI 模型；在 Austin 的知识工作任务中达到了与 Claude Opus 相当的水准

#codex#claude-code#ai-agents

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, & Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

我们实测了 Anthropic 的 Fable 5 一周

SaaS 末日论其实是金矿——Figma 的 Matt Colyer 这么说

Opus 4.8 为何让我重回 Claude

用 AI 把所有事情都自动化了，员工却增加了两倍

Claude Code 可以成为你的第二大脑

Claude Agent 平台的内部秘密：来自亲历者的深度拆解

我们为什么从 Claude Code 切换到 Codex

播客听见世界的声音，看见思想的刻度

浏览频道

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, &amp; Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

我们实测了 Anthropic 的 Fable 5 一周

SaaS 末日论其实是金矿——Figma 的 Matt Colyer 这么说

Opus 4.8 为何让我重回 Claude

用 AI 把所有事情都自动化了，员工却增加了两倍

Claude Code 可以成为你的第二大脑

Claude Agent 平台的内部秘密：来自亲历者的深度拆解

我们为什么从 Claude Code 切换到 Codex

No Priors: AI, Machine Learning, Tech, & Startups