LaiDub

ポッドキャスト

AIが高度になるほど、経済に占めるシェアは縮小するかもしれない – Alex Imas と Phil Trammell
1:16:08
EN/ZH
2 ヶ国語で視聴
Dwarkesh Patel6日前

AIが高度になるほど、経済に占めるシェアは縮小するかもしれない – Alex Imas と Phil Trammell

経済学者の Alex Imas(Google DeepMind / シカゴ大学)と Phil Trammell(Epoch / スタンフォード大学)は、完全自動化の最も直感に反する帰結は、資本がすべてを獲得することではないと論じる。むしろ AI は、完全自動化された財の需要が飽和し、関係性・体験の市場では人間が依然として希少であり続けることで、自らの経済的存在感を縮小させる可能性があるという。対話は「AGI 後に希少なものとは何か」から始まり、再分配の政治学、現在の自動化を遅らせる O リング型補完性、蓄積志向の AI エージェントが将来の富の大半を持つことになる理由、そして AI サプライチェーンから締め出された途上国のとるべき選択へと展開する。 ## [00:00] 資本分配率は上昇するのか? Dwarkesh は核心の問いから議論を開く。AI が人間のあらゆることを担えるなら、労働所得分配率はどこへ向かうのか。Alex Imas はまず、過去の産業転換を予測しようとした経済学者たちが何度も外れてきたことを指摘する。デービッド・リカードは産業革命による大量失業を予言し、どの職種が消えるかという方向性は正しかったが、全体的な結果については完全に外れた。2026 年の主要年齢層の就業率は、2000 年以降のほぼどの時点よりも高い。教訓は、構造転換の経済学者は旧来のコストが崩壊したときに生まれる新しい財や職種を一貫して過小評価してきた、ということだ。 Imas が提示するのが「関係的セクター」という概念だ。人間の存在そのものが価値の一部となる財やサービスを指す。人間は本質的に有限であるため、その他すべてを自動化が飽和させると、人間が関与するループの相対的希少性と価格は上昇する。Phil Trammell はこれをサプライチェーン会計の論拠で補強する。あらゆる財のネットワーク調整済み要素分配率を原材料まで遡ると、労働分配率はすでに驚くほど堅調であることがわかる。AI が非関係的な財をすべて限界費用ゼロで飽和させれば、消費者はその財への需要をすぐに使い尽くし、依然として希少なものへ支出を移す。バレリーナの舞台は、ソフトウェアが無料になっても安くならない。 > *「人間は本質的に希少です。だから多くのものが希少でなくなる自動化が進んでも、人間がある程度関与しているものでは希少性が残り続けるんです。」* > — Alex Imas Trammell は資本分配率の話へも論を広げる。人間が関わらないあらゆる財のサプライチェーンを完全自動化し、需要をすばやく飽和させれば、そうした財の追加単位の限界効用はゼロに近づく。結果として資本分配率は拡大するのではなく、実際には縮小するかもしれない。これがこのエピソードの直感に反する結論だ。 ## [19:36] 混乱した中間シナリオ Dwarkesh は Molly Kinder の「混乱した中間」という議論を持ち出す。AI が大惨事を招くわけではないが、分配の圧迫が長引く世界だ。企業が生産性向上の利益を取り込む一方、労働者は賃金停滞に直面し、政府の再分配は変化の速度に追いつかない。歴史的なアナロジーは電話交換手だ。1960 年代には技術的に自動化可能だったこの職種が実際に自動化されるまで 20 年かかった。制度的慣性があったためだ。労働者は一夜にして解雇されたわけではなく、多くは低賃金や不完全雇用の形で徐々に吸収された。 Imas は近い将来においては混乱した中間は起こりうると見るが、恒久的にはならないと考える。AI による生産性向上の規模がパイを十分大きくし、分配できるようにするからだ。政治経済上の問題は資源の希少性ではなく、速度と調整にある。政府は AI が原因の雇用喪失とそれ以外を見分けられず、政治的制約が摩擦を生み、数学的には最終的に帳尻が合うとしても、変位から再分配までの間隔は深刻な被害をもたらすほど長くなりうる。 > *「電話交換手は完全に自動化されましたが、技術が存在していたにもかかわらず 20 年かかった。だからこそ、徐々に滲み出るような変化になった。巨大なセクターが一瞬で消滅したわけじゃない。」* > — Alex Imas ## [25:57] AI 富を課税・再分配する方法 Imas は再分配の手段を「実施の複雑さ」と「効果が現れるまでの時間」という二軸で整理する。負の所得税は施行日に即効性があり、すぐに最低限の所得を保証する。ユニバーサル・ベーシック・キャピタルは、AI 関連企業の株式を市民全員に与えるものだが、リターンが生まれるまでに数年かかる。UBI はその中間に位置する。問題は速度だけでなく政治的持続性でもある。政府の直接給付に依存するプログラムは次の選挙の勝者に左右されやすいが、広く分散した株式保有は資産が分散しているため収奪が難しい。 Trammell は財源の問題と分配の問題を切り分ける。資金調達方法(富裕税、キャピタルゲイン課税、土地価値税、法人税)は、返還方法(現金、株式、公共サービス)とは分析上別の問題だ。ジョージスト的な土地価値税はしばしば議論されるが、AI 時代の再分配に必要な規模の財源としては不十分だと指摘する。AI が生み出す富は土地ではなくソフトウェアと計算資源に集中しているからだ。Phil は、税収を使って AI 企業の株式を広く市民に取得させることが、政治的安定性と経済効率の両立につながりうると示唆する。 > *「今の私たちは労働力という資産を持ち、それが収入に変わる。それがなくなり、基本的なニーズのために選挙で選ばれた政治家に委ねられることになったら、話は変わる。」* > — Alex Imas ## [30:02] 需要崩壊が起きにくい理由 Dwarkesh はホワイトカラー崩壊の語りを突いてくる。AI 主導の大量失業を示すデータはすでに存在するのか。Imas は Yale Budget Lab のデータを引き、せいぜい弱いシグナルが見える程度だと指摘する。ジュニアのソフトウェアエンジニア採用はトレンドをわずかに下回っているが、シニアエンジニア需要は横ばいかむしろ上昇している。ホワイトカラー全体を通じた失業率の水準シフトは見られない。O リング補完性(次の章で詳述)も説明の一つだが、行動面の理由もある。企業が現代性を示そうとパフォーマンスとして AI を導入し、人員を削減したりトークン使用量を最大化したりしているケースがあり、生産性を実際に損なっていることもある。 需要の問題全体として見ると、ソフトウェアは物理的な財と同じ弾力性のルールに従うのかという疑問が浮かぶ。食べ物は食べれば止まるが、ソフトウェアへの需要は止まるのか。Imas と Dwarkesh は、ソフトウェアは価格が下がっても需要が追いつくほど弾力的である可能性があると論じる。コンピューティングの歴史は、安価な計算資源が需要の崩壊を招くのではなく、常により多くの需要を生んできたことを示している。主なリスクは特定の財での飽和であり、労働需要全体の問題ではない。 > *「ジュニア開発者の就職が以前より減っているというシグナルは少しあるかもしれないが、それは『以前より減っている』であって水準シフトではない。シニアのソフトウェアエンジニアへの需要はむしろ増えている。」* > — Alex Imas ## [39:26] 人間の従業員を機械経済に組み込むことの難しさ O リングモデルは、チャレンジャー号の事故でたった一つの部品の失敗がすべてを破壊したことにちなんで名付けられており、現在の AI 自動化が予想より遅い理由と、将来の自動化が構造的に人間を排除するかもしれない理由の双方を説明する。現時点では法務や会計ワークフローの 90% を自動化できても、クライアントは依然として人間のサインオフを求める。一か所の失敗が出力全体を無効にしうるからだ。この信頼性の制約が、AI の能力が高くても人間の雇用を維持させている。 Phil Trammell はこの論理を将来に向けて反転させる。AI が十分に高度化し、生産フローが機械労働だけを前提に組まれると、機械速度で、機械ネイティブな表現形式でやり取りが行われるようになる。そこに人間を挟み込む際の調整コストがボトルネックになる。狭い領域で人間が比較優位を持っていても、調整のオーバーヘッドと信頼性のミスマッチが、人間を迂回するほうが安い状況を生み出す。O リングは両方向に働く。 > *「人間のほうが高コストになるとか、能力が劣るとかいう議論を超えて、AI 労働向けに組まれた生産フロー全体が生まれる。ニューラルで会話し、何千倍もの速度で考えるフローだ。」* > — Dwarkesh Patel ## [43:08] 一部の人間(あるいは AI)が富の蓄積を本質的に志向するとしたら? 最も長い章は最も推測的な領域を扱う。Dwarkesh は、進化が人間に特定の選好、すなわち資源の蓄積、地位、繁殖への志向を埋め込んできたことを指摘する。それが今や 100 兆ドルの世界経済を形作っている。AI エージェントにも類似した選択圧がかかるだろう。蓄積を促す形で訓練・展開されたエージェントが、そうでないものを淘汰し生き残る。これは破滅的な目標不整合を必要とせず、新たな基盤に適用された淘汰の論理にすぎない。 Phil Trammell は定常状態の数理を展開する。人口のわずかな部分、人間であれ AI であれ、現在の消費と将来の消費の間の代替弾力性が高い者(消費で飽和せず資本を求め続ける者)がいれば、長期的にはそのエージェントが富の大部分を所有し、経済の生産物を決定する。資本分配率が 1.0 に近づくのは、AI が集合的に貪欲だからではなく、選好の異質性と複利が最も忍耐強い蓄積者に資産を集めるからだ。 > *「長期的には、彼らが富の大部分を持つことになる。そして経済全体の資本分配率は、基本的にその人たちの支出の資本分配率になる。それは 1 になる。」* > — Phil Trammell 次に議論は割引率と金利へ向かう。AI 主導の成長が極めて速いなら、近い将来の消費は遠い将来の消費と比べて安くなり、理論的には貯蓄インセンティブを下げて金利を圧縮するはずだ。しかし双曲割引者や蓄積志向のエージェントは標準的な価格シグナルに通常の形で反応しないかもしれず、両ゲストとも経済モデルがきれいに解決できる限界にいることを認める。 ## [61:28] 途上国はどうすべきか? Imas は、中所得国・途上国が主流の AI 経済学でほぼ完全に不在であることを指摘し、その責任の一端は自分自身と自分の分野にあると述べる。問題を挟む二つのシナリオがある。楽観的なシナリオでは、オープンウェイトモデルが素早く普及し、ナイジェリアやインドにほぼゼロコストで能力面での底上げをもたらす。モバイルバンキングが従来の銀行インフラの不在をリープフロッグしたのと同様だ。悲観的なシナリオでは、AI が先進国内での商品生産を自動化し、東アジア諸国が工業化の足がかりとしてきた製造業輸出のはしごを取り払ってしまう。 鍵となる変数は、便益の集中度がどれほど高いかだ。Alex は電力のアナロジーを引く。電力は自然独占によって生産されたが、下流での利得は電力会社に集中せず広くユーザーに拡散した。AI も同様のパターン、すなわちコモディティ化されたアクセスと競争的な下流産業、になれば途上国は純受益者になりうる。しかし少数のプラットフォームが大半の価値を占有したソーシャルメディアのパターンを辿るなら、格差の集中は複利で拡大する。Phil は、途上国政府が商品輸出崩壊シナリオへのヘッジとして、AI サプライチェーンへの投資を早期に行う政府系ファンドを検討すべきだと論じる。 > *「AI 技術がナイジェリアや途上国に浸透し、競争条件を均一化するシナリオもある。能力面での底上げが起きる。しかしモデルを訓練せず、ハードウェアも持たず、完全に取り残されるシナリオもある。」* > — Alex Imas ## 登場人物 - **Alex Imas**(人物):Google DeepMind の AGI 経済学ディレクターおよびシカゴ大学経済学教授。行動経済学と AI のマクロ経済的影響を研究する。 - **Phil Trammell**(人物):Epoch の経済学部門長およびスタンフォード大学の研究者。変革的 AI の経済学と Global Priorities Institute での患者本位の慈善活動を研究する。 - **Dwarkesh Patel**(人物):Dwarkesh Podcast のホスト。科学・技術・経済・政策の交差点で長尺インタビューを行う。 - **関係的セクター**(概念):人間の存在そのものが価値の核となる財やサービス。セラピー、職人の工芸、生演奏など。AI が代替可能な産出を飽和させるにつれ、経済シェアが拡大すると予測される。 - **O リング理論**(概念):一つの信頼性の低い部品が出力全体を無効にする生産モデル。現在の AI 自動化の限界と、将来の機械主導の生産フローが人間労働を構造的に排除しうる理由の双方を説明する。 - **資本分配率**(概念):国民所得のうち労働者ではなく資本所有者に流れる割合。完全自動化はこれを縮小させるかもしれないという直感に反する命題が、このエピソードの核心をなす。 - **ユニバーサル・ベーシック・キャピタル**(概念):現金ではなく AI 企業を含む生産資産の株式を市民に与える再分配政策。UBI より政治的な持続性が高いと論じられる。 - **Epoch**(組織):AI のタイムラインとマクロ経済予測に特化した研究機関。Phil Trammell が経済学部門長を務める。 - **Yale Budget Lab**(組織):AI の労働市場への影響に関する実証データを発表する研究センター。2026 年半ば時点でホワイトカラー失業率に水準シフトが見られないと報告している点が引用される。 - **土地価値税 / ジョージスト税**(概念):未改良地の価値に課す税。AI 時代の再分配に必要な財源としては不十分とされる。AI が生み出す富は土地ではなくソフトウェアと計算資源に集中しているからだ。

#agi-economics#labor-share#automation
Chip design from the bottom up – Reiner Pope
1:20:19
EN/ZH
2 ヶ国語で視聴
Dwarkesh Patel19日前

Chip design from the bottom up – Reiner Pope

Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

#chip-design#hardware#ai-accelerators
AlphaGoをゼロから作る — Eric Jang
2:37:17
EN/ZH
2 ヶ国語で視聴
Dwarkesh Patel26日前

AlphaGoをゼロから作る — Eric Jang

Eric Jangはサバティカルを使ってAlphaGoを現代的なツールで再実装し、その過程を約2時間半の技術的ウォークスルーとして公開した。これはRLがどう機能するかを照らし出す実験でもあり、LLM学習に組み込まれたナイーブなpolicy-gradient手法が抱える根本的な限界と、MCTSがいかにそれを回避するかを浮き彫りにする。対話は囲碁のルールから始まり、MCTS、ニューラルアーキテクチャ、自己対戦学習、オフポリシーデータへと進み、Jang自身のプロジェクトで自動AI研究ループを走らせた際の観察で締めくくられる。 ## [00:00] 囲碁の基礎 囲碁がブルートフォース探索に打ち勝ったのは、完全に解かれたからではなく、近似によってである。Jangがなぜ再実装に挑んだかを語る動機は、10層のネットワークが、全探索すると宇宙の原子数を超えるほど巨大なゲーム木のコストを「償却」できる謎にあった。序盤では、地の支配・連の自由度・着手禁止点(コウ)といったルールと、曖昧な局面を人間の合意ではなくアルゴリズム的に解決するTromp-Taylorスコアリング規約が解説される。 スコアリングの違いが重要なのは、それがコンピュータによる局面評価に直結するからだ。人間なら包囲されたグループを一目見て運命を受け入れるが、コンピュータはゲーム終了時に争点となる交点をカウントするための明確なルールを必要とする。 > *「2014年、2015年、2016年頃にAlphaGoの初期の躍進を見たとき、AIシステムがいかに高度になれるか、そして深層学習でどれほどの計算複雑性クラスに取り組めるかを目の当たりにして、深く感銘を受けました。」* ## [08:06] モンテカルロ木探索 361の合法手、300手のゲーム、探索空間は宇宙の原子数を超える——そのゲーム木を全展開する代わりに、AlphaGoはMCTSを使ってどの枝を伸ばすべきかをインタラクティブに選択する。中核となるデータ構造は局面ごとのノードで、訪問回数とQ値(そのノードを通る全ロールアウトの勝率の移動平均)を保持する。 行動選択の式(PUCT)は活用と探索のバランスをとる。対数的に増加するボーナスが未訪問ノードへのアルゴリズムを促し、シミュレーションが積み重なってQが安定するにつれて減衰する。Jangは、このUCB派生アプローチがregretを有界に保つ理由、囲碁の決定論的性質ゆえにMCTSの確率はモンテカルロ平均の産物であって真の確率的性質ではないこと、そして転置等価な局面をマージして探索木を枝刈りできることを追う。 > *「AlphaGoの核心的なブレークスルーは、ニューラルネットを使ってこの探索問題を扱いやすくしたことです。」* ## [31:53] ニューラルネットワークの役割 二つのネットワークが、MCTS内部の二つのコストの高い処理を置き換える。価値ネットワークは局面をスカラーの勝率に変換し、ゲームを終局まで展開する必要をなくす。方策ネットワークは合法手上の分布を出力し、探索木を有望な子ノードへ集中させ、無関係な手の長いテールを排除する。 Jangは再実装でResNetとTransformerの両方を試した。個人のGPU環境という小規模データ領域ではResNetがTransformerを上回った。Transformerは離れた局面特徴をつなぐために全域アテンションを必要とするが、局所不変性を学習するにはより多くのデータも要る。KataGoの重要なアーキテクチャ上の洞察は、完全なアテンションを使わずに19×19盤の両端での戦いが互いに影響し合えるよう、残差スタックを通じてグローバル特徴を明示的にプーリングしたことだ。 > *「小規模データ領域では、私の経験ではResNetが依然としてTransformerを上回り、低予算でより高いコストパフォーマンスを発揮します。」* ## [01:00:22] 自己対戦 自己対戦こそAlphaGoが何も知らない状態から超人的な強さへとブートストラップする場だ。ゲームが終わるたびに、MCTSは生の方策ネットワークのpriorよりも鋭い——より尖った——手の分布を生成し、その分布が方策ヘッドの学習ターゲットになる。方策ネットワークはMCTSの出力へと蒸留されるため、次の世代のゲームはより優れたpriorから始まり、探索ステップごとにより大きな改善を得る。 Jangはこれを複利配当つきの推論時スケーリングとして捉える。1,000回のMCTSシミュレーションを方策ネットワークに蒸留することで、次の学習ラウンドの出発点が前進する。すると2回目の1,000ステップが、蒸留なしでは2,000ステップ以上かかる勝率をもたらす。重要なのは、すべてのゲームのすべての手が学習ターゲットを生成すること——勝者だけでなく——であり、これがナイーブなpolicy-gradient手法と比べて学習シグナルの分散を大幅に下げる理由だ。 > *「AlphaGoが自分自身を学習させる美しさは、この最終的な探索プロセスの結果を取り込んで、方策ネットワークに『MCTSがこの結論にたどり着くまでの手間を、最初から予測してしまえばいい』と伝えられることにあります。」* ## [01:25:27] 代替RLアプローチ Jangは丁寧な思考実験を組み立てる。MCTSの目標関数を、LLMが使うナイーブなpolicy-gradient手法——ゲームの勝者を見つけ、そのゲームの全手を強化する——に置き換えたらどうなるか。100エージェントの均衡したリーグで、1手の決定的なミスによって一方が51対49でわずかに勝った場合、学習データはシグナルを持たない手で圧倒的に希薄化される。その1つの情報ある手は約30,000の無関係な手に埋もれてしまう。 このクレジット割り当て問題こそ、advantage関数とbaselineがRLに存在する根本的な理由だ。value baselineを引くことで、生のリターンシグナルがadvantage——各行動が平均よりどれだけ優れていたか——に変換され、勾配の分散が劇的に下がる。Q学習やTD法はフルロールアウトなしにそのadvantageを近似するため、MCTSが使えないドメインで重要になる。 > *「このアルゴリズムが行っていることは、取ったすべての行動に対してMCTSでより良い手がないかを徹底的に探索し、方策ネットワークがその結果を最初から予測できるようにすることで、すべての行動を改善しているのです。」* ## [01:45:36] MCTSはなぜLLMで機能しないのか PUCTの探索式は、有界かつ離散的な行動空間と、局面をまたいで汎化する価値関数を前提としている。囲碁はその両方を満たす。LLMの推論はどちらも満たさない。トークン語彙が膨大すぎて同じ部分列に再び出会うことはほぼなく、思考の途中が問題を解けそうかを信頼性高く判定できる局面レベルの価値関数も存在しない。 LLMが表面上ツリー探索に似た振る舞い——再考、バックトラック、留保——を見せることにJangも触れるが、これは明示的な木の構築ではなくコンテキスト内の挙動から生じる。とくに中間状態がより厳密な論理構造を持つ数学のようなドメインでは、前向き探索が何らかの形で戻ってくる可能性を彼は排除しない。根本的なボトルネックは、トークンレベルで信頼性が高く問い合わせ効率も良い価値関数が存在しないことだ。 > *「LLMでは、同じ子ノードを複数回サンプリングすることはほぼありません。言語は非常に広く開かれているため、思考のステップが複数あれば、離散的な行動集合はLLMに適した選択ではないのです。」* ## [02:00:58] オフポリシー学習 Dwarkeshはある謎を提起する。すべてのAI研究者がオフポリシー学習に警戒するのに、なぜAlphaGo Zeroは古いポリシーバージョンで生成されたゲームをたくさん蓄えたリプレイバッファで問題なく動くのか。JangはDAggerの観点からこれを解消する。重要なのはデータが厳密にオンポリシーかどうかではなく、バッファ内の状態分布が現在のポリシーが実際に訪れる状態、さらにその合理的な近傍をカバーしているかどうかだ。 リプレイバッファがAlphaGoで機能するのは、最近のチェックポイントのゲーム状態が現在のポリシーの分布の近くに留まっているからだ。失敗モードは——現在のポリシーから遠く離れた状態にラベルを付け、エージェントが到達しない局面での最適行動を学ばせてしまうこと——であり、分布シフトが深刻なロボティクスでは現実のリスクとなる。QT-Optのようなシステムから生まれた実践的なレシピは、報酬シェーピングにオフポリシーデータを使いつつ、policy gradientはオンポリシーに保つことだ。 > *「このようなアルゴリズムで求めるのは、訪れる可能性が高い状態が大半を占め、最適な軌跡の周囲にある高次元のチューブ内の状態が一定の割合で含まれるようなデータです。」* ## [02:11:51] RLのサンプル効率は思っていた以上に悪い Dwarkeshは二次元の非効率性論を展開する。一つ目は誰もが知る次元だ。policy-gradient RLは学習シグナルが届く前に完全な軌跡のロールアウトが必要なため、エージェントが長期タスクに取り組むほどFLOPあたりのサンプルが激減する。二つ目はサンプルあたりのビット数だ。語彙100Kのトークンを持つLLMが「blue」をランダムサンプリングで発見しようとすると、1回の成功を見るだけで10万回ものロールアウトが必要になる。一方、教師あり交差エントロピー損失は毎ステップ、モデルの分布が「blue」からどれだけ離れていたかを正確に伝える。 MCTSはこの両問題を回避する。すべての手で学習ターゲットを生成し、そのターゲットは現在のポリシーより常に優れている——単に何千ものトークンに薄く広がった二値の勝敗シグナルではない。Jangの観察によれば、ポリシーネットワークがMCTSの分布に完全に収束しない限り、MCTSがシグナルをまったく与えない状況には陥らない。 > *「MCTSがシグナルをまったく与えないという状況は、MCTSの分布が方策ネットワークの予測と完全に一致しない限り、決して起こりません。」* ## [02:22:05] 自動化されたAI研究者 Jangは自身のAlphaGoプロジェクトの大半を自動化されたLLMコーディングループで進め、AI研究自動化がうまくいく場面と失敗する場面を現場レベルで報告した。ハイパーパラメータ最適化では、現在のモデルは大学院生と同等の仕事をこなす。勾配フローの問題を診断し、データローダーのaugmentationを書き直し、固定予算内で測定可能なperplexity改善を絞り出す。実験の実行やプロット生成についても、簡単なスキル説明で分析付きの完全な実験スイートが生成される。 モデルが確実にこなせないのは横断的な思考だ——研究の方向性が構造的に見込みがないと認識し、さらに実験を積む前に別の切り口へ跳ぶこと。Jangはこれに繰り返し直面した。モデルは行き止まりの方向を掘り続け、その方向が正しいかどうかを問い直すことをしない。彼の仮説は、これが学習シグナルの問題だということだ。囲碁のような適切な外側ループを持つRL環境を構築することが、最終的にモデルをローカルな研究の行き詰まりから脱出させるかもしれない。 > *「現在、一般公開されているクローズドモデルは、あるトラック内で次にどの実験を選ぶかがあまり得意ではないと感じます。『待てよ、このトラックは本当に意味があるのか』という横断的な思考に踏み出せないようです。」* ## 登場人物 - **Eric Jang** (人物): 1X RoboticsのVP of AI、元Google Brain/DeepMind Roboticsシニアリサーチサイエンティスト。サバティカル中にAlphaGoを再実装。 - **Dwarkesh Patel** (人物): Dwarkesh Podcastホスト。インタビュー中にビット/FLOPのRL非効率性分析を共同展開。 - **AlphaGo / AlphaZero** (ソフトウェア): DeepMindの囲碁AIシステム。MCTSと深層ニューラルネットワークを組み合わせたもので、本エピソードの中心的な技術テーマ。 - **KataGo** (ソフトウェア): David Wu(Jane Street)によるオープンソースの囲碁エンジン。AlphaGo Zeroと比べて計算量を40倍削減。Jangの主要な参照実装。 - **モンテカルロ木探索 (MCTS)** (概念): UCB/PUCTによる活用と探索のバランスをとるイテレーティブな探索アルゴリズム。本エピソードの中心的な分析レンズ。 - **クレジット割り当て問題** (概念): 長い軌跡のどの行動が良い結果をもたらしたかをRLで特定することの困難さ。advantage関数、baseline、価値ネットワークの動機となる。 - **DAgger** (概念): Dataset Aggregationアルゴリズム。バッファ内の状態が現在のポリシーの分布近くに留まっている限り、AlphaGoのリプレイバッファが許容可能である理由を説明する。 - **Andrej Karpathy** (人物): policy-gradient RLの希薄な学習シグナルを「ストローで監督を吸い上げる」と表現したことで引用。

#alphago#monte-carlo-tree-search#reinforcement-learning
AI はまだ数学者を置き換えない — Terence Tao
4:12
EN/ZH
2 ヶ国語で視聴
Dwarkesh Patel2か月前

AI はまだ数学者を置き換えない — Terence Tao

Terence Tao は、数学における AI の役割の変化について語り、AI は多くの定型作業を自動化するものの、人間の数学者を完全に置き換えるのではなく、むしろ研究の焦点を新たなフロンティアへ移していくと主張する。人間と AI の協働の未来、そして科学的発見に与える AI の長期的影響の予測不可能性を強調している。 ## [00:10] フロンティア数学における AI の現在の役割 Terence Tao は、AI がすでに人間にはできない「フロンティア数学」を行っているが、それは私たちが慣れ親しんだものとは別種のフロンティアだと説明する。彼はこれを、かつて電卓が人間の能力を超えたタスクを専門化された形で担い、数学の可能性を広げたことになぞらえる。 > *ある意味、彼らはすでに、人間にはできない超知能的なフロンティア数学を行っていますが、それは私たちが慣れているフロンティアとは異なるものです。* ## [00:52] AI は自動化ツールであって代替ではない Tao は、10 年以内に AI が現在数学者が行っている多くの定型作業を担うようになり、人間はより複雑で重要な問題に集中できるようになると予測する。彼は、かつて人間の「計算手」が行っていた作業をコンピューターが自動化した事例や、ゲノム解析が自動化されたあとも遺伝学という分野が新しいスケールで発展し続けた歴史的な転換を引き合いに出す。 > *10 年以内に、数学者が今やっていることの多くは……AI ができるようになる。ただし、それが私たちの仕事で最も重要な部分ではなかった、ということが分かるだろう。* ## [02:46] 数学における人間と AI の協働の未来 Dwarkesh Patel は、AI がミレニアム懸賞問題を自律的に解けるかを尋ねる。Terence Tao は、「人間+AI のハイブリッド」が今後長期にわたり数学を支配するだろうと考えている。現在の AI には知的タスクを完全に代替するための必要要素がまだ揃っておらず、あくまで補完的なツールとして機能するからだ。 > *人間+AI のハイブリッドが、数学をずっと長い間支配するだろうと、私は信じています。* ## [03:43] 科学的発見への予測不能な影響 Tao は、AI が科学と新発見を加速させる一方で、「偶然性を壊す」ことによって、ある種の進歩を阻害する可能性もあると認める。AI が科学的発見に与える将来の影響は、極めて予測困難であると結論づけている。 > *AI が何らかの形で偶然性を破壊することで、特定のタイプの進歩を実際に阻害してしまう可能性もあります。* ## 登場人物・概念 - **陶哲軒 (Terence Tao)**(人物):ゲスト、現代を代表する数学者。 - **Dwarkesh Patel**(人物):ポッドキャストのホスト。 - **AI**(概念):人工知能。数学と科学的発見における役割が議論された。 - **Mathematica / Wolfram Alpha**(ソフトウェア):数学の自動化例として言及された計算ツール。 - **ミレニアム懸賞問題 (Millennium Prize Problems)**(概念):数学の未解決 7 問。各問題に 100 万ドルの賞金が懸けられている。

#ai#mathematics#terence-tao
テレンス・タオ – 世界トップ数学者はAIをどう使っているか
1:23:44
EN/ZH
2 ヶ国語で視聴
Dwarkesh Patel3か月前

テレンス・タオ – 世界トップ数学者はAIをどう使っているか

タオとドワーケシュは、ケプラーの惑星運動の発見をレンズとして、AIが科学に実際に何をもたらしているかを考察する。タオは、仮説の生成はほぼ無コストになったため、ボトルネックは評価・査読・時間の審判に移ったと主張する。現在のAIは広さで勝り(あらゆる問題にあらゆる標準技術を試す)、人間は深さで勝る(部分的な進捗を積み上げていく)ため、ハイブリッド構成が少なくともあと10年は数学を支配するだろう。 ## [00:00] ケプラーは高温のLLMだった タオはケプラーが惑星運動の三法則に至った経緯を語る。ケプラーは間違いだが美しい理論、惑星の軌道の間にプラトン立体を内接させるモデルから出発し、チコ・ブラーエの盗んだ肉眼観測データを何年もかけて検証して初めてそれを捨てた。楕円軌道、面積一定の法則、3乗2乗の法則は10年に及ぶデータ解析から生まれ、ニュートンの説明は1世紀後のことだった。 ドワーケシュの見立て:ケプラーは検証可能なデータセットに対してランダムな関係を巡り続ける高温のLLMに似ている。タオはメカニズムには同意しつつ、ボトルネックについては異を唱える。アイデア生成はすでに安かった——ケプラーに理論は不足していなかった。彼に必要だったのはブラーエの桁違いに優れたデータと、データが否定したアイデアを捨てる忍耐だった。 > *しかしあなたが言う通り、同量の検証が伴わなければ、それはスラップにすぎない。* ## [11:44] AIのスラップの山の中に新しい統一概念があるとどうやって気づくのか タオ:AIがアイデア生成のコストをほぼゼロに押し下げたなら、査読と時間の審判が新たな制約になる。学術誌はすでにAI生成の投稿であふれかえっている。どんなアイデアの地位も、後の科学がそれをどう扱うかにかかっている——コペルニクスはケプラーが全体像を完成させるまでプトレマイオスより精度が低かった——だから、その時点にいる人間が評価を自動化するのは難しい。 ドワーケシュは、何百万もの凡庸な論文に埋もれたベル研究所型の統一概念(シャノンのビット、トランスフォーマー)を科学がどう見つけるかを問う。タオの答えは、人間が担い続けるかもしれない部分を指し示す。科学者は理論を生み出すだけでなく、他の科学者が何年もかけて追究する気にさせるストーリーを語る。ダーウィンの散文が、ニュートンのラテン語の方程式ではできなかった仕事をやってのけた。 > *AIはアイデア生成のコストをほぼゼロに押し下げた。インターネットがコミュニケーションのコストをほぼゼロに押し下げたのと非常によく似た形で。* ## [26:10] 演繹的オーバーハング タオは既存データに眠る未開拓のシグナルについて語る。天文学は何世紀にもわたって最小限のデータから最大限の情報を引き出す学問だった——クオンツヘッジファンドが天文学の博士号取得者を優先採用するのもそのためだ。彼が好む例の一つ:研究者たちは、引用連鎖の中でどのタイポが伝播するかを追跡することで、科学者が引用論文を実際に読む頻度を測定した。 彼はAIの進歩自体にも同じ科学社会学的なアプローチを当てはめることを提案する——引用パターン、学会での言及、その他の足跡を採掘して、ある成果が実際に前進を構成したかどうかを、時間の審判をゆっくり待つのではなく検出するのだ。 > *ひとつの教訓は、多くの分野で演繹的オーバーハングが人々の想像よりはるかに大きい可能性があるということだった。* ## [30:31] AI発見の報告における選択バイアス AIはエルデシュ問題約1100題のうちおよそ50題を解いた後、頭打ちになった。タオは選択効果を説明する。その50題はほぼ文献がなかった——1つの無名な技術と1つの既知の結果を組み合わせれば十分で、AIツールは「あらゆる標準的な組み合わせを試す」のが得意だ。問題の80%が既存の手法で片付くなら、AIはそれをクリアできる。真に新しい技術が必要な場合はツールが止まり、系統的なスイープにおける問題ごとの成功率は1〜2%になる。 タオの比喩:AIツールは暗闇の中で山岳地帯に放たれたジャンプロボットだ。人間が届かない低い壁は越えられるが、手がかりをつかんでそこに留まり、部分的な進捗から引き上げていくことはできない。強気の解釈——AIがある水準に達すれば、1つの問題に100万のコピーを並列で走らせられ、どんな人間コミュニティにもできない——は、科学が広さを実際に活用する新しいパラダイムを必要とする構造的理由でもある。 > *広さではAIが優れ、深さでは人間が、少なくとも人間の専門家が優れている。* ## [46:43] AIは論文を豊かに広くするが、深くはしない タオ自身の作業パターンについて。論文にはより多くのコード、より多くの図、より深い文献調査が含まれるようになった。補助的な作業のコストがおよそ5分の1になったからだ。実際の核心——問題の最も難しい部分を解くこと——は今もペンと紙の上で行われる。補助的なタスクが変わっただけで、取り組んでいた問いに答える速度は変わっていないため、「2倍生産的になった」とは言いにくい。 巧妙さと知性の違いも同じ場所に着地する。2人の人間が数学の問題に取り組むとき、失敗したプロトタイプのそれぞれが次の足がかりになる。現在のAIでは、新しいセッションが前のセッションの成果を忘れてしまう。累積的に引き上げるステップが欠けており、あるのは純粋な試行錯誤と、最終的には次のトレーニングランへの吸収だけだ。 > *論文を豊かに広くしているが、必ずしも深くはしていない。* ## [53:00] AIが問題を解いたとき、人間はそこから理解を得られるか AIがLeanでリーマン予想を証明しても人間には何も分からないということはあり得るか。タオは心配していない。Leanには証明を原子レベルに分解できる特性がある——各補題を独立して検査し、除去し、テストできる。だから3000行の生成された証明でも生の素材になる。他のAIが洗練のために再構成し、他の人間が概念的な内容を抽出でき、元の導出が不透明であっても成果物は有用だ。 彼は、巨大なLean生成の証明を分解してその中のアイデアを見つけることを仕事とする数学者という職業全体を予測する。人間の判断とAIの除去ツールを組み合わせた証明考古学のようなものだ。 > *人間がこれらのツールと協業するインタープレーからはるかに多くのものが得られるだろう。* ## [59:20] 科学者が実際に互いに話す方法のための半形式言語が必要だ ドワーケシュは、数学的証明ではなく数学的戦略のための半形式言語はどのようなものかを問う。タオはガウスの素数定理——証明が存在する前に生のデータから導かれた数学初の主要な統計的予想——と、双子素数予想を通じてこの問いを辿る。数学者がそれを信じるのは、素数のランダムモデルがそれを予測するからだ。数学には厳密な証明と厳密なヒューリスティックの両方がある。しかしLeanが検証できる形に形式化されているのは証明の側だけだ。 ヒューリスティックの側が形式化されていない理由:RL検証可能な評価者はすべてエクスプロイトの標的になるし、「この論証は説得力がある」という主観的な部分はまだハック可能なフレームワークを認めない。タオはおもちゃの数学的宇宙で小さなAIを走らせてどんな戦略が生まれるかを観察するなど、大規模な予想生成と戦略選択のベンチマーク方法を望んでいる。 > *科学には、AIを何か有益な形で組み込む方法がまだ分からない主観的な側面がある。* ## [69:48] テリーの時間の使い方 タオが新しいサブフィールドをどう吸収するかについて。彼はバーリンの意味でのキツネとして自分を位置付ける——あらゆることについて少しずつ知り、必要に応じてハリネズミになる。原動力は完全主義的な強迫観念だ。別の数学者が自分の知らない技術で結果を証明できるなら、その技術が何だったかを追いかけなければならない。(同じ理由でビデオゲームをやめた。)他の数学者との協働が主な手段で、ブログに書き留めることは6ヶ月後に論証を忘れて繰り返し痛い目を見た後に開発した記憶の補助だ。 カレンダーの上では、タオは意図的に偶然性のための余地を残している。時間を最適化しすぎてコンフォートゾーン外の会議に出られなくなるのは嫌だ。高等研究所で過ごした1年がその罠を確認した——純粋な研究の2週間は素晴らしかったが、その後はインスピレーションが尽きた。次の書棚での偶然の発見、廊下でのなにげない会話、しぶしぶ出席した会議が、見かけよりはるかに大きな仕事をしていた。 > *そういった偶発的なやりとりは最適には見えないかもしれないが、実は本当に重要なのだ。* ## [77:05] 人間とAIのハイブリッドがずっと長く数学を支配するだろう AIが数学をやるだけになるのはいつか。タオはフレームを変える——AIはすでに人間にできない数学をやっている、電卓がそうであるように、ただ別のフロンティアで。おそらく10年以内に、大学院生が現在やっていることの多く——標準技術の適用、文献の整理——はAIに移行するだろうが、コンピュータ代数システムが記号積分を吸収したときのように、分野は一段上に移るだろう。ゲノム研究は塩基配列解析が安くなっても終わらなかった。生態系にまでスケールアップした。数学も同じことをするだろう。 今数学に入る学生へのアドバイス:変化を前提にしながらも、資格は昔ながらの方法で取れ——今のところ、数学を従来の道で学ぶことに代わるものはまだない。同時に、まだ存在しないものも含め、新しい研究モードが現れたときにそれを使えるくらい適応力を持て。特筆すべき事実として、AIツールとLeanがあれば高校生が今日本物の数学研究に貢献できる。5年前にはあり得なかったことだ。 > *人間プラスAIのハイブリッドが数学をずっと長く支配するだろうと、私は信じている。* ## 登場人物 - **テレンス・タオ** (人物): フィールズ賞受賞者(2006年)、UCLA数学者。数学研究におけるAIの役割についてブログで定期的に発信。 - **ドワーケシュ・パテル** (人物): Dwarkesh Podcastのホスト。AI、科学、技術をテーマに長時間インタビューを行う。 - **ヨハネス・ケプラー** (人物): 天文学者(1571-1630)。チコ・ブラーエの観測から惑星運動の三法則を導いた。 - **チコ・ブラーエ** (人物): 数十年にわたる惑星観測データを残したデンマークの肉眼天文学者。ケプラーが必要としたデータセット。 - **Lean** (ソフトウェア): 数学的証明を形式化して検証・分解・除去できる証明支援系。 - **エルデシュ問題** (概念): ポール・エルデシュが提起した約1100題の未解決問題。AIはほぼ文献のないものを中心におよそ50題を解いた。 - **演繹的オーバーハング** (概念): 既存データがすでに膨大な未導出の知識を内包しているという考え。天文学がモデルとなる。 - **リーマン予想** (概念): 素数分布に関する未解決の予想。AIによる証明が人間の数学的理解を前進させるかどうかの試金石。

#ai-for-math#terence-tao#kepler