PodcastsHear the voice. See the shape of the thought.
Parcourir les chaînes
Plus l'IA progresse, plus sa part de l'économie pourrait se contracter – Alex Imas et Phil Trammell
Les économistes Alex Imas (Google DeepMind / Université de Chicago) et Phil Trammell (Epoch / Stanford) soutiennent que le résultat le plus contre-intuitif d'une automatisation totale n'est pas que le capital s'accapare tout — c'est que l'IA pourrait en réalité réduire sa propre empreinte économique à mesure que la demande se sature pour les biens entièrement automatisés, tandis que les humains restent rares sur les marchés relationnels et expérientiels. La conversation part de ce qui demeurera rare après l'AGI, traverse la politique de redistribution, explique pourquoi les complémentarités en O-ring freinent l'automatisation actuelle, pourquoi des agents IA orientés vers l'accumulation pourraient détenir l'essentiel de la richesse future, et ce que les économies en développement devraient faire lorsqu'elles sont exclues de la chaîne d'approvisionnement en IA. ## [00:00] La part du capital va-t-elle augmenter ? Dwarkesh pose d'emblée la question centrale : si l'IA peut tout faire ce que font les humains, que devient la part du travail dans le revenu ? Alex Imas remarque que les économistes qui ont tenté de prédire les transitions industrielles passées se sont souvent trompés — David Ricardo avait prévu un chômage de masse avec la révolution industrielle et avait raison sur les emplois qui disparaîtraient, mais complètement tort sur l'issue globale : l'emploi en prime working age en 2026 est plus élevé qu'à presque n'importe quel moment depuis 2000. La leçon : les économistes du changement structurel sous-estiment systématiquement les nouvelles catégories de biens et d'emplois qui émergent quand les coûts anciens s'effondrent. Imas introduit ce qu'il appelle le « secteur relationnel » — des biens et services où la présence humaine fait elle-même partie de la valeur. Parce que les humains sont naturellement en nombre limité, une automatisation qui sature tout le reste gonfle la rareté relative et le prix des produits nécessitant la présence humaine. Phil Trammell affine cela avec un argument de comptabilité en chaîne d'approvisionnement : en remontant toutes les contributions en travail et en capital jusqu'aux matières premières, on constate que la part du travail est déjà étonnamment résiliente. Le paradoxe : si l'IA sature tous les biens non relationnels à un coût marginal quasi nul, les consommateurs épuisent rapidement leur demande sur ces biens et reportent leurs dépenses vers ce qui reste rare. Le spectacle d'une danseuse classique ne devient pas moins cher parce que le logiciel est gratuit. > *"Parce que les humains sont naturellement rares, si l'automatisation rend beaucoup d'autres choses abondantes, il y aura toujours de la rareté dans ce qui implique les humains et leur présence dans la boucle."* > — Alex Imas Trammell pousse le raisonnement jusqu'à la part du capital elle-même : automatisez entièrement la chaîne d'approvisionnement de tous les biens non humains, saturez la demande rapidement, et l'utilité marginale de ces biens supplémentaires s'effondre vers zéro. Résultat : la part du capital dans la valeur pourrait en réalité se contracter plutôt que s'étendre — c'est la thèse contre-intuitive au cœur de cet épisode. ## [19:36] Le scénario du milieu chaotique Dwarkesh soulève la thèse du « messy middle » de Molly Kinder : un monde où l'IA ne provoque pas de catastrophe, mais crée un étranglement distributif prolongé — les entreprises captent les gains de productivité, les salaires stagnent, et la redistribution par l'État tarde face à la vitesse des déplacements. L'analogie historique est celle des opératrices téléphoniques : un métier entièrement automatisable par une technologie existant dès les années 1960, mais qui a mis vingt ans à disparaître en raison de l'inertie institutionnelle. Les travailleurs n'ont pas été licenciés du jour au lendemain ; ils ont été progressivement réabsorbés — souvent à des salaires plus bas et dans des situations de sous-emploi. Imas juge le milieu chaotique plausible à court terme, mais probablement pas permanent, car l'ampleur des gains de productivité de l'IA rend le gâteau suffisamment grand pour être partagé. Le problème d'économie politique n'est pas la rareté des ressources, mais la vitesse et la coordination : les gouvernements ne savent pas quels travailleurs ont été déplacés par l'IA plutôt que par d'autres causes, les contraintes politiques créent des frictions, et l'écart entre déplacement et redistribution peut être assez long pour causer des dommages sérieux, même si les chiffres finissent par s'équilibrer. > *"Les opératrices téléphoniques ont bien été entièrement automatisées, mais ça a pris 20 ans alors que la technologie existait — c'était un goutte-à-goutte, pas la disparition soudaine d'un secteur entier."* > — Alex Imas ## [25:57] Comment taxer et redistribuer la richesse générée par l'IA Imas cartographie la boîte à outils de redistribution selon deux axes : la complexité de mise en œuvre et le délai avant impact. Un impôt négatif sur le revenu entre en vigueur le jour de son adoption et offre un plancher immédiat. Le capital universel de base — distribuer à chaque citoyen des parts dans des entreprises développant l'IA — prend des années avant de produire des rendements. L'UBI se situe entre les deux. L'arbitrage n'est pas seulement une question de rapidité : c'est aussi la durabilité politique. Les programmes qui rendent les citoyens dépendants d'un chèque gouvernemental direct sont vulnérables à l'alternance politique, tandis qu'une propriété actionnariale large est plus difficile à exproprier parce que les actifs sont distribués. Trammell distingue la question des recettes de celle de la distribution : la façon de lever l'argent (taxe sur la fortune, plus-values, taxe foncière, impôt sur les sociétés) est analytiquement distincte de la façon de le restituer (espèces, actions, services publics). Il note qu'une taxe georgiste sur la valeur foncière est souvent évoquée, mais serait insuffisante pour financer la redistribution à l'échelle requise lorsque la richesse générée par l'IA est concentrée dans les logiciels et le calcul informatique, non dans les terres. Phil suggère qu'une distribution large de participations dans des entreprises d'IA, achetées via les recettes fiscales, pourrait être à la fois politiquement stable et économiquement efficace. > *"En ce moment, nous sommes dotés d'un travail qui peut se transformer en revenu — quand ce ne sera plus le cas et que nous serons à la merci de l'élu pour nos besoins essentiels."* > — Alex Imas ## [30:02] Pourquoi l'effondrement de la demande est peu probable Dwarkesh insiste sur le récit de l'apocalypse des cols blancs : existe-t-il déjà des données montrant un chômage de masse provoqué par l'IA ? Imas pointe les données du Yale Budget Lab, qui ne détectent qu'un signal faible — les embauches d'ingénieurs logiciels juniors sont modestement en deçà de la tendance, tandis que la demande d'ingénieurs seniors est stable ou en hausse. Aucun saut de niveau du chômage n'est apparu dans les secteurs de cols blancs. Une explication tient aux complémentarités en O-ring (abordées dans le chapitre suivant), une autre est comportementale : les entreprises s'engagent dans une adoption ostentatoire de l'IA — licenciant des employés ou maximisant l'usage de tokens pour signaler leur modernité, parfois au prix réel de leur productivité. La question plus large est de savoir si le logiciel obéit aux mêmes règles d'élasticité que les biens physiques. On finit par manger assez et s'arrêter ; cesse-t-on jamais de vouloir davantage de logiciels ? Imas et Dwarkesh avancent que le logiciel est peut-être suffisamment élastique pour que la demande suive la baisse des prix — l'histoire de l'informatique montre que la baisse du coût du calcul a régulièrement suscité davantage de demande plutôt que de l'effondrer. Le principal risque concerne les biens spécifiques où la satiation est rapide, non la demande agrégée de travail. > *"Il y a peut-être un léger signal indiquant que les développeurs juniors trouvent moins facilement du travail qu'avant — mais c'est un 'moins qu'avant', pas un saut de niveau ; la demande de développeurs seniors est même en hausse, si l'on regarde bien."* > — Alex Imas ## [39:26] Les travailleurs humains seraient difficiles à intégrer dans une économie dominée par les machines Le modèle en O-ring — nommé d'après la catastrophe de la navette Challenger, où un seul composant défaillant a tout détruit — explique à la fois pourquoi l'automatisation par l'IA est plus lente que prévu et pourquoi l'automatisation future pourrait structurellement exclure les humains. Aujourd'hui, on peut automatiser 90 % d'un flux juridique ou comptable, mais les clients veulent toujours qu'un humain appose sa signature, car un seul point de défaillance peut invalider l'ensemble. Cette contrainte de fiabilité maintient les humains en emploi même lorsque les capacités de l'IA sont élevées. Phil Trammell retourne la logique vers l'avenir : à mesure que l'IA devient suffisamment performante pour que les flux de production s'organisent entièrement autour du travail des machines — des agents communiquant à la vitesse des machines, dans des représentations natives aux machines — le coût de transaction lié à l'insertion d'un humain dans la boucle devient le goulot d'étranglement. Même si un humain dispose d'un avantage comparatif sur une tâche précise, le surcoût de coordination et l'incompatibilité en matière de fiabilité rendent moins onéreux de le contourner. L'O-ring fonctionne dans les deux sens. > *"Au-delà des arguments sur le coût ou les capacités des humains — au-delà de tout ça — il y aura des flux de production entiers organisés pour le travail de l'IA, où ils communiquent en neuronaux et pensent des milliers de fois plus vite."* > — Dwarkesh Patel ## [43:08] Et si certains humains (ou IA) valorisaient l'accumulation de richesse en tant que telle ? Le chapitre le plus long explore le terrain le plus spéculatif. Dwarkesh note que l'évolution a sélectionné des humains dotés de préférences spécifiques — accumulation de ressources, statut social, reproduction — qui façonnent aujourd'hui une économie mondiale de 100 000 milliards de dollars. Les agents IA seront soumis à des pressions de sélection analogues : ceux entraînés ou déployés de manière à favoriser l'accumulation surpasseront et survivront aux autres. Cela ne requiert pas de désalignement catastrophique ; c'est la logique ordinaire de la reproduction différentielle appliquée à un nouveau substrat. Phil Trammell développe les mathématiques à l'état stationnaire : si même une petite fraction de la population — humaine ou IA — présente une forte élasticité de substitution entre consommation présente et future (autrement dit, elle veut toujours plus de capital plutôt que de se rassasier de consommation), alors à long terme ces agents détiennent l'essentiel de la richesse et déterminent ce que produit l'économie. La part du capital tend vers 1,0 non parce que l'IA est collectivement avide, mais parce que l'hétérogénéité des préférences conjuguée aux effets composés transfère les actifs aux accumulateurs les plus patients. > *"À long terme, ils détiendront l'essentiel de la richesse — et la part du capital sera fondamentalement celle des dépenses de cette personne, laquelle sera de un."* > — Phil Trammell La conversation se tourne ensuite vers les taux d'actualisation et les taux d'intérêt. Si la croissance portée par l'IA est extrêmement rapide, la consommation à court terme est bon marché par rapport à la consommation future, ce qui devrait théoriquement réduire les incitations à l'épargne et comprimer les taux d'intérêt. Mais les agents à actualisation hyperbolique et ceux orientés vers l'accumulation ne réagissent pas forcément aux signaux de prix de manière standard, et les deux invités reconnaissent se trouver à la frontière de ce que les modèles économiques peuvent résoudre clairement. ## [61:28] Que doivent faire les pays en développement ? Imas ouvre en constatant que les pays à revenu intermédiaire et les pays en développement sont presque totalement absents de l'économie de l'IA mainstream — une lacune qu'il attribue en partie à lui-même et à sa discipline. Deux scénarios encadrent le problème. Dans le scénario optimiste, les modèles à poids ouverts se diffusent rapidement et offrent au Nigeria ou à l'Inde un bond de capacité à coût quasi nul, comme la banque mobile a permis de court-circuiter l'absence d'infrastructure bancaire traditionnelle. Dans le scénario pessimiste, l'IA automatise la production de matières premières dans les pays riches, supprimant l'escalier industriel par les exportations manufacturières qui a permis aux économies d'Asie de l'Est de s'industrialiser. La variable clé est le degré de concentration des bénéfices. Alex trace l'analogie avec l'électricité : l'électricité était produite par des monopoles naturels, mais les gains en aval se sont largement diffusés aux utilisateurs plutôt que de se concentrer dans les mains des distributeurs. Si l'IA suit le même schéma — accès banalisé, concurrence en aval — les pays en développement pourraient en être les bénéficiaires nets. Si elle suit le modèle des réseaux sociaux — où quelques plateformes captent l'essentiel de la valeur — la concentration aggrave les inégalités. Phil soutient que les gouvernements des pays en développement devraient envisager des fonds souverains investissant tôt dans les chaînes d'approvisionnement en IA, à titre de couverture contre l'effondrement des exportations de matières premières. > *"Il y a des scénarios où la technologie IA se diffuse au Nigeria et dans les pays en développement — nivelant le terrain de jeu, leur offrant essentiellement un bond de capacité. Et il y a des scénarios où ils ne forment pas les modèles, n'ont pas le matériel, et se retrouvent complètement laissés pour compte."* > — Alex Imas ## Entités - **Alex Imas** (Personne) : Directeur de l'économie AGI à Google DeepMind et professeur d'économie à l'Université de Chicago ; spécialiste d'économie comportementale et des impacts macroéconomiques de l'IA. - **Phil Trammell** (Personne) : Responsable de l'économie à Epoch et chercheur associé à Stanford ; travaille sur l'économie de l'IA transformatrice et la philanthropie de long terme au Global Priorities Institute. - **Dwarkesh Patel** (Personne) : Animateur du Dwarkesh Podcast ; entretiens longs formats à l'intersection de la science, de la technologie, de l'économie et des politiques publiques. - **Secteur relationnel** (Concept) : Biens et services où la présence humaine est intrinsèque à la proposition de valeur — thérapie, artisanat, spectacle vivant — dont on prédit qu'il gagnera en part économique à mesure que l'IA sature les productions substituables. - **Théorie de l'O-ring** (Concept) : Modèle de production où un seul composant peu fiable invalide l'ensemble de la production ; explique à la fois les limites actuelles de l'automatisation par l'IA et pourquoi les flux de production organisés autour des machines pourraient structurellement exclure le travail humain. - **Part du capital** (Concept) : La fraction du revenu national revenant aux propriétaires de capital plutôt qu'au travail ; la grandeur centrale de l'épisode, avec la thèse contre-intuitive qu'une automatisation totale pourrait la réduire plutôt que l'amplifier. - **Capital universel de base** (Concept) : Politique de redistribution donnant aux citoyens des participations dans des actifs productifs (dont des entreprises d'IA) plutôt que des liquidités ; jugé plus durable politiquement que l'UBI. - **Epoch** (Organisation) : Institut de recherche spécialisé dans les horizons temporels de l'IA et les prévisions macroéconomiques ; Phil Trammell y est responsable de l'économie. - **Yale Budget Lab** (Organisation) : Centre de recherche publiant des données empiriques sur les effets de l'IA sur le marché du travail ; cité pour n'avoir détecté aucun saut de niveau du chômage dans les secteurs de cols blancs à mi-2026. - **Taxe sur la valeur foncière / Taxe georgiste** (Concept) : Taxe sur la valeur non améliorée des terres ; jugée insuffisante comme source de revenus pour la redistribution à l'ère de l'IA, la richesse générée par l'IA étant concentrée dans les logiciels et le calcul informatique, non dans les terres.
Chip design from the bottom up – Reiner Pope
Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

Building AlphaGo from scratch – Eric Jang
Eric Jang spent his sabbatical rebuilding AlphaGo with modern tools, and the result is a two-and-a-half-hour technical walkthrough that doubles as a lens on how RL actually works—and why the naive policy-gradient approach baked into LLM training has fundamental limits that MCTS sidesteps. The conversation moves from Go rules through MCTS, neural architecture, self-play training, and off-policy data, before landing on what Jang observed running an automated AI research loop on his own project. ## [00:00] Basics of Go Go defeated brute-force search not by being solved but by being approximated. Jang explains what drew him to rebuild AlphaGo: the mystery of how a ten-layer network can amortize the cost of a game tree whose branching factor makes exhaustive search literally larger than the number of atoms in the universe. The early minutes cover the rules—territory control, liberties, captures, ko—and the Tromp-Taylor scoring convention that resolves ambiguous positions algorithmically rather than relying on human consensus. The scoring difference matters because it maps directly onto how computers must evaluate positions: a human glances at a surrounded group and accepts its fate, while a computer needs an unambiguous rule to count contested intersections at the end of a game. > *"When I saw the early breakthroughs on AlphaGo in 2014, 2015, 2016 and so forth, it was profound to see how smart AI systems could become and the computational complexity class they could tackle with deep learning."* ## [08:06] Monte Carlo Tree Search Rather than building out the full game tree (361 legal moves, 300-move games, search space exceeding the atom count of the universe), AlphaGo uses MCTS to interactively select which tree branches are worth expanding. The core data structure is a node per board state, storing a visit count and a Q value—the running average win rate across all rollouts through that node. The action-selection formula (PUCT) balances exploitation with exploration: a logarithmically growing bonus pushes the algorithm toward under-visited nodes, then decays as simulations accumulate and Q becomes reliable. Jang traces why this UCB-derived approach bounds regret, why Go's determinism means the probabilities in MCTS are artifacts of Monte Carlo averaging rather than genuine stochasticity, and how the search tree can be pruned by merging transposition-equivalent positions. > *"AlphaGo's core conceptual breakthrough was using neural nets to make this search problem tractable."* ## [31:53] What the neural network does Two networks replace two expensive operations inside MCTS. The value network maps a board state to a win-probability scalar, short-circuiting the need to roll out games to terminal states. The policy network outputs a distribution over legal moves, focusing the search tree toward promising children and away from the long tail of irrelevant ones. Jang tried both ResNets and transformers on his reimplementation. For the small-data regime of a personal GPU setup, ResNets outperformed transformers—transformers need global attention to connect far-apart board features, but they also need more data to learn local invariances. KataGo's key architectural insight was pooling global features explicitly through the residual stack so that battles on opposite sides of the 19x19 board could influence each other without requiring full attention. > *"For small data regimes, my experience is that ResNets still outperform transformers and give you more bang for the buck at lower budgets."* ## [01:00:22] Self-play Self-play is where AlphaGo bootstraps from knowing nothing to superhuman strength. After every game, MCTS produces a sharpened move distribution—more peaked than the raw policy network's prior—and that sharpened distribution becomes the training target for the policy head. The policy network is being distilled toward the MCTS output, which means each subsequent generation of games starts from a better prior and gets more improvement per search step. Jang frames this as test-time scaling with a compounding dividend: distilling 1,000 MCTS simulation steps into the policy network shifts the starting point of the next training round, so a second 1,000 steps buys a win rate that would have required 2,000+ steps without distillation. Crucially, every move in every game generates a supervision target—not just the winner—which is why the variance of the learning signal is vastly lower than naive policy-gradient approaches. > *"The beauty of how AlphaGo trains itself is that it can actually take this final search process—the outcome of the search process—and tell the policy network, 'Hey, instead of having MCTS do all this legwork to arrive here, why don't you just predict that from the get-go?'"* ## [01:25:27] Alternative RL approaches Jang constructs a careful thought experiment: what if you replaced the MCTS objective with the naive policy-gradient approach LLMs use—find the game winner and reinforce all moves from that game? In a league of 100 evenly-matched agents where one squeaks out a 51-49 record due to a single critical move, the training dataset is overwhelmingly diluted with moves that carry no signal. The one informative move is buried in roughly 30,000 irrelevant ones. This credit-assignment problem is the root of why advantage functions and baselines exist in RL. Subtracting a value baseline converts the raw return signal into an advantage—how much better than average each action actually was—and dramatically reduces gradient variance. Q-learning and TD methods approximate that advantage without needing full rollouts, which is why they matter for domains where MCTS is unavailable. > *"Importantly, what it is doing is saying: for every action we took, we did a pretty exhaustive search on MCTS to see if we could do better, and we're going to make every action that we took better by having the policy network predict that outcome instead."* ## [01:45:36] Why doesn't MCTS work for LLMs The PUCT exploration formula assumes a bounded, discrete action space and a value function that generalizes across positions. Go satisfies both. LLM reasoning satisfies neither: the token vocabulary is so large that you will almost never revisit the same partial sequence, and there is no position-level value function that reliably tells you whether a partially completed chain of thought is on track to solve the problem. Jang notes that LLMs do exhibit something that superficially resembles tree search—reconsidering, backtracking, hedging—but this emerges from in-context behavior rather than explicit tree construction. He leaves open the possibility that forward search could return in some form, particularly for domains like mathematics where intermediate states have a more rigid logical structure. The fundamental bottleneck is the absence of a trustworthy, query-efficient value function at the token level. > *"In an LLM, you're most likely never going to sample the same child more than once. If you have multiple steps of thinking, because language is so broad and open-ended, a discrete set of actions is not really an appropriate choice for an LLM."* ## [02:00:58] Off-policy training Dwarkesh raises a puzzle: every AI researcher warns against off-policy training, yet AlphaGo Zero runs fine with a large replay buffer full of games generated by older policy versions. Jang resolves this through the DAgger lens: what matters is not whether data is strictly on-policy, but whether the distribution of states in the buffer covers the states the current policy will actually visit, plus a reasonable neighborhood around them. The replay buffer works in AlphaGo because game states from recent checkpoints still lie near the current policy's distribution. The failure mode—labeling states so far from the current policy that the agent learns optimal actions for positions it will never reach—is a real risk in robotics, where distributional shift is severe. The practical recipe that emerged from systems like QT-Opt is to use off-policy data for reward shaping while keeping the policy gradient on-policy. > *"What you want in an algorithm like this is to have mostly states that you would visit, but then a small or reasonable percentage of states in this high-dimensional tube around your optimal trajectories."* ## [02:11:51] RL is even more information inefficient than you thought Dwarkesh lays out a two-dimensional inefficiency argument. The first dimension is the one everyone knows: policy-gradient RL requires full trajectory rollouts before any learning signal arrives, so as agents tackle longer-horizon tasks, samples per FLOP collapse. The second dimension is bits per sample. Early in training, an LLM with a 100K-token vocabulary that has to discover "blue" by random sampling needs on the order of 100K rollouts just to see one success—whereas supervised cross-entropy loss tells the model exactly how far its distribution was from "blue" on every step. MCTS escapes both problems. It produces a supervision target at every single move, and that target is strictly better than the current policy—not merely a binary win/loss signal smeared across thousands of tokens. Jang's observation: you are never in a situation where MCTS gives you zero signal, unless the policy has already converged to match the MCTS distribution exactly. > *"You're never in a situation where the MCTS is giving you no signal, unless your MCTS distribution converges to exactly what your policy network predicts."* ## [02:22:05] Automated AI researchers Jang ran much of his AlphaGo project through an automated LLM coding loop, giving a ground-level account of where AI research automation succeeds and where it still fails. On hyperparameter optimization, current models do genuine grad-student work: they diagnose gradient flow problems, rewrite data-loader augmentations, and squeeze measurable perplexity improvements on fixed budgets. On experiment execution and plotting, a simple skill description generates a full experimental suite with analysis. What the models cannot reliably do is lateral thinking—recognizing that a research track is structurally unpromising and jumping to a different framing before accumulating more dead-end experiments. Jang ran into this repeatedly: models would grind down a dead-end track rather than stepping back and asking whether the track was the right one. His thesis is that this is a training signal problem—building RL environments with the right outer loop, like Go, may be what eventually teaches models to escape local research dead ends. > *"What I find is that the current closed models the public can access today don't seem to be that great at selecting what the next experiment should be in a given track. They don't seem to be able to step back and do the lateral thinking of, 'Wait a minute, this track doesn't really make sense.'"* ## Entities - **Eric Jang** (Person): VP of AI at 1X Robotics; previously senior research scientist at Google Brain/DeepMind Robotics; rebuilt AlphaGo on sabbatical. - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; co-develops the bits-per-FLOP RL inefficiency analysis during the interview. - **AlphaGo / AlphaZero** (Software): DeepMind's Go-playing systems combining MCTS with deep neural networks; the technical centerpiece of the episode. - **KataGo** (Software): Open-source Go engine by David Wu (Jane Street) that achieved 40x compute reduction over AlphaGo Zero; Jang's primary reference implementation. - **Monte Carlo Tree Search (MCTS)** (Concept): Iterative search algorithm balancing exploitation and exploration via UCB/PUCT; the episode's central analytical lens. - **Credit assignment problem** (Concept): Difficulty in RL of determining which actions in a long trajectory caused a positive outcome; motivates advantage functions, baselines, and value networks. - **DAgger** (Concept): Dataset Aggregation algorithm; explains why replay buffers in AlphaGo are tolerable as long as buffer states stay near the current policy's distribution. - **Andrej Karpathy** (Person): Referenced for the phrase "sucking supervision through a straw" describing policy-gradient RL's sparse learning signal over long token trajectories.

Pourquoi l'IA ne remplacera pas encore les mathématiciens – Terence Tao
Terence Tao évoque le rôle changeant de l'IA en mathématiques et soutient qu'elle automatisera de nombreuses tâches routinières sans remplacer complètement les mathématiciens humains : elle déplacera plutôt leur attention vers de nouvelles frontières. Il insiste sur l'avenir de la collaboration humain-IA et sur la nature imprévisible de l'impact à long terme de l'IA sur la découverte scientifique. ## [00:10] Le rôle actuel de l'IA dans les mathématiques de pointe Terence Tao explique que l'IA effectue déjà des « mathématiques de pointe » que les humains ne peuvent pas faire, même si c'est un autre type de pointe. Il compare cela à la façon dont les calculatrices ont, par le passé, élargi le champ des mathématiques — en prenant en charge, sur un mode spécialisé, des tâches hors de portée humaine. > *D'une certaine manière, elles font déjà des mathématiques de pointe super-intelligentes que les humains ne peuvent pas faire, mais c'est une frontière différente de celle à laquelle nous sommes habitués.* ## [00:52] L'IA comme outil d'automatisation, pas comme substitut Tao prédit que, d'ici une décennie, l'IA gèrera de nombreuses tâches routinières aujourd'hui assurées par les mathématiciens, permettant aux humains de se concentrer sur des problèmes plus complexes et plus importants. Il trace un parallèle avec les bouleversements historiques : les ordinateurs ont automatisé des tâches autrefois confiées à des « calculateurs humains », et le séquençage du génome est devenu automatique sans que la génétique cesse d'évoluer à de nouvelles échelles. > *D'ici une décennie, beaucoup de choses que les mathématiciens font actuellement… pourront être faites par l'IA. Mais nous découvrirons que ce n'était pas la partie la plus importante de ce que nous faisons.* ## [02:46] L'avenir de la collaboration humain-IA en mathématiques Dwarkesh Patel interroge Tao sur la capacité de l'IA à résoudre seule les Problèmes du Prix du Millénaire. Terence Tao estime que « l'hybride humain + IA » dominera les mathématiques bien plus longtemps, car l'IA actuelle ne possède pas encore tous les ingrédients pour remplacer totalement les tâches intellectuelles : elle fonctionne davantage comme un outil complémentaire. > *Je crois vraiment que cet hybride humain + IA dominera les mathématiques pendant beaucoup plus longtemps.* ## [03:43] Un impact imprévisible sur la découverte scientifique Tao reconnaît que, même si l'IA accélérera la science et les découvertes, il est aussi possible qu'elle freine certains types de progrès en « détruisant la sérendipité ». Il conclut que l'impact futur de l'IA sur la découverte scientifique est hautement imprévisible. > *Il est possible que, en détruisant d'une manière ou d'une autre la sérendipité, nous finissions par inhiber certains types de progrès.* ## Entités - **Terence Tao** (Personne) : invité, mathématicien de premier plan de notre époque. - **Dwarkesh Patel** (Personne) : animateur du podcast. - **IA (AI)** (Concept) : intelligence artificielle, abordée dans son rôle en mathématiques et dans la découverte scientifique. - **Mathematica / Wolfram Alpha** (Logiciel) : outils de calcul cités comme exemples d'automatisation en mathématiques. - **Problèmes du Prix du Millénaire (Millennium Prize Problems)** (Concept) : sept problèmes mathématiques non résolus, chacun assorti d'un prix d'un million de dollars.

Terence Tao – Comment le meilleur mathématicien du monde utilise l'IA
Tao et Dwarkesh prennent la découverte des lois du mouvement planétaire par Kepler comme prisme pour examiner ce que l'IA change réellement en science. Tao soutient que la génération d'hypothèses est désormais quasi gratuite, et que le goulot d'étranglement se déplace vers l'évaluation, la relecture par les pairs et l'épreuve du temps. Les IA actuelles excellent en largeur (tester toutes les techniques standard sur chaque problème) tandis que les humains excellent en profondeur (construire cumulativement sur des avancées partielles) — les configurations hybrides domineront les mathématiques pendant encore au moins une décennie. ## [00:00] Kepler était un LLM à haute température Tao retrace comment Kepler est parvenu aux trois lois du mouvement planétaire. Kepler est parti d'une théorie fausse mais élégante — les solides platoniciens inscrits entre les orbites des planètes — qu'il n'a abandonnée qu'après des années à broyer les observations à l'oeil nu de Tycho Brahe. Les ellipses, la loi des aires et la loi harmonique sont sorties d'une décennie d'analyse de données ; Newton n'a fourni l'explication qu'un siècle plus tard. La lecture de Dwarkesh : Kepler ressemble à un LLM à haute température qui explore des relations aléatoires sur un jeu de données vérifiable. Tao accepte la mécanique mais conteste l'identification du goulot. La génération d'idées était déjà bon marché — Kepler ne manquait pas de théories. Ce dont il avait besoin, c'était des données de Brahe, un ordre de grandeur meilleures, et la patience d'écarter ce que les données invalidaient. > *Mais comme vous le dites, cela doit être équilibré par une quantité égale de vérification, sinon c'est du contenu sans valeur.* ## [11:44] Comment repérer un concept unificateur dans des masses de contenu IA médiocre ? Tao : si l'IA a ramené le coût de génération d'idées à presque zéro, la relecture par les pairs et l'épreuve du temps deviennent la nouvelle contrainte. Les revues sont déjà submergées de soumissions générées par l'IA. La valeur d'une idée dépend de ce que la science ultérieure en fait — Copernic était moins précis que Ptolémée jusqu'à ce que Kepler complète le tableau — et cette évaluation est difficile à automatiser de l'intérieur du moment présent. Dwarkesh demande comment la science identifierait un concept unificateur de type Bell Labs (le bit de Shannon, le transformer) enfoui dans des millions d'articles médiocres. La réponse de Tao pointe vers ce qui restera peut-être humain : les scientifiques ne produisent pas seulement des théories, ils racontent des histoires qui convainquent d'autres scientifiques d'y consacrer des années. La prose de Darwin a fait le travail que les équations latines de Newton n'ont pas fait. > *L'IA a ramené le coût de génération d'idées à presque zéro, de la même façon qu'internet a ramené le coût de la communication à presque zéro.* ## [26:10] L'arriéré déductif Tao sur le signal sous-exploité dans les données existantes. L'astronomie est depuis des siècles la discipline qui extrait le maximum d'informations à partir d'un minimum de données — ce qui explique aussi pourquoi les fonds quantitatifs recrutent préférentiellement des docteurs en astronomie. Il donne un exemple favori : des chercheurs ont mesuré à quelle fréquence les scientifiques lisent réellement les articles qu'ils citent, en suivant quelles coquilles se propageaient dans les chaînes de citation. Il suggère d'appliquer ce même traitement sociologique des sciences aux progrès de l'IA elle-même — en exploitant les schémas de citation, les mentions aux conférences et d'autres traces pour détecter si un résultat a vraiment constitué un progrès, plutôt que d'attendre lentement l'épreuve du temps. > *Un enseignement était que l'arriéré déductif dans de nombreux domaines pourrait être bien plus grand que ce que les gens réalisent.* ## [30:31] Le biais de sélection dans les découvertes rapportées par l'IA L'IA a résolu environ 50 des 1 100 problèmes d'Erdős, puis a plafonné. Tao explique l'effet de sélection : ces 50 problèmes avaient une littérature quasi inexistante — une technique obscure plus un résultat connu suffisait, et les outils IA excellent à "essayer toutes les combinaisons standard". Quand 80 % du travail est déjà accompli par les méthodes existantes, l'IA passe. Quand il faut une technique genuinement nouvelle, les outils calent, et le taux de réussite par problème dans des balayages systématiques est de 1 à 2 %. La métaphore de Tao : les outils IA sont des robots sauteurs lâchés dans une chaîne de montagnes, dans le noir. Ils franchissent des murs courts que les humains ne peuvent pas atteindre, mais ne peuvent pas s'accrocher à une prise, rester là et se hisser à partir d'une progression partielle. La lecture optimiste — une fois qu'une IA atteint un certain niveau, on peut lancer un million de copies en parallèle sur un million de problèmes, ce qu'aucune communauté humaine ne peut faire — est aussi la raison structurelle pour laquelle la science a besoin de nouveaux paradigmes qui exploitent vraiment la largeur. > *Elles excellent en largeur, et les humains excellent en profondeur, les experts humains en tout cas.* ## [46:43] L'IA rend les articles plus riches et plus larges, mais pas plus profonds Tao sur sa propre façon de travailler : les articles portent désormais plus de code, plus de figures, des revues de littérature plus approfondies, parce que les tâches auxiliaires sont devenues environ 5 fois moins coûteuses. Le vrai coeur — résoudre la partie la plus difficile d'un problème — se passe toujours avec un stylo et du papier. Il hésiterait à se dire "2 fois plus productif" parce que la mesure n'est pas unidimensionnelle ; ce qui a changé, c'est le type d'article qu'il écrit, pas la vitesse à laquelle il répond à la question initiale. La distinction entre habileté et intelligence aboutit au même endroit. Quand deux humains collaborent sur un problème de mathématiques, chaque prototype raté devient un point d'appui pour le suivant. Avec les IA actuelles, une nouvelle session oublie ce que la précédente a compris. L'étape cumulative de progression est manquante — il ne reste que l'essai-erreur brut et, au bout du compte, l'absorption dans le prochain cycle d'entraînement. > *Cela a rendu les articles plus riches et plus larges, mais pas nécessairement plus profonds.* ## [53:00] Si l'IA résout un problème, les humains peuvent-ils en tirer une compréhension ? Une IA pourrait-elle prouver l'hypothèse de Riemann en Lean en nous laissant aussi ignorants qu'avant ? Tao n'est pas inquiet. Lean a la propriété que toute preuve peut être décomposée atomiquement — chaque lemme peut être inspecté, testé en ablation et vérifié isolément. Même une preuve générée de 3 000 lignes devient une matière première : d'autres IA peuvent la refactoriser pour l'élégance, d'autres humains peuvent en extraire le contenu conceptuel, et l'artefact reste utile même si la dérivation originale était opaque. Il prédit l'émergence d'une profession entière de mathématiciens dont le travail consiste à démonter de grandes preuves générées par Lean et à en extraire les idées — une sorte d'archéologie des preuves, alliant jugement humain et outils d'ablation IA. > *On tirera bien plus parti de l'interaction entre humains qui collaborent avec ces outils.* ## [59:20] Il nous faut un langage semi-formel pour la façon dont les scientifiques se parlent vraiment Dwarkesh demande à quoi ressemblerait un langage semi-formel pour les stratégies mathématiques (par opposition aux preuves mathématiques). Tao retrace la question à travers le théorème des nombres premiers de Gauss — la première grande conjecture statistique en mathématiques, dérivée de données brutes avant toute preuve — et à travers la conjecture des nombres premiers jumeaux, que les mathématiciens croient parce que le modèle aléatoire des nombres premiers la prédit. Les mathématiques ont à la fois des preuves rigoureuses et des heuristiques rigoureuses ; seul le côté des preuves a été formalisé dans quelque chose que Lean peut vérifier. La raison pour laquelle le côté heuristique n'a pas été formalisé : tout évaluateur vérifiable par RL devient une cible d'exploitation, et la part subjective de "cet argument est convaincant" n'admet pas encore de cadre exploitable. Tao aimerait un moyen d'évaluer la génération de conjectures et la sélection de stratégies à grande échelle, peut-être en faisant tourner de petites IA dans des univers mathématiques jouets et en observant les stratégies qui émergent. > *Il y a une dimension subjective de la science que nous ne savons pas capturer d'une façon qui nous permettrait d'y insérer l'IA utilement.* ## [69:48] Comment Terry organise son temps Tao sur la façon dont il absorbe de nouveaux sous-domaines. Il se situe comme un renard au sens de Berlin — un peu de tout, parfois hérisson quand c'est nécessaire. Le moteur est une obsession perfectionniste : si un autre mathématicien peut prouver un résultat avec une technique qu'il ne connaît pas, il doit comprendre ce qu'était l'astuce. (Il a dû arrêter les jeux vidéo pour la même raison.) La collaboration avec d'autres mathématiciens est le principal vecteur, et écrire sur son blog est l'aide-mémoire qu'il a développé après avoir trop souvent perdu des arguments six mois après les avoir dérivés. Dans son agenda, Tao ménage délibérément de la place pour la sérendipité. Il ne voudrait pas optimiser son temps au point de ne jamais se retrouver dans une réunion hors de sa zone de confort. L'année qu'il a passée à l'Institute for Advanced Study lui a confirmé le piège — deux semaines de recherche pure étaient formidables, puis l'inspiration s'épuisait. La découverte accidentelle au rayon suivant de la bibliothèque, la conversation de couloir, la réunion à laquelle il assistait à contrecoeur faisaient plus de travail qu'elles n'y paraissaient. > *Ces interactions fortuites peuvent ne pas sembler optimales, mais elles sont en réalité vraiment importantes.* ## [77:05] Les hybrides humain-IA domineront les mathématiques encore longtemps Quand l'IA fera-t-elle les mathématiques seule ? Tao recadre la question : l'IA fait déjà des mathématiques que les humains ne peuvent pas faire, depuis les calculatrices, juste sur une frontière différente. D'ici une décennie environ, il s'attend à ce qu'une grande partie de ce que font actuellement les étudiants en doctorat — appliquer des techniques standard, éplucher la littérature — passe à l'IA, mais le domaine montera d'un niveau, comme lorsque les systèmes de calcul formel ont absorbé l'intégration symbolique. La génétique n'a pas pris fin quand le séquençage est devenu bon marché ; elle a mis à l'échelle des écosystèmes entiers. Les mathématiques feront de même. Son conseil aux étudiants qui entrent en mathématiques maintenant : tabler sur le changement, mais obtenir ses diplômes à l'ancienne — pour l'instant, il n'y a toujours pas de substitut au parcours mathématique traditionnel. En même temps, rester assez adaptable pour pouvoir utiliser des modes de recherche entièrement nouveaux à mesure qu'ils apparaissent, y compris ceux qui n'existent pas encore. Le fait inédit est qu'avec les outils IA et Lean, un lycéen peut contribuer à de vraies recherches mathématiques aujourd'hui, ce qui n'était pas vrai il y a cinq ans. > *Je crois effectivement que les hybrides humain plus IA domineront les mathématiques encore longtemps.* ## Entités - **Terence Tao** (Personne) : Médaillé Fields (2006), mathématicien à l'UCLA, écrit régulièrement sur le rôle de l'IA dans la recherche mathématique. - **Dwarkesh Patel** (Personne) : Animateur du Dwarkesh Podcast ; entretiens approfondis sur l'IA, la science et la technologie. - **Johannes Kepler** (Personne) : Astronome (1571-1630) qui a dérivé les trois lois du mouvement planétaire à partir des observations de Tycho Brahe. - **Tycho Brahe** (Personne) : Astronome danois à l'oeil nu dont des décennies d'observations planétaires ont constitué le jeu de données dont Kepler avait besoin. - **Lean** (Logiciel) : Assistant de preuve dans lequel les preuves mathématiques sont formalisées et peuvent être vérifiées, décomposées et testées en ablation atomiquement. - **Problèmes d'Erdős** (Concept) : Les quelque 1 100 problèmes ouverts posés par Paul Erdős ; l'IA en a résolu environ 50, presque tous avec une littérature préalable quasi inexistante. - **L'arriéré déductif** (Concept) : L'idée que les données existantes encodent déjà bien plus de connaissances dérivables que ce qui a été extrait, avec l'astronomie comme modèle. - **Hypothèse de Riemann** (Concept) : Conjecture non résolue sur la distribution des nombres premiers ; le cas test pour savoir si une preuve IA ferait avancer la compréhension mathématique humaine.