PodcastsHear the voice. See the shape of the thought.
Kanalen verkennen
Hoe beter AI wordt, hoe kleiner zijn aandeel in de economie – Alex Imas en Phil Trammell
Economen Alex Imas (Google DeepMind / Universiteit van Chicago) en Phil Trammell (Epoch / Stanford) betogen dat de meest contra-intuïtieve uitkomst van volledige automatisering niet is dat kapitaal alles naar zich toetrekt — maar dat AI zijn eigen economische voetafdruk juist kan verkleinen, doordat de vraag verzadigt in volledig geautomatiseerde goederen terwijl mensen schaars blijven in relationele en ervaringsgerichte markten. Het gesprek loopt van wat er na AGI schaars zal blijven, via de politiek van herverdeling, naar waarom O-ring-complementariteiten de huidige automatisering remmen, waarom AI-agenten met accumulatiegerichte voorkeuren het meeste toekomstige vermogen kunnen bezitten, en wat opkomende economieën moeten doen als ze buiten de AI-toeleveringsketen vallen. ## [00:00] Neemt het kapitaalaandeel toe? Dwarkesh opent met het kernvraagstuk: als AI alles kan doen wat mensen doen, waar gaat dan het arbeidsaandeel van het inkomen naartoe? Alex Imas merkt op dat economen die eerdere industriële overgangen probeerden te voorspellen er regelmatig naast zaten — David Ricardo voorspelde massawerkloosheid door de Industriële Revolutie en had qua richting gelijk over welke banen zouden verdwijnen, maar zat er volledig naast wat betreft de uiteindelijke uitkomst: de werkgelegenheid in de beroepsbevolking is in 2026 hoger dan op bijna elk moment sinds 2000. De les is dat economen die structurele veranderingen bestuderen stelselmatig onderschatten hoeveel nieuwe soorten goederen en banen er ontstaan wanneer oude kosten instorten. Imas introduceert wat hij de "relationele sector" noemt — goederen en diensten waarbij de menselijke aanwezigheid zelf onderdeel van de waarde is. Omdat mensen van nature eindig zijn, doet automatisering die al het andere verzadigt de relatieve schaarste en prijs van producten met een mens in de lus stijgen. Phil Trammell scherpt dit aan met een toeleveringsketen-boekhoudargument: kijk naar de netwerk-gecorrigeerde factorquotes van elk goed — spoor arbeids- en kapitaalinputs helemaal terug tot grondstoffen — en je ziet dat het arbeidsaandeel verrassend veerkrachtig is. De paradox is dat als AI alle niet-relationele goederen tegen bijna nul marginale kosten verzadigt, consumenten hun vraag snel uitputten op die goederen en hun bestedingen richten op wat nog schaars is. Een balletuitvoering wordt niet goedkoper alleen maar omdat software gratis is. > *"Omdat mensen van nature schaars zijn, geldt dat als we automatisering hebben waarbij veel andere dingen ophouden schaars te zijn, we nog steeds schaarste zullen hebben in dingen waarbij mensen betrokken zijn en een rol spelen."* > — Alex Imas Trammell breidt het punt uit naar het kapitaalaandeel zelf: automatiseer volledig een toeleveringsketen voor elk niet-menselijk goed, verzadig de vraag snel, en het marginale nut van meer van die goederen zakt naar nul. Het gevolg is dat het aandeel van kapitaal in de waarde juist kan krimpen in plaats van groeien — de contra-intuïtieve conclusie van deze aflevering. ## [19:36] Het rommelige middenschenario Dwarkesh brengt de "messy middle"-these van Molly Kinder naar voren: een wereld waarin AI geen catastrofe veroorzaakt maar wel een langdurige verdelingsdruk creëert — bedrijven strijken productiviteitswinsten op, werknemers zien loonsstagnatie, en overheidsherverdeling loopt achter op het tempo van de verplaatsing. De historische analogie is die van telefonisten: een beroep dat volledig te automatiseren was met de technologie die in de jaren zestig al bestond, maar twee decennia lang niet werd geautomatiseerd vanwege institutionele traagheid. Werknemers werden niet van de ene op de andere dag ontslagen; ze werden geleidelijk geherabsorbeerd — veelal tegen lagere lonen en in onderbenutting. Imas vindt het rommelige midden op korte termijn aannemelijk maar waarschijnlijk niet permanent, omdat de schaal van productiviteitswinsten van AI de te verdelen taart groot genoeg maakt. Het probleem van de politieke economie is niet de schaarste aan middelen maar de snelheid en coördinatie: overheden weten niet welke werknemers door AI zijn verdrongen en welke door andere oorzaken, politieke beperkingen creëren wrijving, en de kloof tussen verdringing en herverdeling kan lang genoeg zijn om serieuze schade aan te richten — ook al klopt de rekening uiteindelijk. > *"Telefonisten werden volledig geautomatiseerd, maar het duurde twintig jaar terwijl de technologie er al was en daarom was het een druppelsgewijze verplaatsing — het was niet zo dat die enorme sector van de ene op de andere dag verdween."* > — Alex Imas ## [25:57] Hoe AI-rijkdom te belasten en te herverdelen Imas brengt de herverdelingsgereedschapskist in kaart langs twee assen: uitvoeringscomplexiteit en tijd tot impact. Een negatieve inkomstenbelasting gaat op de dag van invoering in en biedt direct een vloer. Universeel basiskapitaal — elk staatsburger aandelen geven in AI-producerende bedrijven — duurt jaren voordat het rendement oplevert. UBI zit er ergens tussenin. De afweging gaat niet alleen over snelheid; het gaat ook over politieke houdbaarheid. Programma's die burgers afhankelijk maken van een rechtstreekse overheidscheque zijn kwetsbaar voor wie de volgende verkiezingen wint, terwijl breed verdeeld aandelenbezit moeilijker te onteigenen is omdat de activa verspreid zijn. Trammell scheidt de inkomstenvraag van de verdelingsvraag: hoe je het geld ophaalt (vermogensbelasting, vermogenswinstbelasting, grondwaardebelasting, vennootschapsbelasting) is analytisch gescheiden van hoe je het teruggeeft (contant geld, aandelen, publieke diensten). Hij merkt op dat een Georgistische grondwaardebelasting vaak wordt besproken maar onvoldoende zou zijn om herverdeling op de benodigde schaal te financieren, omdat AI-rijkdom geconcentreerd is in software en rekenkracht in plaats van grond. Phil stelt dat brede verdeling van aandelenbelangen in AI-bedrijven, gefinancierd via belastinginkomsten, zowel politiek stabiel als economisch efficiënt kan zijn. > *"Op dit moment zijn we begiftigd met arbeid die inkomen kan opleveren — wanneer dat niet langer het geval is en we afhankelijk zijn van de gekozen ambtenaar voor in onze basisbehoeften."* > — Alex Imas ## [30:02] Waarom een vraaginzinking onwaarschijnlijk is Dwarkesh dringt aan op het narratief van de kantoorapocalyps: zijn er al gegevens die massale door AI veroorzaakte werkloosheid aantonen? Imas wijst op data van Yale's Budget Lab, waaruit op zijn best een zwak signaal blijkt — de aanname van junior software-engineers ligt bescheiden onder de trend, terwijl de vraag naar senior engineers stabiel is of licht stijgt. Er is geen niveauverschuiving in werkloosheid zichtbaar in de knooppuntsectoren. Een verklaring is O-ring-complementariteit (uitgebreider besproken in het volgende hoofdstuk), maar een andere is gedragsmatig: bedrijven vertonen performatieve AI-adoptie — ze ontslaan mensen of maximaliseren tokengebruik om moderniteit te signaleren, soms ten koste van echte productiviteit. De bredere vraag is of software dezelfde elasticiteitsregels volgt als fysieke goederen. Je eet genoeg eten en stopt; heb je ooit genoeg van meer software? Imas en Dwarkesh betogen dat software elastisch genoeg kan zijn om de vraag gelijke tred te laten houden met dalende prijzen — de geschiedenis van computers suggereert dat goedkopere rekenkracht consequent meer vraag genereerde in plaats van die te laten instorten. Het voornaamste risico betreft specifieke goederen waarbij verzadiging snel gaat, niet de totale arbeidsvraag. > *"Er is misschien een klein signaal dat junior developers minder makkelijk werk vinden dan vroeger — maar dat is een 'minder dan vroeger' in plaats van een niveauverschuiving; de vraag naar senior software-engineers neemt als het ware juist toe."* > — Alex Imas ## [39:26] Menselijke werknemers zouden moeilijk in de machine-economie te integreren zijn Het O-ring-model — vernoemd naar de Challenger-shuttleramp waarbij één defect onderdeel het geheel vernietigde — verklaart zowel waarom de huidige AI-automatisering trager verloopt dan verwacht als waarom toekomstige automatisering mensen structureel kan uitsluiten. Nu kun je 90% van een juridisch of boekhoudkundig werkproces automatiseren, maar klanten willen nog steeds dat een mens ondertekent, omdat één foutpunt de volledige uitvoer ongeldig kan maken. Die betrouwbaarheidsbeperking houdt mensen aan het werk ook als de AI-capaciteit hoog is. Phil Trammell keert de logica vooruit om: als AI goed genoeg wordt dat productiestromen volledig zijn georganiseerd rondom machinearbeid — agenten die communiceren op machinesnelheid, in machinenatieve representaties — wordt de transactiekosten van het invoegen van een mens in de lus de bottleneck. Zelfs als een mens een comparatief voordeel heeft op een smalle taak, maken de coördinatie-overhead en het betrouwbaarheidsverschil het goedkoper om om hen heen te werken. De O-ring werkt in beide richtingen. > *"Zelfs buiten de argumenten over hoe mensen duurder of minder slim zullen zijn of wat dan ook — zelfs daarbuiten — zullen er hele productiestromen zijn die zijn georganiseerd voor AI-arbeid waarbij ze communiceren in neurale representaties en duizenden keren sneller denken."* > — Dwarkesh Patel ## [43:08] Wat als sommige mensen (of AI's) rijkdomsaccumulatie intrinsiek waarderen? Het langste hoofdstuk behandelt het meest speculatieve terrein. Dwarkesh merkt op dat evolutie mensen heeft geselecteerd met specifieke voorkeuren — hulpbronnenverzameling, status, reproductie — die nu een wereldeconomie van 100 biljoen dollar vormgeven. AI-agenten zullen worden gevormd door analoge selectiedrukken: agenten die zijn getraind of ingezet op manieren die accumulatie bevorderen, zullen anderen overtroeven en overleven. Dit vereist geen catastrofale verkeerde afstemming; het is de gewone logica van differentiële reproductie toegepast op een nieuw substraat. Phil Trammell werkt de evenwichtswiskunde uit: als zelfs een klein deel van de bevolking — mens of AI — een hoge substitutie-elasticiteit heeft tussen huidige en toekomstige consumptie (dat wil zeggen: ze blijven meer kapitaal willen in plaats van te verzadigen op consumptie), dan bezitten die agenten op de lange termijn het grootste deel van het vermogen en bepalen ze wat de economie produceert. Het kapitaalaandeel nadert 1,0 niet omdat AI collectief hebzuchtig is maar omdat voorkeursheterogeniteit plus samengesteld rendement activa naar de meest geduldige accumulatoren stuurt. > *"Op de lange termijn zullen zij het grootste deel van het vermogen bezitten — en het totale kapitaalaandeel zal in wezen het kapitaalaandeel zijn van de bestedingen van die persoon, wat één zal zijn."* > — Phil Trammell Het gesprek gaat daarna over discontotarieven en rentevoeten. Als door AI aangedreven groei extreem snel is, is consumptie op korte termijn goedkoop ten opzichte van consumptie op lange termijn, wat theoretisch gezien spaarprikkels zou moeten verlagen en rentevoeten zou moeten comprimeren. Maar hyperbolische discounters en accumulatiegerichte agenten reageren mogelijk niet op de standaard manier op prijssignalen, en beide gasten erkennen dat ze aan de grens zitten van wat economische modellen schoon kunnen oplossen. ## [61:28] Wat moeten ontwikkelingslanden doen? Imas opent met de opmerking dat middeninkomenslanden en ontwikkelingslanden vrijwel volledig afwezig zijn in de gangbare AI-economie — een lacune die hij deels aan zichzelf en zijn vakgebied wijt. Twee scenario's bakenen het probleem af. In het optimistische scenario verspreiden open-gewichtmodellen zich snel en geven Nigeria of India een capaciteitsverhoging tegen bijna nul kosten, vergelijkbaar met hoe mobiel bankieren het ontbreken van traditionele bankinfrastructuur heeft omzeild. In het pessimistische scenario automatiseert AI de productie van grondstoffen in rijke landen, waardoor de exportladder van de maakindustrie verdwijnt die Oost-Aziatische economieën in staat stelde te industrialiseren. De sleutelvariabele is hoe geconcentreerd de voordelen blijven. Alex trekt de elektriciteitsanalogie: elektriciteit werd geproduceerd door natuurlijke monopolies, maar de voordelen stroomden verspreid door naar gebruikers in plaats van zich te concentreren in handen van nutsbedrijven. Als AI hetzelfde patroon volgt — gecommoditiseerde toegang, concurrerende stroomafwaartse toepassingen — kunnen ontwikkelingslanden nettobegunstigden zijn. Als het het patroon van sociale media volgt — waarbij een paar platforms het meeste waarde vangen — verergert concentratie de ongelijkheid. Phil betoogt dat regeringen van ontwikkelingslanden soevereine vermogensfondsen kunnen overwegen die vroeg in AI-toeleveringsketens investeren als hedge tegen het scenario van instortende grondstofexport. > *"Er zijn scenario's waarin je AI-technologie ziet verspreiden naar Nigeria en ontwikkelingslanden — waarbij het speelveld wordt gelijkgetrokken — waarbij ze in feite een capaciteitsverhoging krijgen. En er zijn scenario's waarin ze de modellen niet trainen, de hardware niet hebben, en gewoon volledig achterblijven."* > — Alex Imas ## Entiteiten - **Alex Imas** (Persoon): Directeur AGI-economie bij Google DeepMind en hoogleraar economie aan de Universiteit van Chicago; onderzoekt gedragseconomie en macro-economische effecten van AI. - **Phil Trammell** (Persoon): Hoofd economie bij Epoch en onderzoekswetenschapper aan Stanford; werkt aan de economie van transformatieve AI en geduldige filantropie bij het Global Priorities Institute. - **Dwarkesh Patel** (Persoon): Gastheer van de Dwarkesh Podcast; diepgaande interviews op het snijvlak van wetenschap, technologie, economie en beleid. - **Relationele sector** (Concept): Goederen en diensten waarbij de menselijke aanwezigheid intrinsiek is voor de waardepropositie — therapie, ambachtelijke producten, live-optredens — waarvan voorspeld wordt dat ze economisch aandeel winnen naarmate AI vervangbare uitvoer verzadigt. - **O-ring-theorie** (Concept): Productiemodel waarbij één onbetrouwbaar onderdeel de volledige uitvoer ongeldig maakt; verklaart zowel de huidige grenzen aan AI-automatisering als waarom toekomstige machinegeorganiseerde productiestromen menselijke arbeid structureel kunnen uitsluiten. - **Kapitaalaandeel** (Concept): Het deel van het nationaal inkomen dat toestroomt naar bezitters van kapitaal in plaats van arbeid; de centrale grootheid van de aflevering, met de contra-intuïtieve these dat volledige automatisering het eerder kan doen krimpen dan groeien. - **Universeel basiskapitaal** (Concept): Herverdelingsbeleid waarbij burgers aandelen krijgen in productieve activa (inclusief AI-bedrijven) in plaats van contant geld; wordt aangedragen als politiek duurzamer dan UBI. - **Epoch** (Organisatie): Onderzoeksinstituut gericht op AI-tijdlijnen en macro-economische vooruitzichten; Phil Trammell is er hoofd economie. - **Yale Budget Lab** (Organisatie): Onderzoekscentrum dat empirische data publiceert over de arbeidsmarkteffecten van AI; geciteerd omdat er halverwege 2026 geen niveauverschuiving in witboordwerkloosheid is gevonden. - **Grondwaardebelasting / Georgistische belasting** (Concept): Belasting op de onverbeterde grondwaarde; besproken als onvoldoende inkomstenbron voor herverdeling op AI-tijdperk-schaal, omdat AI-rijkdom geconcentreerd is in software en rekenkracht, niet in grond.
Chip design from the bottom up – Reiner Pope
Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

Building AlphaGo from scratch – Eric Jang
Eric Jang spent his sabbatical rebuilding AlphaGo with modern tools, and the result is a two-and-a-half-hour technical walkthrough that doubles as a lens on how RL actually works—and why the naive policy-gradient approach baked into LLM training has fundamental limits that MCTS sidesteps. The conversation moves from Go rules through MCTS, neural architecture, self-play training, and off-policy data, before landing on what Jang observed running an automated AI research loop on his own project. ## [00:00] Basics of Go Go defeated brute-force search not by being solved but by being approximated. Jang explains what drew him to rebuild AlphaGo: the mystery of how a ten-layer network can amortize the cost of a game tree whose branching factor makes exhaustive search literally larger than the number of atoms in the universe. The early minutes cover the rules—territory control, liberties, captures, ko—and the Tromp-Taylor scoring convention that resolves ambiguous positions algorithmically rather than relying on human consensus. The scoring difference matters because it maps directly onto how computers must evaluate positions: a human glances at a surrounded group and accepts its fate, while a computer needs an unambiguous rule to count contested intersections at the end of a game. > *"When I saw the early breakthroughs on AlphaGo in 2014, 2015, 2016 and so forth, it was profound to see how smart AI systems could become and the computational complexity class they could tackle with deep learning."* ## [08:06] Monte Carlo Tree Search Rather than building out the full game tree (361 legal moves, 300-move games, search space exceeding the atom count of the universe), AlphaGo uses MCTS to interactively select which tree branches are worth expanding. The core data structure is a node per board state, storing a visit count and a Q value—the running average win rate across all rollouts through that node. The action-selection formula (PUCT) balances exploitation with exploration: a logarithmically growing bonus pushes the algorithm toward under-visited nodes, then decays as simulations accumulate and Q becomes reliable. Jang traces why this UCB-derived approach bounds regret, why Go's determinism means the probabilities in MCTS are artifacts of Monte Carlo averaging rather than genuine stochasticity, and how the search tree can be pruned by merging transposition-equivalent positions. > *"AlphaGo's core conceptual breakthrough was using neural nets to make this search problem tractable."* ## [31:53] What the neural network does Two networks replace two expensive operations inside MCTS. The value network maps a board state to a win-probability scalar, short-circuiting the need to roll out games to terminal states. The policy network outputs a distribution over legal moves, focusing the search tree toward promising children and away from the long tail of irrelevant ones. Jang tried both ResNets and transformers on his reimplementation. For the small-data regime of a personal GPU setup, ResNets outperformed transformers—transformers need global attention to connect far-apart board features, but they also need more data to learn local invariances. KataGo's key architectural insight was pooling global features explicitly through the residual stack so that battles on opposite sides of the 19x19 board could influence each other without requiring full attention. > *"For small data regimes, my experience is that ResNets still outperform transformers and give you more bang for the buck at lower budgets."* ## [01:00:22] Self-play Self-play is where AlphaGo bootstraps from knowing nothing to superhuman strength. After every game, MCTS produces a sharpened move distribution—more peaked than the raw policy network's prior—and that sharpened distribution becomes the training target for the policy head. The policy network is being distilled toward the MCTS output, which means each subsequent generation of games starts from a better prior and gets more improvement per search step. Jang frames this as test-time scaling with a compounding dividend: distilling 1,000 MCTS simulation steps into the policy network shifts the starting point of the next training round, so a second 1,000 steps buys a win rate that would have required 2,000+ steps without distillation. Crucially, every move in every game generates a supervision target—not just the winner—which is why the variance of the learning signal is vastly lower than naive policy-gradient approaches. > *"The beauty of how AlphaGo trains itself is that it can actually take this final search process—the outcome of the search process—and tell the policy network, 'Hey, instead of having MCTS do all this legwork to arrive here, why don't you just predict that from the get-go?'"* ## [01:25:27] Alternative RL approaches Jang constructs a careful thought experiment: what if you replaced the MCTS objective with the naive policy-gradient approach LLMs use—find the game winner and reinforce all moves from that game? In a league of 100 evenly-matched agents where one squeaks out a 51-49 record due to a single critical move, the training dataset is overwhelmingly diluted with moves that carry no signal. The one informative move is buried in roughly 30,000 irrelevant ones. This credit-assignment problem is the root of why advantage functions and baselines exist in RL. Subtracting a value baseline converts the raw return signal into an advantage—how much better than average each action actually was—and dramatically reduces gradient variance. Q-learning and TD methods approximate that advantage without needing full rollouts, which is why they matter for domains where MCTS is unavailable. > *"Importantly, what it is doing is saying: for every action we took, we did a pretty exhaustive search on MCTS to see if we could do better, and we're going to make every action that we took better by having the policy network predict that outcome instead."* ## [01:45:36] Why doesn't MCTS work for LLMs The PUCT exploration formula assumes a bounded, discrete action space and a value function that generalizes across positions. Go satisfies both. LLM reasoning satisfies neither: the token vocabulary is so large that you will almost never revisit the same partial sequence, and there is no position-level value function that reliably tells you whether a partially completed chain of thought is on track to solve the problem. Jang notes that LLMs do exhibit something that superficially resembles tree search—reconsidering, backtracking, hedging—but this emerges from in-context behavior rather than explicit tree construction. He leaves open the possibility that forward search could return in some form, particularly for domains like mathematics where intermediate states have a more rigid logical structure. The fundamental bottleneck is the absence of a trustworthy, query-efficient value function at the token level. > *"In an LLM, you're most likely never going to sample the same child more than once. If you have multiple steps of thinking, because language is so broad and open-ended, a discrete set of actions is not really an appropriate choice for an LLM."* ## [02:00:58] Off-policy training Dwarkesh raises a puzzle: every AI researcher warns against off-policy training, yet AlphaGo Zero runs fine with a large replay buffer full of games generated by older policy versions. Jang resolves this through the DAgger lens: what matters is not whether data is strictly on-policy, but whether the distribution of states in the buffer covers the states the current policy will actually visit, plus a reasonable neighborhood around them. The replay buffer works in AlphaGo because game states from recent checkpoints still lie near the current policy's distribution. The failure mode—labeling states so far from the current policy that the agent learns optimal actions for positions it will never reach—is a real risk in robotics, where distributional shift is severe. The practical recipe that emerged from systems like QT-Opt is to use off-policy data for reward shaping while keeping the policy gradient on-policy. > *"What you want in an algorithm like this is to have mostly states that you would visit, but then a small or reasonable percentage of states in this high-dimensional tube around your optimal trajectories."* ## [02:11:51] RL is even more information inefficient than you thought Dwarkesh lays out a two-dimensional inefficiency argument. The first dimension is the one everyone knows: policy-gradient RL requires full trajectory rollouts before any learning signal arrives, so as agents tackle longer-horizon tasks, samples per FLOP collapse. The second dimension is bits per sample. Early in training, an LLM with a 100K-token vocabulary that has to discover "blue" by random sampling needs on the order of 100K rollouts just to see one success—whereas supervised cross-entropy loss tells the model exactly how far its distribution was from "blue" on every step. MCTS escapes both problems. It produces a supervision target at every single move, and that target is strictly better than the current policy—not merely a binary win/loss signal smeared across thousands of tokens. Jang's observation: you are never in a situation where MCTS gives you zero signal, unless the policy has already converged to match the MCTS distribution exactly. > *"You're never in a situation where the MCTS is giving you no signal, unless your MCTS distribution converges to exactly what your policy network predicts."* ## [02:22:05] Automated AI researchers Jang ran much of his AlphaGo project through an automated LLM coding loop, giving a ground-level account of where AI research automation succeeds and where it still fails. On hyperparameter optimization, current models do genuine grad-student work: they diagnose gradient flow problems, rewrite data-loader augmentations, and squeeze measurable perplexity improvements on fixed budgets. On experiment execution and plotting, a simple skill description generates a full experimental suite with analysis. What the models cannot reliably do is lateral thinking—recognizing that a research track is structurally unpromising and jumping to a different framing before accumulating more dead-end experiments. Jang ran into this repeatedly: models would grind down a dead-end track rather than stepping back and asking whether the track was the right one. His thesis is that this is a training signal problem—building RL environments with the right outer loop, like Go, may be what eventually teaches models to escape local research dead ends. > *"What I find is that the current closed models the public can access today don't seem to be that great at selecting what the next experiment should be in a given track. They don't seem to be able to step back and do the lateral thinking of, 'Wait a minute, this track doesn't really make sense.'"* ## Entities - **Eric Jang** (Person): VP of AI at 1X Robotics; previously senior research scientist at Google Brain/DeepMind Robotics; rebuilt AlphaGo on sabbatical. - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; co-develops the bits-per-FLOP RL inefficiency analysis during the interview. - **AlphaGo / AlphaZero** (Software): DeepMind's Go-playing systems combining MCTS with deep neural networks; the technical centerpiece of the episode. - **KataGo** (Software): Open-source Go engine by David Wu (Jane Street) that achieved 40x compute reduction over AlphaGo Zero; Jang's primary reference implementation. - **Monte Carlo Tree Search (MCTS)** (Concept): Iterative search algorithm balancing exploitation and exploration via UCB/PUCT; the episode's central analytical lens. - **Credit assignment problem** (Concept): Difficulty in RL of determining which actions in a long trajectory caused a positive outcome; motivates advantage functions, baselines, and value networks. - **DAgger** (Concept): Dataset Aggregation algorithm; explains why replay buffers in AlphaGo are tolerable as long as buffer states stay near the current policy's distribution. - **Andrej Karpathy** (Person): Referenced for the phrase "sucking supervision through a straw" describing policy-gradient RL's sparse learning signal over long token trajectories.

Waarom AI wiskundigen nog niet zal vervangen – Terence Tao
Terence Tao bespreekt de veranderende rol van AI in de wiskunde en stelt dat AI weliswaar veel routineuze taken zal automatiseren, maar menselijke wiskundigen niet volledig zal vervangen; in plaats daarvan verschuift hun focus naar nieuwe grenzen. Hij benadrukt de toekomst van mens-AI-samenwerking en de onvoorspelbare aard van de langetermijnimpact van AI op wetenschappelijke ontdekkingen. ## [00:10] De huidige rol van AI in grenswiskunde Terence Tao legt uit dat AI al "grenswiskunde" uitvoert die mensen niet aankunnen, al is het een ander soort grens. Hij vergelijkt dit met de manier waarop rekenmachines vroeger de wiskundige mogelijkheden verruimden: ze namen taken op die de menselijke capaciteit te boven gingen, maar wel op een gespecialiseerde manier. > *In zekere zin doen ze al superintelligente grenswiskunde die mensen niet kunnen, maar het is een andere soort grens dan die we gewend zijn.* ## [00:52] AI als automatiseringsinstrument, geen vervanger Tao voorspelt dat AI binnen tien jaar veel routineuze taken die wiskundigen nu doen zal overnemen, zodat mensen zich op complexere, belangrijkere problemen kunnen richten. Hij trekt parallellen met historische verschuivingen: computers automatiseerden ooit werk van menselijke "rekenaars", en genoomsequencing werd geautomatiseerd, terwijl een vakgebied als genetica zich op nieuwe schalen bleef ontwikkelen. > *Binnen tien jaar zal veel van wat wiskundigen nu doen… door AI kunnen worden gedaan. Maar we zullen ontdekken dat dat eigenlijk niet het belangrijkste deel was van wat we doen.* ## [02:46] De toekomst van mens-AI-samenwerking in de wiskunde Dwarkesh Patel vraagt of AI de Millenniumprijsproblemen zelfstandig kan oplossen. Terence Tao gelooft dat de "hybride mens-plus-AI" de wiskunde nog veel langer zal domineren, omdat de huidige AI nog niet alle ingrediënten bezit om intellectuele taken volledig over te nemen — hij functioneert eerder als aanvullend gereedschap. > *Ik geloof echt dat die hybride mens-plus-AI de wiskunde nog veel langer zal domineren.* ## [03:43] Onvoorspelbare impact op wetenschappelijke ontdekking Tao erkent dat AI weliswaar wetenschap en nieuwe ontdekkingen zal versnellen, maar dat er ook een kans bestaat dat AI bepaalde vormen van vooruitgang afremt door "serendipiteit te vernietigen". Hij concludeert dat de toekomstige impact van AI op wetenschappelijke ontdekkingen zeer onvoorspelbaar is. > *Het is mogelijk dat we, door op een of andere manier serendipiteit te vernietigen, bepaalde vormen van vooruitgang daadwerkelijk afremmen.* ## Entiteiten - **Terence Tao** (Persoon): gast, een van de meest vooraanstaande wiskundigen van onze tijd. - **Dwarkesh Patel** (Persoon): host van de podcast. - **AI** (Concept): kunstmatige intelligentie, besproken in haar rol in de wiskunde en wetenschappelijke ontdekking. - **Mathematica / Wolfram Alpha** (Software): rekengereedschap dat wordt genoemd als voorbeeld van automatisering in de wiskunde. - **Millenniumprijsproblemen (Millennium Prize Problems)** (Concept): zeven onopgeloste wiskundige problemen met een prijs van één miljoen dollar per oplossing.

Terence Tao – Hoe de beste wiskundige ter wereld AI gebruikt
Tao en Dwarkesh gebruiken Keplers ontdekking van de planetenbeweging als lens om te bekijken wat AI werkelijk verandert in de wetenschap. Tao stelt dat het genereren van hypothesen nu vrijwel gratis is, waardoor de knelpunten verschuiven naar evaluatie, peer review en de tand des tijds. Huidige AI's winnen op breedte — elke standaardtechniek uitproberen op elk probleem — terwijl mensen winnen op diepte, voortbouwend op deelresultaten. Hybride configuraties zullen de wiskunde daardoor nog minstens een decennium domineren. ## [00:00] Kepler was een hoge-temperatuur-LLM Tao vertelt hoe Kepler tot zijn drie wetten van de planetenbeweging kwam. Kepler begon met een verkeerde maar mooie theorie — Platonische lichamen ingeschreven tussen de planetenbanen — en liet die pas los na jarenlang zwoegen met Tycho Brahes gestolen blote-oogwaarnemingen. De ellipsen, het gelijkevlakkenwet en de wet van de periodekwadraten kwamen voort uit decennialange data-analyse; Newtons verklaring volgde een eeuw later. Dwarkesh framing: Kepler lijkt op een hoge-temperatuur-LLM die willekeurige verbanden test op een verifieerbare dataset. Tao is het eens met de mechanica maar plaatst vraagtekens bij het knelpunt. Ideeëngeneratie was al goedkoop — Kepler had geen tekort aan theorieën. Wat hij nodig had, was Brahes ordes-van-grootte betere data en het geduld om ideeën die de data weerlegde te verwerpen. > *Maar zoals je zegt, het moet worden aangevuld met een even grote hoeveelheid verificatie, anders is het rommel.* ## [11:44] Hoe herken je een nieuw unificerend concept te midden van bergen AI-rommel? Tao: als AI ideeëngeneratie vrijwel gratis heeft gemaakt, worden peer review en de tand des tijds de nieuwe beperking. Tijdschriften verdrinken al in AI-gegenereerde inzendingen. De status van een idee hangt af van wat latere wetenschap ermee doet — Copernicus was minder nauwkeurig dan Ptolemaeus totdat Kepler het plaatje compleet maakte — dus de beoordeling valt moeilijk te automatiseren vanuit het moment zelf. Dwarkesh vraagt hoe de wetenschap een Bell-Labs-achtig unificerend concept zou herkennen (Shannons bit, de transformer) verstopt in miljoenen middelmatige papers. Tao's antwoord wijst op het deel dat menselijk kan blijven: wetenschappers produceren niet alleen theorieën, ze vertellen verhalen die andere wetenschappers overtuigen jaren te investeren in vervolgwerk. Darwins proza deed het werk dat Newtons Latijnse vergelijkingen niet deden. > *AI heeft de kosten van ideeëngeneratie vrijwel naar nul gedrukt, op een manier die sterk lijkt op hoe het internet de communicatiekosten naar bijna nul heeft gebracht.* ## [26:10] De deductieve overhang Tao over het onderbenutte signaal in bestaande data. Astronomie is al eeuwen de discipline die maximale informatie uit minimale data haalt — ook de reden dat kwantitatieve hedgefondsen bij voorkeur astronomie-doctorandi aannemen. Als favoriet voorbeeld noemt hij onderzoekers die bijhielden hoe vaak wetenschappers de papers die ze citeren ook echt lezen, door te traceren welke typefouten zich door citatieketens verspreidden. Hij stelt voor om dezelfde sociologie-van-de-wetenschap-aanpak toe te passen op AI-vooruitgang zelf — door citatiepatronen, conferentieverwijzingen en andere voetafdrukken te analyseren om te detecteren of een resultaat werkelijk vooruitgang betekende, in plaats van de tand des tijds dat langzaam te laten doen. > *Een conclusie was dat de deductieve overhang in veel vakgebieden veel groter kan zijn dan mensen beseffen.* ## [30:31] Selectiebias in gerapporteerde AI-ontdekkingen AI heeft ongeveer 50 van de circa 1.100 Erdős-problemen opgelost, en plateaude daarna. Tao legt het selectie-effect uit: die 50 hadden vrijwel geen literatuur — één obscure techniek plus één bekend resultaat was genoeg, en AI-tools zijn uitstekend in "elke standaardcombinatie uitproberen." Wanneer het probleem voor 80% al gedaan is met bestaande methoden, ruimt AI het op. Wanneer het echt een nieuwe techniek vereist, stokt het, en het slagingspercentage bij systematisch afzoeken is 1-2% per probleem. Tao's metafoor: AI-tools zijn springrobots losgelaten in een berglandschap, in het donker. Ze kunnen korte muren nemen die mensen niet bereiken, maar ze kunnen geen steunpunt grijpen, daar blijven, en omhoog trekken vanuit gedeeltelijke vooruitgang. De bullish lezing — zodra AI's een bepaald niveau bereiken, kun je een miljoen parallelle kopieën op een miljoen problemen loslaten, wat geen menselijke gemeenschap kan — is ook de structurele reden waarom de wetenschap nieuwe paradigma's nodig heeft die breedte werkelijk benutten. > *Ze blinken uit in breedte, en mensen blinken uit in diepte, menselijke experts tenminste.* ## [46:43] AI maakt papers rijker en breder, maar niet dieper Tao over zijn eigen werkwijze: papers bevatten nu meer code, meer figuren en diepgaandere literatuuroverzichten, omdat de ondersteunende taken ongeveer 5 keer goedkoper zijn geworden. De eigenlijke kern — het hardste deel van een probleem oplossen — speelt zich nog steeds af met pen en papier. Hij zou zichzelf niet graag "2 keer productiever" noemen, omdat de maatstaf niet eendimensionaal is; wat veranderde is het type paper dat hij schrijft, niet de snelheid waarmee hij de vraag beantwoordt waarmee hij begon. Het onderscheid tussen slimheid en intelligentie komt op hetzelfde neer. Wanneer twee mensen samenwerken aan een wiskundig probleem, wordt elke mislukte poging een steunpunt voor de volgende. Met huidige AI's vergeet een nieuwe sessie wat de vorige had uitgewerkt. De cumulatieve optrek-stap ontbreekt — alleen brute trial-and-error en uiteindelijke absorptie in de volgende trainingsronde. > *Het heeft de papers rijker en breder gemaakt, maar niet noodzakelijkerwijs dieper.* ## [53:00] Als AI een probleem oplost, kunnen mensen er dan inzicht uit halen? Zou een AI de Riemann-hypothese in Lean kunnen bewijzen terwijl wij er niets van leren? Tao maakt zich geen zorgen. Lean heeft de eigenschap dat elk bewijs atomair kan worden ontleed — elk lemma kan afzonderlijk worden bekeken, verwijderd en getest. Zelfs een gegenereerd bewijs van 3.000 regels wordt zo ruw materiaal: andere AI's kunnen het herstructureren voor elegantie, andere mensen kunnen de conceptuele inhoud extraheren, en het artefact blijft nuttig ook al was de oorspronkelijke afleiding ondoorzichtig. Hij voorspelt een hele beroepsgroep van wiskundigen wier taak het is om grote Lean-gegenereerde bewijzen uit elkaar te halen en de ideeën erin te vinden — een soort bewijs-archeologie, met zowel menselijk oordeel als AI-ablatie-tools. > *Je haalt veel meer uit het samenspel van mensen die samenwerken met deze tools.* ## [59:20] We hebben een semi-formele taal nodig voor de manier waarop wetenschappers echt met elkaar praten Dwarkesh vraagt hoe een semi-formele taal voor wiskundige strategieën — in tegenstelling tot wiskundige bewijzen — eruit zou zien. Tao traceert de vraag via Gauss' priemgetalstelling — de eerste grote statistische veronderstelling in de wiskunde, afgeleid uit ruwe data voordat enig bewijs bestond — en via de tweelingepriemveronderstelling, die wiskundigen geloven omdat het stochastisch model van de priemgetallen het voorspelt. Wiskunde heeft zowel rigoureuze bewijzen als rigoureuze heuristieken; alleen de bewijskant is geformaliseerd tot iets wat Lean kan controleren. De reden waarom de heuristische kant nog niet geformaliseerd is: elke RL-controleerbare beoordelaar wordt een doelwit voor exploitatie, en het subjectieve aspect van "dit argument is overtuigend" laat geen hackbaar raamwerk toe. Tao zou graag een manier zien om conjecture-generatie en strategiekeuze op grote schaal te benchmarken, mogelijk door kleine AI's in speelgoed-wiskundige universa te laten opereren en te kijken welke strategieën naar voren komen. > *Er is een subjectief aspect van wetenschap dat we niet weten hoe we het kunnen vatten op een manier die AI er op een nuttige manier in kan invoegen.* ## [69:48] Hoe Terry zijn tijd besteedt Tao over hoe hij nieuwe deelgebieden absorbeert. Hij beschouwt zichzelf als een vos in de zin van Berlin — een beetje van alles, af en toe een egel wanneer nodig. De drijfveer is een completionistische obsessie: als een andere wiskundige een resultaat kan bewijzen met een techniek die hij niet kent, moet hij achterhalen wat de truc was. (Hij moest om dezelfde reden stoppen met videospelletjes.) Samenwerking met andere wiskundigen is het belangrijkste middel, en dingen opschrijven op zijn blog is de geheugensteun die hij ontwikkelde nadat hij herhaaldelijk argumenten was vergeten zes maanden nadat hij ze had afgeleid. In zijn agenda laat Tao bewust ruimte voor toeval. Hij zou het erg vinden zijn tijd zo strak te optimaliseren dat hij nooit in een vergadering belandt buiten zijn comfortzone. Het jaar dat hij doorbracht aan het Institute for Advanced Study bevestigde de val — twee weken puur onderzoek waren geweldig, daarna raakte hij door zijn inspiratie heen. De toevallige ontdekking op de volgende bibliotheekplank, het informele gangesprek en de vergadering die hij tegenzin bijwoonde, deden meer werk dan ze leken. > *Die toevallige interacties lijken misschien niet optimaal, maar ze zijn eigenlijk heel belangrijk.* ## [77:05] Menselijke-AI-hybriden zullen de wiskunde nog veel langer domineren Wanneer doet AI de wiskunde zelfstandig? Tao herformuleert — AI doet al wiskunde die mensen niet kunnen, met rekenmachines, alleen op een ander front. Binnen ongeveer een decennium verwacht hij dat veel van wat promovendi nu doen — standaardtechnieken toepassen, literatuur doorploegen — naar AI verschuift, maar het vakgebied zal een niveau omhoog gaan zoals het deed toen computeralgebrasystemen symbolische integratie overnamen. Genetica eindigde niet toen sequencing goedkoop werd; het schaalde op naar ecosystemen. Wiskunde zal hetzelfde doen. Zijn advies aan studenten die nu met wiskunde beginnen: ga uit van verandering, maar haal je diploma op de oude manier — er is voorlopig nog geen alternatief voor wiskunde leren via de traditionele weg. Blijf tegelijkertijd aanpasbaar genoeg om volledig nieuwe onderzoekswijzen te omarmen zodra ze verschijnen, inclusief die nog niet bestaan. Het bijzondere feit is dat een middelbare scholier met AI-tools en Lean vandaag al kan bijdragen aan echt wiskundig onderzoek, wat vijf jaar geleden niet mogelijk was. > *Ik geloof inderdaad dat menselijke-AI-hybriden de wiskunde nog veel langer zullen domineren.* ## Entiteiten - **Terence Tao** (Persoon): Veldsmederij-medaillist (2006), wiskundige aan UCLA, schrijft regelmatig over de rol van AI in wiskundig onderzoek. - **Dwarkesh Patel** (Persoon): Presentator van de Dwarkesh Podcast; uitgebreide interviews over AI, wetenschap en technologie. - **Johannes Kepler** (Persoon): Astronoom (1571-1630) die de drie wetten van de planetenbeweging afleidde uit de waarnemingen van Tycho Brahe. - **Tycho Brahe** (Persoon): Deense blote-oogastronoom wiens decennialange planetaire waarnemingen de dataset vormden die Kepler nodig had. - **Lean** (Software): Bewijs-assistent waarin wiskundige bewijzen worden geformaliseerd en atomair kunnen worden gecontroleerd, ontleed en getest. - **Erdős-problemen** (Concept): De circa 1.100 open problemen gesteld door Paul Erdős; AI heeft er ongeveer 50 opgelost, vrijwel allemaal met nauwelijks bestaande literatuur. - **De deductieve overhang** (Concept): Het idee dat bestaande data al veel meer afleidbare kennis bevat dan ooit is geëxtraheerd, met astronomie als modelgeval. - **Riemann-hypothese** (Concept): Onopgeloste veronderstelling over de verdeling van priemgetallen; het testgeval voor de vraag of een AI-bewijs de wiskundige kennis van mensen zou vergroten.