LaiDub

Podcasts

Je besser KI wird, desto kleiner wird ihr Anteil an der Wirtschaft – Alex Imas und Phil Trammell
1:16:08
EN/ZH
Watch with Captions
Dwarkesh Patelvor 6 Tagen

Je besser KI wird, desto kleiner wird ihr Anteil an der Wirtschaft – Alex Imas und Phil Trammell

Die Ökonomen Alex Imas (Google DeepMind / University of Chicago) und Phil Trammell (Epoch / Stanford) argumentieren, dass das überraschendste Ergebnis vollständiger Automatisierung nicht darin besteht, dass Kapital alles vereinnahmt — sondern dass KI ihren eigenen wirtschaftlichen Fußabdruck tatsächlich verkleinern könnte, weil die Nachfrage nach vollständig automatisierten Gütern gesättigt wird, während Menschen in relationalen und erlebnisorientierten Märkten knapp bleiben. Das Gespräch bewegt sich von der Frage, was nach AGI noch knapp sein wird, über die Politik der Umverteilung, bis hin zur Frage, warum O-Ring-Komplementaritäten die heutige Automatisierung bremsen, warum KI-Agenten mit auf Akkumulation ausgerichteten Präferenzen den größten Teil des künftigen Reichtums besitzen könnten und was Entwicklungsländer tun sollten, wenn sie von der KI-Lieferkette abgeschnitten werden. ## [00:00] Wird der Kapitalanteil steigen? Dwarkesh eröffnet mit dem zentralen Rätsel: Wenn KI alles tun kann, was Menschen tun, wohin geht dann der Lohnanteil am Einkommen? Alex Imas beginnt mit dem Hinweis, dass Ökonomen, die vergangene Industrieübergänge vorherzusagen versuchten, häufig falsch lagen — David Ricardo sagte durch die Industrielle Revolution Massenarbeitslosigkeit voraus und hatte grundsätzlich recht, welche Jobs verschwinden würden, lag aber beim Gesamtergebnis völlig daneben: Die Beschäftigung von Erwachsenen im erwerbsfähigen Alter ist 2026 höher als zu fast jedem Zeitpunkt seit 2000. Die Lehre daraus ist, dass Ökonomen des Strukturwandels systematisch unterschätzen, welche neue Gütervielfalt und welche neuen Berufsbilder entstehen, wenn alte Kosten wegfallen. Imas führt das ein, was er den „relationalen Sektor" nennt — Güter und Dienstleistungen, bei denen die menschliche Präsenz selbst Teil des Wertes ist. Da Menschen von Natur aus endlich sind, erhöht Automatisierung, die alles andere sättigt, die relative Knappheit und den Preis von Produkten, bei denen Menschen eingebunden sind. Phil Trammell schärft dies mit einem Lieferkettenargument: Betrachte die netzwerkbereinigten Faktoranteile eines beliebigen Gutes — verfolge Arbeits- und Kapitaleinsatz bis hin zu Rohstoffen — und man sieht, dass der Arbeitsanteil bereits erstaunlich widerstandsfähig ist. Das Paradoxon besteht darin, dass Verbraucher, wenn KI alle nicht-relationalen Güter zu nahezu null Grenzkosten sättigt, ihre Nachfrage schnell erschöpfen und sie auf das lenken, was noch knapp ist. Eine Ballettaufführung wird nicht billiger, weil Software kostenlos ist. > *"Weil Menschen von Natur aus knapp sind, wird es auch bei Automatisierung, die vieles aufhört knapp zu machen, weiterhin Knappheit bei Dingen geben, an denen Menschen beteiligt und eingebunden sind."* > — Alex Imas Trammell weitet das Argument auf den Kapitalanteil selbst aus: Automatisiere eine Lieferkette für jedes nicht-menschliche Gut vollständig, sättige die Nachfrage schnell, und der Grenznutzen weiterer solcher Güter kollabiert gegen null. Das Ergebnis ist, dass der Kapitalanteil am Wert tatsächlich schrumpfen kann, anstatt zu wachsen — die kontraintuitive Kernthese dieser Folge. ## [19:36] Das Szenario des unordentlichen Übergangs Dwarkesh greift Molly Kinders These vom „unordentlichen Übergang" auf: eine Welt, in der KI keine Katastrophe verursacht, aber einen anhaltenden Verteilungsdruck erzeugt — Unternehmen vereinnahmen Produktivitätsgewinne, Arbeitnehmer stagnieren bei den Löhnen, und staatliche Umverteilung hinkt der Geschwindigkeit der Verdrängung hinterher. Das historische Analogon sind Telefonistinnen: ein Beruf, der durch in den 1960er Jahren verfügbare Technologie vollständig automatisierbar war, aber zwei Jahrzehnte zur Automatisierung brauchte, weil institutionelle Trägheit bremsend wirkte. Arbeitnehmer wurden nicht über Nacht entlassen; sie wurden schrittweise aufgesogen — meist zu niedrigeren Löhnen und in Unterbeschäftigung. Imas hält den unordentlichen Übergang kurzfristig für plausibel, aber wahrscheinlich nicht dauerhaft, weil die Produktivitätsgewinne durch KI den Kuchen groß genug machen, um ihn zu verteilen. Das politökonomische Problem ist nicht Ressourcenknappheit, sondern Geschwindigkeit und Koordination: Regierungen wissen nicht, welche Arbeitnehmer durch KI im Vergleich zu anderen Ursachen verdrängt wurden, politische Zwänge erzeugen Reibung, und die Lücke zwischen Verdrängung und Umverteilung kann lang genug sein, um ernsthaften Schaden anzurichten, selbst wenn die Rechnung am Ende aufgeht. > *"Telefonistinnen wurden zwar vollständig automatisiert, aber das dauerte 20 Jahre, obwohl die Technologie existierte — und daher gab es dieses Tröpfeln: Es verschwand nicht einfach ein ganzer Sektor auf einmal."* > — Alex Imas ## [25:57] Wie man KI-Vermögen besteuert und umverteilt Imas ordnet das Umverteilungs-Instrumentarium entlang zweier Achsen: Umsetzungskomplexität und Zeit bis zur Wirkung. Eine negative Einkommensteuer tritt am Tag ihrer Verabschiedung in Kraft und bietet sofort ein Sicherheitsnetz. Universelles Grundkapital — jedem Bürger Anteile an KI-produzierenden Unternehmen zu geben — braucht Jahre, um Erträge zu erzeugen. Ein bedingungsloses Grundeinkommen liegt irgendwo dazwischen. Die Abwägung betrifft nicht nur die Geschwindigkeit, sondern auch die politische Stabilität. Programme, die Bürger von direkten staatlichen Zahlungen abhängig machen, sind dem Ergebnis der nächsten Wahl ausgeliefert, während breit gestreuter Aktienbesitz schwerer zu enteignen ist, weil die Vermögenswerte verteilt sind. Trammell trennt die Einnahmenfrage von der Verteilungsfrage: Wie man das Geld einnimmt (Vermögensteuer, Kapitalertragsteuer, Grundwertsteuer, Körperschaftsteuer) ist analytisch unabhängig davon, wie man es zurückgibt (Bargeld, Anteile, öffentliche Leistungen). Er weist darauf hin, dass eine georgistische Grundwertsteuer zwar oft diskutiert wird, aber unzureichend wäre, um Umverteilung in dem Maßstab zu finanzieren, der nötig ist, wenn KI-generierter Reichtum in Software und Rechenleistung konzentriert ist, nicht in Land. Phil schlägt vor, dass eine breite Verteilung von Eigenkapitalanteilen an KI-Unternehmen, finanziert durch Steuereinnahmen, sowohl politisch stabil als auch ökonomisch effizient sein könnte. > *"Im Moment sind wir mit Arbeitskraft ausgestattet, die sich in Einkommen umwandeln lässt — wenn das nicht mehr der Fall ist und wir für Grundbedürfnisse auf den Wohlwillen der gewählten Amtsträger angewiesen sind."* > — Alex Imas ## [30:02] Warum ein Nachfrageeinbruch unwahrscheinlich ist Dwarkesh hinterfragt die Apokalypsen-Erzählung für den Wissensarbeitsbereich: Gibt es Daten, die bereits eine massenhafte KI-bedingte Arbeitslosigkeit belegen? Imas verweist auf Daten des Yale Budget Lab, die bestenfalls ein schwaches Signal zeigen — die Einstellungsquote für Junior-Softwareentwickler liegt leicht unter dem Trend, während die Nachfrage nach erfahrenen Entwicklern gleichbleibend ist oder sogar steigt. In keinem Wissensarbeitssektor ist ein Niveau-Sprung bei der Arbeitslosigkeit zu beobachten. Eine Erklärung ist O-Ring-Komplementarität (im nächsten Kapitel ausführlicher), aber eine weitere ist Verhaltensökonomie: Unternehmen betreiben performativen KI-Einsatz — sie entlassen Mitarbeiter oder maximieren Token-Nutzung, um Modernität zu signalisieren, manchmal auf Kosten echter Produktivität. Die breitere Nachfragefrage ist, ob Software denselben Elastizitätsregeln wie physische Güter gehorcht. Man isst genug und hört auf — hört man jemals auf, mehr Software zu wollen? Imas und Dwarkesh argumentieren, dass Software möglicherweise elastisch genug ist, dass die Nachfrage mit sinkenden Preisen Schritt hält — die Geschichte des Rechnens deutet darauf hin, dass billiger werdende Rechenleistung konsistent mehr Nachfrage erzeugte, statt sie zusammenbrechen zu lassen. Das Hauptrisiko sind bestimmte Güter, bei denen Sättigung schnell einsetzt, nicht die gesamte Arbeitsnachfrage. > *"Es könnte ein kleines Signal geben, dass Junior-Entwickler weniger Stellen bekommen als früher — aber das ist ein 'weniger als früher' und kein Niveau-Sprung; die Nachfrage nach erfahrenen Softwareentwicklern ist wenn überhaupt gestiegen."* > — Alex Imas ## [39:26] Menschliche Arbeitskräfte lassen sich schwer in die Maschinenökonomie eingliedern Das O-Ring-Modell — benannt nach der Challenger-Katastrophe, bei der ein einziges fehlerhaftes Bauteil alles zerstörte — erklärt sowohl, warum die aktuelle KI-Automatisierung langsamer verläuft als erwartet, als auch warum zukünftige Automatisierung Menschen strukturell ausschließen könnte. Derzeit kann man 90 % eines rechtlichen oder buchhalterischen Workflows automatisieren, aber Kunden wollen trotzdem, dass ein Mensch unterschreibt, weil ein einziger Fehler das gesamte Ergebnis entwerten kann. Diese Zuverlässigkeitsbedingung hält Menschen in Beschäftigung, auch wenn die KI-Fähigkeiten hoch sind. Phil Trammell dreht die Logik in die Zukunft: Wenn KI gut genug wird, sodass Produktionsabläufe vollständig um Maschinenarbeit herum organisiert werden — Agenten, die in Maschinengeschwindigkeit und maschinennativen Darstellungen kommunizieren —, wird der Transaktionskostenaufwand, einen Menschen einzubinden, zum Engpass. Selbst wenn ein Mensch bei einer engen Aufgabe einen komparativen Vorteil hat, macht der Koordinationsaufwand und der Zuverlässigkeitsmismatch es billiger, ihn zu umgehen. Der O-Ring wirkt in beide Richtungen. > *"Über die Argumente hinaus, dass Menschen teurer oder weniger leistungsfähig sein werden — wird es ganze Produktionsabläufe geben, die für KI-Arbeit organisiert sind, wo sie in neuronalen Darstellungen kommunizieren und viele tausend Mal schneller denken."* > — Dwarkesh Patel ## [43:08] Was, wenn manche Menschen (oder KIs) Vermögensanhäufung als Selbstzweck betrachten? Das längste Kapitel behandelt das spekulativste Terrain. Dwarkesh stellt fest, dass die Evolution Menschen mit spezifischen Präferenzen ausgewählt hat — Ressourcenanhäufung, Status, Fortpflanzung —, die heute eine Weltwirtschaft von 100 Billionen Dollar prägen. KI-Agenten werden durch analoge Selektionsdrücke geformt: Solche, die in einer Weise trainiert oder eingesetzt werden, die Akkumulation begünstigt, werden andere verdrängen und überdauern. Das setzt keine katastrophale Fehlanpassung voraus; es ist die normale Logik der differenziellen Reproduktion, auf ein neues Substrat angewandt. Phil Trammell arbeitet die Gleichgewichtsmathematik durch: Selbst wenn nur ein kleiner Teil der Bevölkerung — mensch oder KI — eine hohe Substitutionselastizität zwischen aktuellem und zukünftigem Konsum hat (d. h. sie wollen immer mehr Kapital, statt sich an Konsum zu sättigen), besitzen diese Agenten langfristig den größten Teil des Reichtums und bestimmen, was die Wirtschaft produziert. Der Kapitalanteil nähert sich 1,0 an — nicht weil KI kollektiv gierig ist, sondern weil Präferenzheterogenität plus Zinseszins Vermögen zu den geduldigsten Akkumulatoren treibt. > *"Langfristig werden sie den größten Teil des Reichtums besitzen — und der gesamte Kapitalanteil wird im Wesentlichen der Kapitalanteil der Ausgaben dieser Person sein, der bei eins liegt."* > — Phil Trammell Das Gespräch wendet sich dann Diskont- und Zinssätzen zu. Wenn KI-getriebenes Wachstum extrem schnell ist, ist kurzfristiger Konsum billig im Verhältnis zu zukünftigem Konsum, was theoretisch Sparanreize senken und Zinssätze komprimieren sollte. Aber hyperbolische Diskontierer und akkumulationsorientierte Agenten reagieren möglicherweise nicht auf Preissignale auf die übliche Weise, und beide Gäste räumen ein, dass sie sich an der Grenze dessen bewegen, was ökonomische Modelle sauber auflösen können. ## [61:28] Was sollten Entwicklungsländer tun? Imas beginnt mit der Feststellung, dass Schwellen- und Entwicklungsländer in der Mainstream-KI-Ökonomie fast völlig fehlen — eine Lücke, für die er teils sich selbst und sein Fachgebiet verantwortlich macht. Zwei Szenarien rahmen das Problem ein. Im optimistischen Szenario verbreiten sich Open-Weight-Modelle schnell und geben Nigeria oder Indien einen Fähigkeits-Boost zu nahezu null Kosten, ähnlich wie Mobile Banking die fehlende traditionelle Bankinfrastruktur übersprungen hat. Im pessimistischen Szenario automatisiert KI die Rohstoffproduktion in reichen Ländern und eliminiert damit die Exportleiter über Manufaktur, die es ostasiatischen Volkswirtschaften ermöglichte, zu industrialisieren. Die Schlüsselvariable ist, wie konzentriert die Vorteile bleiben. Alex zieht die Analogie zur Elektrizität: Strom wurde von natürlichen Monopolen produziert, aber die nachgelagerten Gewinne verteilten sich breit an die Nutzer, anstatt sich in den Händen der Versorgungsunternehmen zu konzentrieren. Wenn KI demselben Muster folgt — kommoditisierter Zugang, wettbewerbsfähige Nachgelagerte — könnten Entwicklungsländer Nettobegünstigte sein. Folgt sie hingegen dem Muster sozialer Medien — wo wenige Plattformen den größten Teil des Wertes vereinnahmen —, verschärft Konzentration die Ungleichheit. Phil argumentiert, dass Regierungen von Entwicklungsländern Staatsfonds erwägen sollten, die frühzeitig in KI-Lieferketten investieren, als Absicherung gegen das Szenario des Rohstoffexport-Kollapses. > *"Es gibt Szenarien, in denen KI-Technologie sich nach Nigeria und in Entwicklungsländer ausbreitet — und so das Spielfeld einebnet, ihnen gewissermaßen einen Fähigkeits-Schub gibt. Und es gibt Szenarien, in denen sie die Modelle nicht trainieren, keine Hardware haben und vollständig abgehängt werden."* > — Alex Imas ## Entitäten - **Alex Imas** (Person): Direktor für AGI-Ökonomie bei Google DeepMind und Professor für Wirtschaftswissenschaften an der University of Chicago; forscht zu Verhaltensökonomie und makroökonomischen Auswirkungen von KI. - **Phil Trammell** (Person): Leiter der Wirtschaftsabteilung bei Epoch und Forschungsstipendiat in Stanford; arbeitet zur Ökonomie transformativer KI und zu geduldigem Philanthropismus am Global Priorities Institute. - **Dwarkesh Patel** (Person): Gastgeber des Dwarkesh Podcast; führt Langformat-Interviews an der Schnittstelle von Wissenschaft, Technologie, Wirtschaft und Politik. - **Relationaler Sektor** (Konzept): Güter und Dienstleistungen, bei denen menschliche Präsenz intrinsisch zur Wertschöpfung gehört — Therapie, handwerkliche Erzeugnisse, Live-Aufführungen —; prognostiziert, wirtschaftlichen Anteil zu gewinnen, wenn KI substituierbare Güter sättigt. - **O-Ring-Theorie** (Konzept): Produktionsmodell, bei dem eine einzige unzuverlässige Komponente den gesamten Output entwertet; erklärt sowohl aktuelle Grenzen der KI-Automatisierung als auch, warum zukünftige maschinenorganisierte Produktionsabläufe menschliche Arbeit strukturell ausschließen könnten. - **Kapitalanteil** (Konzept): Der Anteil des Nationaleinkommens, der an Kapitaleigner statt an Arbeitnehmer fließt; zentrale Größe dieser Folge, mit der kontraintuitiven These, dass vollständige Automatisierung ihn eher schrumpfen als ausweiten könnte. - **Universelles Grundkapital** (Konzept): Umverteilungspolitik, bei der Bürger Eigenkapitalanteile an produktiven Vermögenswerten (einschließlich KI-Unternehmen) statt Bargeld erhalten; gilt als politisch stabiler als ein bedingungsloses Grundeinkommen. - **Epoch** (Organisation): Forschungsinstitut mit Fokus auf KI-Zeitpläne und makroökonomische Prognosen; Phil Trammell ist dort Leiter der Wirtschaftsabteilung. - **Yale Budget Lab** (Organisation): Forschungszentrum, das empirische Daten zu den Arbeitsmarkteffekten von KI veröffentlicht; zitiert für den Befund, dass bis Mitte 2026 kein Niveau-Sprung bei Wissensarbeiter-Arbeitslosigkeit festgestellt wurde. - **Grundwertsteuer / Georgistische Steuer** (Konzept): Steuer auf den unverbesserten Bodenwert; diskutiert als unzureichende Einnahmequelle für Umverteilung im KI-Zeitalter, weil KI-Vermögen in Software und Rechenleistung konzentriert ist, nicht in Land.

#agi-economics#labor-share#automation
Chip design from the bottom up – Reiner Pope
1:20:19
EN/ZH
Watch with Captions
Dwarkesh Patelvor 19 Tagen

Chip design from the bottom up – Reiner Pope

Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

#chip-design#hardware#ai-accelerators
Building AlphaGo from scratch – Eric Jang
2:37:17
EN/ZH
Watch with Captions
Dwarkesh Patelvor 26 Tagen

Building AlphaGo from scratch – Eric Jang

Eric Jang spent his sabbatical rebuilding AlphaGo with modern tools, and the result is a two-and-a-half-hour technical walkthrough that doubles as a lens on how RL actually works—and why the naive policy-gradient approach baked into LLM training has fundamental limits that MCTS sidesteps. The conversation moves from Go rules through MCTS, neural architecture, self-play training, and off-policy data, before landing on what Jang observed running an automated AI research loop on his own project. ## [00:00] Basics of Go Go defeated brute-force search not by being solved but by being approximated. Jang explains what drew him to rebuild AlphaGo: the mystery of how a ten-layer network can amortize the cost of a game tree whose branching factor makes exhaustive search literally larger than the number of atoms in the universe. The early minutes cover the rules—territory control, liberties, captures, ko—and the Tromp-Taylor scoring convention that resolves ambiguous positions algorithmically rather than relying on human consensus. The scoring difference matters because it maps directly onto how computers must evaluate positions: a human glances at a surrounded group and accepts its fate, while a computer needs an unambiguous rule to count contested intersections at the end of a game. > *"When I saw the early breakthroughs on AlphaGo in 2014, 2015, 2016 and so forth, it was profound to see how smart AI systems could become and the computational complexity class they could tackle with deep learning."* ## [08:06] Monte Carlo Tree Search Rather than building out the full game tree (361 legal moves, 300-move games, search space exceeding the atom count of the universe), AlphaGo uses MCTS to interactively select which tree branches are worth expanding. The core data structure is a node per board state, storing a visit count and a Q value—the running average win rate across all rollouts through that node. The action-selection formula (PUCT) balances exploitation with exploration: a logarithmically growing bonus pushes the algorithm toward under-visited nodes, then decays as simulations accumulate and Q becomes reliable. Jang traces why this UCB-derived approach bounds regret, why Go's determinism means the probabilities in MCTS are artifacts of Monte Carlo averaging rather than genuine stochasticity, and how the search tree can be pruned by merging transposition-equivalent positions. > *"AlphaGo's core conceptual breakthrough was using neural nets to make this search problem tractable."* ## [31:53] What the neural network does Two networks replace two expensive operations inside MCTS. The value network maps a board state to a win-probability scalar, short-circuiting the need to roll out games to terminal states. The policy network outputs a distribution over legal moves, focusing the search tree toward promising children and away from the long tail of irrelevant ones. Jang tried both ResNets and transformers on his reimplementation. For the small-data regime of a personal GPU setup, ResNets outperformed transformers—transformers need global attention to connect far-apart board features, but they also need more data to learn local invariances. KataGo's key architectural insight was pooling global features explicitly through the residual stack so that battles on opposite sides of the 19x19 board could influence each other without requiring full attention. > *"For small data regimes, my experience is that ResNets still outperform transformers and give you more bang for the buck at lower budgets."* ## [01:00:22] Self-play Self-play is where AlphaGo bootstraps from knowing nothing to superhuman strength. After every game, MCTS produces a sharpened move distribution—more peaked than the raw policy network's prior—and that sharpened distribution becomes the training target for the policy head. The policy network is being distilled toward the MCTS output, which means each subsequent generation of games starts from a better prior and gets more improvement per search step. Jang frames this as test-time scaling with a compounding dividend: distilling 1,000 MCTS simulation steps into the policy network shifts the starting point of the next training round, so a second 1,000 steps buys a win rate that would have required 2,000+ steps without distillation. Crucially, every move in every game generates a supervision target—not just the winner—which is why the variance of the learning signal is vastly lower than naive policy-gradient approaches. > *"The beauty of how AlphaGo trains itself is that it can actually take this final search process—the outcome of the search process—and tell the policy network, 'Hey, instead of having MCTS do all this legwork to arrive here, why don't you just predict that from the get-go?'"* ## [01:25:27] Alternative RL approaches Jang constructs a careful thought experiment: what if you replaced the MCTS objective with the naive policy-gradient approach LLMs use—find the game winner and reinforce all moves from that game? In a league of 100 evenly-matched agents where one squeaks out a 51-49 record due to a single critical move, the training dataset is overwhelmingly diluted with moves that carry no signal. The one informative move is buried in roughly 30,000 irrelevant ones. This credit-assignment problem is the root of why advantage functions and baselines exist in RL. Subtracting a value baseline converts the raw return signal into an advantage—how much better than average each action actually was—and dramatically reduces gradient variance. Q-learning and TD methods approximate that advantage without needing full rollouts, which is why they matter for domains where MCTS is unavailable. > *"Importantly, what it is doing is saying: for every action we took, we did a pretty exhaustive search on MCTS to see if we could do better, and we're going to make every action that we took better by having the policy network predict that outcome instead."* ## [01:45:36] Why doesn't MCTS work for LLMs The PUCT exploration formula assumes a bounded, discrete action space and a value function that generalizes across positions. Go satisfies both. LLM reasoning satisfies neither: the token vocabulary is so large that you will almost never revisit the same partial sequence, and there is no position-level value function that reliably tells you whether a partially completed chain of thought is on track to solve the problem. Jang notes that LLMs do exhibit something that superficially resembles tree search—reconsidering, backtracking, hedging—but this emerges from in-context behavior rather than explicit tree construction. He leaves open the possibility that forward search could return in some form, particularly for domains like mathematics where intermediate states have a more rigid logical structure. The fundamental bottleneck is the absence of a trustworthy, query-efficient value function at the token level. > *"In an LLM, you're most likely never going to sample the same child more than once. If you have multiple steps of thinking, because language is so broad and open-ended, a discrete set of actions is not really an appropriate choice for an LLM."* ## [02:00:58] Off-policy training Dwarkesh raises a puzzle: every AI researcher warns against off-policy training, yet AlphaGo Zero runs fine with a large replay buffer full of games generated by older policy versions. Jang resolves this through the DAgger lens: what matters is not whether data is strictly on-policy, but whether the distribution of states in the buffer covers the states the current policy will actually visit, plus a reasonable neighborhood around them. The replay buffer works in AlphaGo because game states from recent checkpoints still lie near the current policy's distribution. The failure mode—labeling states so far from the current policy that the agent learns optimal actions for positions it will never reach—is a real risk in robotics, where distributional shift is severe. The practical recipe that emerged from systems like QT-Opt is to use off-policy data for reward shaping while keeping the policy gradient on-policy. > *"What you want in an algorithm like this is to have mostly states that you would visit, but then a small or reasonable percentage of states in this high-dimensional tube around your optimal trajectories."* ## [02:11:51] RL is even more information inefficient than you thought Dwarkesh lays out a two-dimensional inefficiency argument. The first dimension is the one everyone knows: policy-gradient RL requires full trajectory rollouts before any learning signal arrives, so as agents tackle longer-horizon tasks, samples per FLOP collapse. The second dimension is bits per sample. Early in training, an LLM with a 100K-token vocabulary that has to discover "blue" by random sampling needs on the order of 100K rollouts just to see one success—whereas supervised cross-entropy loss tells the model exactly how far its distribution was from "blue" on every step. MCTS escapes both problems. It produces a supervision target at every single move, and that target is strictly better than the current policy—not merely a binary win/loss signal smeared across thousands of tokens. Jang's observation: you are never in a situation where MCTS gives you zero signal, unless the policy has already converged to match the MCTS distribution exactly. > *"You're never in a situation where the MCTS is giving you no signal, unless your MCTS distribution converges to exactly what your policy network predicts."* ## [02:22:05] Automated AI researchers Jang ran much of his AlphaGo project through an automated LLM coding loop, giving a ground-level account of where AI research automation succeeds and where it still fails. On hyperparameter optimization, current models do genuine grad-student work: they diagnose gradient flow problems, rewrite data-loader augmentations, and squeeze measurable perplexity improvements on fixed budgets. On experiment execution and plotting, a simple skill description generates a full experimental suite with analysis. What the models cannot reliably do is lateral thinking—recognizing that a research track is structurally unpromising and jumping to a different framing before accumulating more dead-end experiments. Jang ran into this repeatedly: models would grind down a dead-end track rather than stepping back and asking whether the track was the right one. His thesis is that this is a training signal problem—building RL environments with the right outer loop, like Go, may be what eventually teaches models to escape local research dead ends. > *"What I find is that the current closed models the public can access today don't seem to be that great at selecting what the next experiment should be in a given track. They don't seem to be able to step back and do the lateral thinking of, 'Wait a minute, this track doesn't really make sense.'"* ## Entities - **Eric Jang** (Person): VP of AI at 1X Robotics; previously senior research scientist at Google Brain/DeepMind Robotics; rebuilt AlphaGo on sabbatical. - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; co-develops the bits-per-FLOP RL inefficiency analysis during the interview. - **AlphaGo / AlphaZero** (Software): DeepMind's Go-playing systems combining MCTS with deep neural networks; the technical centerpiece of the episode. - **KataGo** (Software): Open-source Go engine by David Wu (Jane Street) that achieved 40x compute reduction over AlphaGo Zero; Jang's primary reference implementation. - **Monte Carlo Tree Search (MCTS)** (Concept): Iterative search algorithm balancing exploitation and exploration via UCB/PUCT; the episode's central analytical lens. - **Credit assignment problem** (Concept): Difficulty in RL of determining which actions in a long trajectory caused a positive outcome; motivates advantage functions, baselines, and value networks. - **DAgger** (Concept): Dataset Aggregation algorithm; explains why replay buffers in AlphaGo are tolerable as long as buffer states stay near the current policy's distribution. - **Andrej Karpathy** (Person): Referenced for the phrase "sucking supervision through a straw" describing policy-gradient RL's sparse learning signal over long token trajectories.

#alphago#monte-carlo-tree-search#reinforcement-learning
Warum KI Mathematiker noch nicht ersetzen wird – Terence Tao
4:12
EN/ZH
Watch with Captions
Dwarkesh Patelvor 2 Monaten

Warum KI Mathematiker noch nicht ersetzen wird – Terence Tao

Terence Tao diskutiert die sich wandelnde Rolle der KI in der Mathematik. Zwar werde KI viele Routineaufgaben automatisieren, doch die menschlichen Mathematiker werde sie nicht vollständig ersetzen – vielmehr verschiebt sie deren Fokus auf neue Grenzgebiete. Er hebt die Zukunft der Mensch-KI-Zusammenarbeit und die unvorhersehbaren Langzeitfolgen der KI für wissenschaftliche Entdeckungen hervor. ## [00:10] Die aktuelle Rolle der KI in der Frontier-Mathematik Terence Tao erläutert, dass KI bereits „Frontier-Mathematik" betreibt, die für Menschen unerreichbar ist – allerdings eine andere Art von Frontier. Er vergleicht dies mit den Taschenrechnern der Vergangenheit, die mathematische Möglichkeiten erweiterten, indem sie auf spezialisierte Weise Aufgaben übernahmen, die jenseits der menschlichen Kapazität lagen. > *In gewisser Weise betreiben sie bereits Frontier-Mathematik, die superintelligent ist und die Menschen nicht leisten können – aber es ist eine andere Art von Frontier als die, an die wir gewöhnt sind.* ## [00:52] KI als Automatisierungswerkzeug, nicht als Ersatz Tao prognostiziert, dass KI innerhalb eines Jahrzehnts viele Routineaufgaben übernehmen wird, die heute Mathematiker erledigen, sodass Menschen sich auf komplexere, wichtigere Probleme konzentrieren können. Er zieht Parallelen zu historischen Umbrüchen: Computer automatisierten einst die Arbeit menschlicher „Rechner", und die Genomsequenzierung wurde automatisiert, doch Felder wie die Genetik entwickelten sich auf neuen Skalen weiter. > *Innerhalb eines Jahrzehnts wird vieles von dem, was Mathematiker heute tun, … von KI erledigt werden können. Aber wir werden merken, dass das eigentlich nicht der wichtigste Teil unserer Arbeit war.* ## [02:46] Die Zukunft der Mensch-KI-Zusammenarbeit in der Mathematik Dwarkesh Patel fragt nach der Möglichkeit, dass KI die Millennium-Probleme autonom löst. Terence Tao glaubt, dass „hybride Mensch-plus-KI"-Ansätze die Mathematik noch viel länger dominieren werden – der heutigen KI fehlen schlicht noch alle Zutaten, um intellektuelle Aufgaben vollständig zu ersetzen; sie fungiert vielmehr als ergänzendes Werkzeug. > *Ich glaube tatsächlich, dass diese hybride Mensch-plus-KI die Mathematik noch sehr viel länger dominieren wird.* ## [03:43] Unvorhersehbare Auswirkungen auf wissenschaftliche Entdeckungen Tao räumt ein, dass KI zwar Wissenschaft und neue Entdeckungen beschleunigen wird, zugleich aber bestimmte Fortschrittspfade hemmen könnte, indem sie die „Serendipität zerstört". Die langfristigen Folgen der KI für wissenschaftliche Entdeckungen seien höchst unvorhersehbar. > *Es ist möglich, dass wir, indem wir irgendwie Serendipität zerstören, bestimmte Fortschrittstypen tatsächlich hemmen.* ## Entitäten - **Terence Tao** (Person): Gast, einer der bedeutendsten Mathematiker der Gegenwart. - **Dwarkesh Patel** (Person): Host des Podcasts. - **KI (AI)** (Konzept): Künstliche Intelligenz; diskutiert in ihrer Rolle für Mathematik und wissenschaftliche Entdeckungen. - **Mathematica / Wolfram Alpha** (Software): Rechentools, als Beispiele für Automatisierung in der Mathematik genannt. - **Millennium-Probleme (Millennium Prize Problems)** (Konzept): Sieben ungelöste mathematische Probleme, für die jeweils eine Million US-Dollar ausgelobt ist.

#ai#mathematics#terence-tao
Terence Tao – Wie der weltbeste Mathematiker KI einsetzt
1:23:44
EN/ZH
Watch with Captions
Dwarkesh Patelvor 3 Monaten

Terence Tao – Wie der weltbeste Mathematiker KI einsetzt

Tao und Dwarkesh nehmen Keplers Entdeckung der Planetenbewegung als Linse für das, was KI in der Wissenschaft wirklich verändert. Tao argumentiert, dass die Hypothesengenerierung heute nahezu kostenlos ist und der Engpass damit auf Bewertung, Peer-Review und die Bewährung über die Zeit übergeht. Aktuelle KI-Systeme gewinnen durch Breite (alle Standardmethoden auf jedes Problem anwenden), Menschen durch Tiefe (kumulativ auf Teilfortschritten aufbauen) — deshalb werden Hybridkonfigurationen die Mathematik noch mindestens ein Jahrzehnt dominieren. ## [00:00] Kepler war ein LLM mit hoher Temperatur Tao schildert, wie Kepler zu seinen drei Gesetzen der Planetenbewegung gelangte. Kepler startete mit einer falschen, aber ästhetisch überzeugenden Theorie — Platonische Körper zwischen den Planetenbahnen — und verwarf sie erst, nachdem er jahrelang Tycho Brahes gestohlene Beobachtungen mit bloßem Auge ausgewertet hatte. Ellipsen, Flächensatz und das Verhältnis aus Umlaufzeit und Abstand entstanden durch jahrzehntelange Datenanalyse; Newtons Erklärung folgte ein Jahrhundert später. Dwarkeshs Deutung: Kepler ähnelt einem LLM mit hoher Temperatur, der zufällige Zusammenhänge gegen einen prüfbaren Datensatz durchspielt. Tao stimmt der Mechanik zu, widerspricht aber bei der Engpassfrage. Ideen zu erzeugen war schon damals billig — Kepler hatte keinen Mangel an Theorien. Was er brauchte, waren Brahes um eine Größenordnung bessere Daten und die Geduld, Ideen zu verwerfen, die die Daten widerlegten. > *Aber wie Sie sagen, muss das durch ebenso viel Verifikation gedeckt sein, sonst ist es nur Schrott.* ## [11:44] Wie erkennt man ein neues vereinheitlichendes Konzept in Massen von KI-Schrott? Tao: Hat KI die Ideengenerierung auf nahezu null gedrückt, werden Peer-Review und die Bewährung über die Zeit zur eigentlichen Engstelle. Fachzeitschriften versinken bereits in KI-generierten Einreichungen. Was eine Idee wert ist, zeigt sich daran, was spätere Wissenschaft damit anfängt — Kopernikus war ungenauer als Ptolemäus, bis Kepler das Bild vervollständigte — und diese Bewertung lässt sich im Moment kaum automatisieren. Dwarkesh fragt, wie die Wissenschaft ein Bell-Labs-artiges vereinheitlichendes Konzept (Shannons Bit, der Transformer) in Millionen mittelmäßiger Arbeiten erkennen würde. Taos Antwort verweist auf den Teil, der menschlich bleiben könnte: Wissenschaftler produzieren nicht nur Theorien, sie erzählen Geschichten, die andere überzeugen, Jahre in die Nachverfolgung zu investieren. Darwins Prosa leistete, was Newtons lateinische Gleichungen nicht schafften. > *KI hat die Kosten der Ideengenerierung auf nahezu null gesenkt, ähnlich wie das Internet die Kosten der Kommunikation auf nahezu null gesenkt hat.* ## [26:10] Der deduktive Überhang Tao über das ungenutzte Signal in vorhandenen Daten. Die Astronomie hat seit Jahrhunderten die Disziplin verfeinert, maximale Information aus minimalen Daten zu ziehen — weshalb Quant-Hedgefonds bevorzugt Astronomie-Doktoranden einstellen. Ein Lieblingsbeispiel: Forscher maßen, wie oft Wissenschaftler die Arbeiten, die sie zitieren, tatsächlich gelesen hatten, indem sie verfolgten, welche Tippfehler sich durch Zitationsketten fortpflanzten. Er schlägt vor, dieselbe wissenschaftssoziologische Methode auf den KI-Fortschritt selbst anzuwenden — Zitationsmuster, Konferenzerwähnungen und andere Spuren auswerten, um zu erkennen, ob ein Ergebnis tatsächlich einen Fortschritt darstellte, statt auf die langsame Bewährung über die Zeit zu warten. > *Eine Erkenntnis war, dass der deduktive Überhang in vielen Feldern viel größer sein könnte, als die meisten Menschen ahnen.* ## [30:31] Auswahlverzerrung bei gemeldeten KI-Entdeckungen KI hat rund 50 von etwa 1.100 Erdős-Problemen gelöst und stagniert seither. Tao erklärt den Selektionseffekt: Bei diesen 50 gab es kaum Literatur — eine obskure Technik plus ein bekanntes Ergebnis reichten, und KI-Werkzeuge sind hervorragend darin, "alle Standardkombinationen durchzuprobieren." Wenn 80 % der Arbeit durch bestehende Methoden erledigt ist, räumt KI das Problem aus dem Weg. Braucht es eine wirklich neue Technik, kommen die Werkzeuge nicht weiter, und die Erfolgsquote systematischer Durchläufe liegt bei 1-2 %. Taos Metapher: KI-Werkzeuge sind springende Roboter in einem dunklen Gebirge. Sie kommen über kurze Mauern hinweg, die Menschen nicht erreichen können, aber sie können keinen Griff fassen, dort verharren und sich aus Teilfortschritten hochziehen. Die optimistische Lesart — sobald KI ein bestimmtes Niveau erreicht, kann man eine Million Kopien parallel auf eine Million Probleme ansetzen, was keine menschliche Gemeinschaft kann — ist auch der strukturelle Grund, warum die Wissenschaft neue Paradigmen braucht, die Breite wirklich nutzen. > *Sie sind überlegen in der Breite, und Menschen sind überlegen in der Tiefe, zumindest menschliche Experten.* ## [46:43] KI macht Arbeiten breiter und reichhaltiger, aber nicht tiefer Tao über seine eigene Arbeitsweise: Arbeiten enthalten jetzt mehr Code, mehr Abbildungen und tiefere Literaturrecherchen, weil Hilfsaufgaben etwa fünfmal günstiger geworden sind. Der eigentliche Kern — den schwierigsten Teil eines Problems lösen — geschieht nach wie vor mit Stift und Papier. Er würde sich scheuen, sich als "doppelt so produktiv" zu bezeichnen, denn der Maßstab ist nicht eindimensional; was sich verändert hat, ist die Art der Arbeiten, die er schreibt, nicht die Rate, mit der er seine eigentliche Ausgangsfrage beantwortet. Die Unterscheidung zwischen Cleverness und Intelligenz führt an denselben Ort. Wenn zwei Menschen gemeinsam an einem Mathematikproblem arbeiten, wird jeder gescheiterte Ansatz zur Basis für den nächsten. Bei aktuellen KI-Systemen vergisst eine neue Sitzung, was die letzte herausgefunden hat. Der kumulative Hochzieh-Schritt fehlt — es bleibt bei reinem Versuch-und-Irrtum und der schließlichen Absorption ins nächste Training. > *Die Arbeiten sind dadurch reicher und breiter geworden, aber nicht notwendigerweise tiefer.* ## [53:00] Wenn KI ein Problem löst, können Menschen dann etwas daraus lernen? Könnte eine KI die Riemann-Hypothese in Lean beweisen und uns ohne jeden Erkenntnisgewinn zurücklassen? Tao macht sich keine Sorgen. Lean hat die Eigenschaft, dass jeder Beweis atomar zerlegbar ist — jedes Lemma lässt sich einzeln inspizieren, ablativieren und testen. Selbst ein 3.000-Zeilen-Beweis wird so zum Rohmaterial: Andere KI-Systeme können ihn auf Eleganz umformen, andere Menschen den konzeptuellen Gehalt herausarbeiten, und das Artefakt bleibt nützlich, auch wenn die ursprüngliche Herleitung undurchsichtig war. Er sagt eine ganze Berufsgruppe von Mathematikern voraus, deren Aufgabe es sein wird, riesige Lean-generierte Beweise auseinanderzunehmen und die darin verborgenen Ideen freizulegen — eine Art Beweisarchäologie, mit menschlichem Urteilsvermögen und KI-Ablativierungswerkzeugen. > *Man gewinnt viel mehr aus dem Zusammenspiel von Menschen, die mit diesen Werkzeugen zusammenarbeiten.* ## [59:20] Wir brauchen eine halbformale Sprache für den Austausch zwischen Wissenschaftlern Dwarkesh fragt, wie eine halbformale Sprache für mathematische Strategien (im Unterschied zu mathematischen Beweisen) aussehen könnte. Tao verfolgt die Frage durch den Primzahlsatz von Gauß — die erste große statistische Vermutung in der Mathematik, aus Rohdaten abgeleitet, bevor ein Beweis existierte — und durch die Zwilllingsprimzahlvermutung, an die Mathematiker glauben, weil das Zufallsmodell der Primzahlen sie vorhersagt. Mathematik hat sowohl rigorose Beweise als auch rigorose Heuristiken; nur die Beweisseite wurde formalisiert, so dass Lean sie prüfen kann. Warum die Heuristikseite noch nicht formalisiert wurde: Jeder RL-prüfbare Bewerter wird zum Angriffsziel für Exploits, und der subjektive Teil von "dieses Argument ist überzeugend" lässt sich noch nicht in einem exploitierbaren Rahmen fassen. Tao würde gern einen Weg finden, Vermutungsgenerierung und Strategiewahl im großen Maßstab zu benchmarken, möglicherweise indem man kleine KI-Systeme in vereinfachten mathematischen Universen laufen lässt und beobachtet, welche Strategien entstehen. > *Es gibt einen subjektiven Aspekt der Wissenschaft, den wir nicht wissen, wie wir ihn so erfassen können, dass wir KI auf nützliche Weise einbinden könnten.* ## [69:48] Wie Terry seine Zeit einteilt Tao darüber, wie er neue Teilgebiete erschließt. Er ordnet sich selbst als Fuchs im Sinne Berlins ein — ein bisschen über alles, gelegentlich Igel, wenn nötig. Der Antrieb ist eine Vollständigkeitsobsession: Wenn ein anderer Mathematiker ein Ergebnis mit einer Technik beweisen kann, die er nicht kennt, muss er herausfinden, was der Trick war. (Videospiele hat er aus demselben Grund aufgegeben.) Zusammenarbeit mit anderen Mathematikern ist das wichtigste Vehikel, und Dinge in seinem Blog aufzuschreiben ist die Gedächtnishilfe, die er entwickelt hat, nachdem er Argumente sechs Monate nach ihrer Herleitung wiederholt vergessen hatte. In seinem Kalender lässt Tao bewusst Raum für Zufälle. Er würde es hassen, seine Zeit so straff zu optimieren, dass er nie in einem Meeting sitzt, das außerhalb seiner Komfortzone liegt. Das Jahr am Institute for Advanced Study bestätigte die Falle — zwei Wochen reine Forschung waren großartig, dann ging ihm die Inspiration aus. Die zufällige Entdeckung im nächsten Bücherregal, das beiläufige Flurgespräch und das Meeting, das er widerstrebend besuchte, leisteten mehr, als es den Anschein hatte. > *Diese zufälligen Begegnungen mögen nicht optimal erscheinen, aber sie sind tatsächlich sehr wichtig.* ## [77:05] Mensch-KI-Hybride werden die Mathematik noch sehr viel länger dominieren Wann wird KI die Mathematik eigenständig betreiben? Tao rahmt die Frage neu — KI betreibt bereits Mathematik, die Menschen nicht können, seit dem Taschenrechner, nur an einer anderen Grenze. In etwa einem Jahrzehnt erwartet er, dass ein Großteil dessen, was Doktoranden heute tun — Standardmethoden anwenden, Literatur aufarbeiten — an KI übergeht; das Feld wird dann eine Ebene nach oben rücken, wie es beim Computeralgebrasystem und der symbolischen Integration geschah. Die Genetik endete nicht, als Sequenzierung billig wurde; sie skalierte hinauf zu Ökosystemen. Die Mathematik wird dasselbe tun. Sein Rat an Studierende, die jetzt in die Mathematik einsteigen: Veränderung einkalkulieren, aber den Abschluss auf dem herkömmlichen Weg erwerben — vorläufig gibt es noch keinen Ersatz dafür, Mathematik auf dem traditionellen Pfad zu erarbeiten. Gleichzeitig anpassungsfähig genug bleiben, um völlig neue Forschungsweisen zu nutzen, wenn sie entstehen, einschließlich solcher, die es noch nicht gibt. Bemerkenswert ist, dass ein Gymnasiast heute mit KI-Werkzeugen und Lean echte mathematische Forschung betreiben kann — das war vor fünf Jahren noch nicht möglich. > *Ich glaube tatsächlich, dass Mensch-KI-Hybride die Mathematik noch sehr viel länger dominieren werden.* ## Entitäten - **Terence Tao** (Person): Fields-Medaillist (2006), Mathematiker an der UCLA, schreibt regelmäßig über die Rolle von KI in der mathematischen Forschung. - **Dwarkesh Patel** (Person): Moderator des Dwarkesh Podcast; Langformatinterviews zu KI, Wissenschaft und Technologie. - **Johannes Kepler** (Person): Astronom (1571-1630), der die drei Gesetze der Planetenbewegung aus den Beobachtungen Tycho Brahes ableitete. - **Tycho Brahe** (Person): Dänischer Beobachtungsastronom, dessen jahrzehntelange Planetenbeobachtungen mit bloßem Auge den Datensatz lieferten, den Kepler benötigte. - **Lean** (Software): Beweisassistent, in dem mathematische Beweise formalisiert, geprüft, zerlegt und atomar ablativiert werden können. - **Erdős-Probleme** (Konzept): Die rund 1.100 offenen Probleme, die Paul Erdős aufgestellt hat; KI hat etwa 50 davon gelöst, fast alle mit kaum vorhandener Vorliteratur. - **Der deduktive Überhang** (Konzept): Die Idee, dass vorhandene Daten weit mehr ableitbares Wissen enthalten, als bisher extrahiert wurde, mit der Astronomie als Modell. - **Riemann-Hypothese** (Konzept): Ungelöste Vermutung zur Verteilung der Primzahlen; der Testfall dafür, ob ein KI-Beweis das mathematische Verständnis des Menschen voranbringen würde.

#ai-for-math#terence-tao#kepler