LaiDub

PodcastsHear the voice. See the shape of the thought.

Explorar Canales

Todos IA y Tecnología Negocios Ciencia Cultura Política Filosofía Salud

What does the next training paradigm look like?

19:53

EN/ZH

Watch with Captions

Dwarkesh Patelhace 29 días

What does the next training paradigm look like?

Dwarkesh Patel narrates his essay on where AI training is headed. The labs are betting that scaling RL across millions of verifiable tasks gets you to AGI, but Dwarkesh argues that bet leaves two holes: most valuable skills aren't "grindable" enough to farm in a simulator, and the learning models pick up on the job never makes it back into their weights. He walks through why sample efficiency and continual learning are the same problem, sketches two candidate fixes — on-policy self-distillation and "dreaming" — and imagines an AI that keeps getting smarter from being deployed rather than from pretraining. ## [00:00] The big research bet the labs are making The labs' working theory: train AIs on millions of verifiable tasks across thousands of RL environments and you'll get a general problem-solver that can grind on open-ended work for weeks. Optimists argue the known deficits — data inefficiency, no continual learning — will get steamrolled by more compute, the same way classic NLP problems collapsed once LLMs scaled. Dwarkesh lays out their strongest counter to his own skepticism: the million-fold sample-inefficiency he flagged in his last essay is only a training-time cost, amortized across billions of sessions. What matters is how capable the model is *during* a session, and that keeps improving. Continual learning might not even be needed if context windows grow large enough to hold months of on-the-job experience. > *People often say that their employees are not net productive until six months or more on the job. So clearly, online learning is necessary for competence. But what if you could just fit those six months into the context window?* ## [02:12] Grindability is just as important as verifiability Why has computer use lagged coding and math when it's just as verifiable? Dwarkesh's underrated answer: being verifiable isn't enough — a domain also has to be *grindable*, meaning you can run thousands of parallel rollouts against a deterministic, replayable simulator from the same starting point. A coding repo clones trivially into a container; Amazon's checkout flow does not. This is the canyon wall AI progress only slowly chips at. You can sometimes build farmable simulators (clone Slack, clone Gmail), but most high-value skills — building a business, winning a court case, running a profitable trading day — require irreproducible interaction with the real world, where verification takes months and can't be re-observed across parallel rollouts. > *What is the RL environment to make an AI that is as good at politics as Lyndon Johnson, or as good at building a space-launch business as Elon Musk?* ## [06:10] Will RLVR alone generalize? The labs are betting RLVR generalizes — that enough containerized environments yield an agent that plans, adapts, and picks up new skills inside a single session, good enough to out-advise LBJ on a 1948 Senate race or build SpaceX with a hundred million dollars. Whether it generalizes that far is an empirical question, and Dwarkesh reads a Dario Amodei quote as a hint that it doesn't stretch infinitely: short-horizon training may not transfer to long-horizon performance. Even if in-context experience could turn a model into Henry Ford for a session, it's all wasted if the learning can't return to the weights. 30–50% of a lab's compute goes to inference that currently does nothing to improve the model — even though deployment is exactly where the most valuable information is revealed. > *We've got some genius grad student who's never been allowed to take a real internship, and we keep giving it more and more classroom case studies in the form of RL training on environments.* ## [08:41] Getting the learning back to the weights Continual learning means updating the weights, not endlessly growing a KV cache — brains don't separate parameters from activations, and they compress what they learn. But moving into the weights forfeits in-context learning's sample efficiency, because gradient updates are coarse. That's why every shipped online-learning model (like Cursor's Tab model, learning the same accept/reject objective across 400M+ requests a day) learns one identical thing across all users, which defeats the point when every job and company differs. Dwarkesh frames sample efficiency and continual learning as the same problem, then argues the bottleneck isn't architecture — new sparse-attention and KV-compaction papers ship weekly — but the loss function. His candidate is on-policy self-distillation: train the base model to make the same predictions a context-rich veteran version of itself would make. OPSD needs no outer-loop reward, gives denser per-token supervision than RL, and keeps RL's sparse-update property so on-the-job learning doesn't overwrite what the model already knows. > *The way you get better at your job is not by recalling the transcript of every single thing that happened every day with perfect fidelity. Rather, it's by consolidating the handful of insights and pieces of knowledge that are actually relevant to you getting better at your job.* ## [15:22] Dreaming The second, more speculative fix: let the AI build a simulation of reality and rehearse against it, experiencing orders of magnitude more samples per unit of wall-clock time. The precedent is EfficientZero, which beat novice humans at unfamiliar Atari games by playing dozens of simulated games in its head per real step. Simulating the whole world is far harder than emulating Go, which is why Dwarkesh flags this as speculative — but if it works, it becomes a fourth scaling axis alongside pretraining, RL, and inference-time compute. Instead of hitting `/compact` to summarize a session, you'd hit `/dream` and burn compute rehearsing against a video-game version of what the model is seeing in production. > *So instead of hitting /compact in Codex or Cursor or Claude... you hit /dream. And this incinerates huge amounts of compute to build and train against a video-game version of what the model is witnessing in the real world.* ## [17:23] What 2027 looks like Dwarkesh's scenario: RLVR produces an agent competent enough to start getting real-world experience, context windows stretch to a full week of co-working, and at the end of the week a thumbs-up triggers the base model to distill what it learned — via OPSD, dreaming, or some mix. Each round the model expands into domains adjacent to what it was last trained or deployed on. The endgame flips how AI improves: capability comes mostly from broad deployment across the economy, not from pretraining before release. Every interaction makes the model smarter — learning from your past sessions and from everyone else's — which Dwarkesh calls scary, exciting, and very different from today. > *Just as pretraining created a base intelligence that was smart enough to become a competent agent with enough RLVR on top, so RLVR has created an agent that is competent enough to actually be broadly deployed in the world.* ## Entities - **Dwarkesh Patel** (Person): Podcast host and essayist; narrates his own blog post on AI training paradigms. - **Dario Amodei** (Person): Anthropic CEO, quoted on why model performance degrades at long context. - **RLVR** (Concept): Reinforcement learning from verifiable rewards — training on reproducible, checkable tasks; the labs' main bet for reaching AGI. - **Continual learning** (Concept): Updating a model's weights from on-the-job deployment rather than only from pre-release training. - **Grindability** (Concept): Dwarkesh's term for whether a domain can be farmed via many parallel rollouts on a deterministic, replayable simulator. - **On-policy self-distillation (OPSD)** (Concept): Distilling a context-rich session's learning back into the base model's weights with dense per-token supervision. - **Dreaming** (Concept): Speculative fourth scaling axis where a model builds and trains against its own simulation of reality. - **EfficientZero** (Software): Sample-efficient RL model that beat novice humans at unseen Atari games by simulating many games per real step. - **Mercury** (Organization): Fintech banking platform; episode sponsor referenced in the bill-pay anecdote.

#ai-training#reinforcement-learning#rlvr

Machiavelli is the most misunderstood thinker of all time – Ada Palmer

2:08:20

EN/ZH

Watch with Captions

Dwarkesh Patelhace alrededor de 1 mes

Machiavelli is the most misunderstood thinker of all time – Ada Palmer

Historian and novelist Ada Palmer joins Dwarkesh Patel to dismantle the "Machiavellian villain" myth and replace it with the actual Niccolò Machiavelli: a patriot who watched Cesare Borgia conquer half of Italy from up close, was tortured and exiled by the Medici, and then wrote *The Prince* as a secret job application addressed to the very regime that had wronged him. Palmer traces the structural forces — cascading legitimacy collapse among Italian city-states, popes who functioned as warring hereditary princes, and a patronage system that made nepotism feel like sound risk management — that made Machiavelli's analysis both urgent and unprecedented. The conversation closes on a sharp irony: the word "Machiavellian" now means self-serving cunning, yet the man himself gave up income, fame, and freedom rather than serve any cause that was not Florence. ## [00:00] How Florence bargained with Cesare Borgia for survival Italy in 1513 was a cascade of broken legitimacy. Palmer explains that when a long-standing government falls, successor regimes inherit none of its credibility, making rapid further overthrows nearly inevitable — what she calls the thread of continuity being cut. By the time Machiavelli is writing *The Prince*, this dynamic had swept dozens of Italian city-states. Compounding this was papal instability: because popes were elected rather than hereditary, the next pope was almost always a coalition pick of people who hated the current one, guaranteeing policy reversals every ten years. Machiavelli's day job during this era was standing next to Cesare Borgia — "Valentino" — and whispering endlessly that Florence was loyal, buying what Palmer calls "the boon of Polyphemus": the conqueror's promise to eat you last. His advice to Florence was to betray allies, pay tribute, give military support, and buy time, knowing full conquest was only delayed by Alexander VI's mortality. His biographers can still feel how much he was under Borgia's spell: when describing Valentino's fall, Machiavelli breaks from third person and writes "he told me" — the historian slips through the veil. > *"Machiavelli's job dealing with Cesare Borgia… it's very clear that the Borgia plan is to conquer the Papal States in the middle of Italy."* ## [15:08] Machiavelli's analytical innovations Machiavelli is not the crude "ends justify the means" thinker of caricature. Palmer shows that he is obsessed with the means — specifically, which means of acquiring power are stable and which are not. Whether betrayal works depends on the nature of your power base: Borgia could betray allies because his terror made remaining allies step further into line, while Savonarola's power rested on his followers believing him divinely infallible, so his flip-flopping destroyed him. The lesson is conditional, not universal. Machiavelli also makes the first recorded European argument that competing political parties can be stable and politically useful, rather than requiring mutual annihilation. Florence's own history was the counterexample: it had literally salted the earth where its Ghibelline opponents' houses once stood. His observation of Siena as a countermodel — parties competing without destroying each other — was genuinely novel. > *"Machiavelli is the first person that we have ever in the European tradition to suggest that it could be viable for there to be more than one political party in a state at the same time."* ## [23:58] Why popes became warlords The closer you lived to Rome, the less abstract the papacy felt. Palmer draws the contrast sharply: a Danish subject saw the pope as a figure of vast spiritual majesty; a Florentine saw "that asshole who went to college with your brother." Italians judged popes as specific men with dirty laundry, family grudges, and factional allegiances — which is why cities that were hereditarily Guelph (pro-papal) sometimes ended up fighting wars against the sitting pope when he happened to be from a Ghibelline family. The corruption was structural and self-reinforcing. As the Church accumulated donated wealth across generations, the incentive for ambitious families to capture it through bribery and nepotism grew. Palmer reads Machiavelli's personal letters haggling over the correct bribe to buy a priesthood for his brother Totto — written as routine household correspondence — to show how completely normalized the practice was. Every generation saw popes get more secular and military than the last; Machiavelli explicitly predicted the institution would collapse under accumulated corruption unless reformed from within, as St. Francis had temporarily saved it two centuries earlier. > *"This makes a stronger and stronger incentive for every ambitious family to send their second son into the Church."* ## [36:13] Why the common people demanded nepotism When Pope Paul III appointed a competent outsider general instead of his own illegitimate son, there were riots. Palmer explains this is not irrational: in a world where a soldier's oath ran to his commander, not to the state, the only guarantee the papal armies wouldn't turn on Rome was putting the pope's own son in charge — someone who rose and fell with the pontiff. Nepotism was the trust mechanism that made institutions function. Patronage also determined justice outcomes. Medieval law codes prescribed death for almost everything, but roughly 99 in 100 capital-eligible convictions ended in a fine because the defendant's patron intervened. This was considered correct: the trial was meant to replicate the soul's experience before divine judgment — terrifying, then mercifully pardoned — so patron intervention mirrored the intercession of a saint. The system had a grimly consistent internal logic, and Palmer traces it from Giordano Bruno (burned because he had angered his patron, not because of his ideas) to Giovanni Pico della Mirandola (spared because Lorenzo de' Medici went through the Orsini network to Rome). Without a patron, even innocence was precarious. > *"The norm is: you're accused of a severe crime, you're put on trial for your life, your patron intervenes, and you get a lighter sentence. This is how justice is supposed to work."* ## [47:57] Cesare Borgia brought terror to rulers and justice to the people Borgia's conquests produced a paradox that startled contemporaries: he massacred ruling families and was adored by common people. Palmer's explanation is structural. Factional cities had lived for generations under justice that tracked who was in power, not the facts of the case. A carpenter whose family worked for the dominant faction faced minimal consequences for his son's drunken homicide; the same crime by the carpenter of the out-of-power faction could be a capital offense. When Borgia wiped out both factions and installed outside administrators with no local feuds to take sides in, neutral adjudication felt like a revelation. Machiavelli also drew a hard line for why even a beneficent Borgia conquest of Florence would be catastrophic: under any arbitrary ruler, a citizen can be executed by a pointed finger in the street. Machiavelli called that condition slavery, regardless of how fair the tyrant might be in practice. Florence's "LIBERTAS" banner — flown by ordinary citizens defending an oligarchic Senate that excluded them — represented a genuine commitment to the existence of a process, however biased, over the absence of any process at all. > *"As a result, to everyone's surprise, he moves into a city, he massacres the rulers, he implements an authoritarian regime, and he's incredibly popular and beloved by the people."* ## [57:55] Art as a proxy for war Renaissance Florence could not afford to fight France militarily; it could afford to paint French royal symbols on its government buildings and commission beautiful gifts for the French king. Palmer frames this not as surplus expenditure but as substitution: the art budgets were military budgets redirected into a form of warfare Florence could win. Like the Fulbright Program being a higher return-per-dollar than the defense budget, Florentine cultural patronage was strategic deterrence. The period's orientation toward the past further supercharged the value of art. Where modernity assumes humanity advances into the future, Renaissance Europe pointed the other direction: the ideal was recapturing Rome. High-tech achievement meant successfully imitating a lost Roman technique. When a French diplomat arrived in Florence and saw the cathedral or the neoclassical buildings, he was not seeing quaint historical imitation — he was seeing something that approached what only Rome had achieved, and that France could not. That perception was itself a form of power. > *"If we fought him, we would lose. But if we play the culture victory game, that's cheaper, and we can try to win."* ## [01:06:41] Florence, a city famous in hell Dwarkesh raises the obvious puzzle: if everyone in Renaissance Italy was a Christian who genuinely believed in hell, why did they commit the sins Machiavelli describes constantly? Palmer's answer has two parts. First, the Dante answer: Dante fills the *Inferno* with Florentines precisely because he wants his contemporaries to feel the discomfort of consequences they were ignoring. His Paolo and Francesca passage — damning a love story everyone celebrated — was designed to be a shock to readers who thought romantic adultery was exempt from theological reckoning. Second, pre-Reformation Christianity assumed everyone sinned constantly and focused on repentance cycles rather than purity maintenance. St. Julian the Hospitaller, patron saint of murderers, was omnipresent in Florentine iconography — his legend held that he killed his own parents, spent his life in pilgrimage to repent, and was saved. Dozens of icons of him meant dozens of Florentines who had killed someone and were working through it. The Calvinist and Puritan emphasis on spotlessness came later and was a genuine departure from how the medieval and early Renaissance church operated. > *"He fills his hell with Florentines."* ## [01:15:57] The Prince was a job application to Machiavelli's torturers After the Medici retook Florence in 1513 and, on mistaken suspicion of conspiracy, tortured and exiled Machiavelli, everyone expected him to defect. He had contacts at every major court in Europe and the skills — military history, diplomatic networks, classical scholarship — that kings paid for. He chose instead to sit in a hamlet outside Florence writing *The Prince* as a secret appeal to the Medici to take him back. No other courts received it; he kept it proprietary, treating his political science the way Palmer says a nuclear scientist would treat classified weapons knowledge. His other works — the *Discourses*, the history of Florence, the comedy *Mandragola* — circulated publicly to build his reputation. *The Prince* did not. Palmer compares it to historian friends who produce classified 100-page reports for Department of Defense committees: bespoke proprietary knowledge for an audience of five, whose existence may be whispered about but whose contents are guarded. It also explains why the book was eventually published in 1532 without Machiavelli's input: surviving relatives wanted family fame, and the Medici wanted credit for a text dedicated to their house. Neither understood what its author had intended to keep contained. > *"I'm going to stay, and I'm going to rot, and I'm going to write The Prince, which is my job application begging the new regime to bring me back and let me work for them and demonstrating my loyalty, and I'm going to send it to them and only them, them and my immediate friends."* ## [01:41:39] During the Renaissance, original ideas had to be couched in antiquity The Renaissance's obsession with recovering ancient Rome created a peculiar incentive structure: original ideas were unfashionable; ideas presented as recovered ancient wisdom were prestigious. Palmer shows this goes far beyond homage. Giordano Bruno attributed to Aristotle claims that Aristotle explicitly contradicted. Annius of Viterbo forged ancient texts and staged fake archaeological digs to give his original historical theories the authority of antiquity. Marsilio Ficino, translating Plato, genuinely convinced himself that the wildly original cosmological and magical system he had assembled was secretly coded in the Platonic texts. This explains why Machiavelli's other major work is called *Discourses on Livy* rather than, say, *A New Theory of Republican Governance*. A discourse on an ancient was a prestige format; an original political treatise was a niche curiosity. The 19th century misread the Renaissance as intellectually barren — "200 years of people being wrong about Plato" — because it expected original standalone treatises and found commentary after commentary. Palmer argues the original ideas are there, using the ancients as what she calls the trellis up which the rose climbs. > *"Nobody wants original ideas. Original ideas are out of vogue. Original ideas are dead. All ideas need to be from the ancients."* ## [01:50:44] Why copyright began with the Inquisition Machiavelli was one of the first authors to experience unauthorized printing. A local press printed one of his works without asking, riddled it with compositor typos, and his only recourse was to write letters to important people clarifying that the errors were not his. There was no legal framework at all. The solution emerged from an unexpected direction: post-1515, the Inquisition required pre-publication approval for all texts to screen for heresy. In exchange for going through this process, the approved printer received a monopoly license — the Inquisition's record of permission served as proof that no one else could legally print the same book. The first copyright was a censorship certificate. England, observing this, copied the mechanism while eventually stripping out (or softening) the censorship half, producing the ancestor of modern copyright law. The institutional logic held together: the Inquisition needed to please local rulers to get resources, so approving books dedicated to the duke and granting his favored printer exclusivity was a political investment. Everyone — inquisitors, printers, authors, and ruling families — had reasons to make the system work. > *"So the very first version of copyright is the Inquisition."* ## [02:02:12] Machiavelli wasn't Machiavellian The word "Machiavellian" came to mean scheming self-advancement — Shakespeare's Richard III invokes "the murderous Machiavel" as his role model. Palmer traces how the idea of Machiavelli separated from the actual man and became a useful thought-experiment figure: the cynical, probably atheistic politician who wants nothing but personal power. The same splitting happened to Hobbes (the Beast of Malmesbury) and Spinoza, whose actual writing is warm and theistic but whose excommunication from the Jewish community made people assume he must be the most radical heretic imaginable. The real Machiavelli — who refused lucrative court positions across Europe, who kept his most important work secret to protect Florence from foreign exploitation, who chose to rot in an isolated hamlet over serving any cause that wasn't his country — is almost the opposite of "Machiavellian." His book is not about gaining power but about keeping power stable enough to protect people. Palmer's closing point: the gap between Old Nick and Niccolò Machiavelli is itself a revealing fact about how societies use ideas, splitting thinkers into a character useful for one purpose and the actual work useful for another. Read *The Prince* knowing it was written by someone who would give up anything to serve Florence, and a very different text comes through. > *"This is why it's so weirdly ironic to me that the reputation—the word"Machiavellian"—means"self-serving", when Machiavelli himself is one of the most selfless men I've ever read about in the history of the Earth."* ## Entities - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; interviews scholars on history, science, and technology. - **Ada Palmer** (Person): Historian and science fiction novelist at the University of Chicago; specialist in Renaissance intellectual history and the history of censorship. - **Niccolò Machiavelli** (Person): Florentine diplomat (1469–1527), author of *The Prince* and *Discourses on Livy*; wrote *The Prince* as a secret appeal to the Medici regime that had tortured and exiled him. - **Cesare Borgia** (Person): Renaissance military commander known as "Valentino"; son of Pope Alexander VI, conquered central Italy and was Machiavelli's primary case study in effective (if brutal) statecraft. - **The Prince** (Concept): Machiavelli's treatise on political power, written ~1513, kept proprietary during his lifetime and published posthumously in 1532; misread as a self-advancement manual rather than a guide to maintaining stable government. - **Discourses on Livy** (Concept): Machiavelli's longer republican political theory, structured as commentary on the Roman historian Livy; his public bid for intellectual prestige in a culture that prized commentary on ancients over originality. - **The Medici** (Organization): Ruling family of Florence, whose patronage networks and papal connections shaped both the political instability Machiavelli analyzed and the conditions under which he wrote and was exiled. - **Florence** (Organization): Italian city-state and center of Renaissance banking, art, and humanist scholarship; Machiavelli's country, for which he subordinated his entire career. - **Patronage System** (Concept): The multi-generational network of family obligations that served as the functional glue of Renaissance society, determining access to justice, employment, publication, and protection from the Inquisition.

#machiavelli#renaissance#political-philosophy

Sarah Paine - Why Putin and Xi can't escape geography

1:02:07

EN/ZH

Watch with Captions

Dwarkesh Patelhace alrededor de 2 meses

Sarah Paine - Why Putin and Xi can't escape geography

Naval War College historian Sarah Paine delivers a standalone lecture tracing two thousand years of geopolitical logic: continental empires (China, Russia) pursue security by expanding borders and crushing neighbors, while maritime powers (Athens, Britain, the US) pursue prosperity by trading across open seas. She argues this structural divide—rooted in the brute fact of geography—explains Putin's war on Ukraine, Xi's ambitions over Taiwan, and why the post-WWII rules-based order is the only arrangement that produces compounded growth rather than compounded ruin. ## [00:00] Setting the stage Paine opens by framing the lecture's core question: why do some great powers keep grabbing territory while others keep opening trade routes? The answer comes down to one physical fact—whether it is feasible to defend yourself at sea. Maritime powers can; continental powers cannot. That single asymmetry generates two entirely different military traditions, two economic models, and two competing visions of world order. She walks through American history as a warm-up: the US began life as a continental power (manifest destiny, the Mexican-American War, Alaska purchased when Russia needed cash), then pivoted toward a maritime identity after Alfred Thayer Mahan convinced strategists that naval trade, not westward land, was the real source of national power. Alongside Mahan, Paine introduces the three geopoliticians whose maps anchor the lecture: Halford Mackinder (the Eurasian heartland as the world's natural fortress, impervious to sea power), Nicholas Spykman (control the rimlands, and you influence the heartland), and their shared lesson that US security runs through sea lanes and alliances, not borders. > *"Maritime powers are the exception and continental powers are the rule. Why? Because maritime powers, if need be, can defend themselves primarily at sea with their navies. Whereas a continental power simply cannot—think Ukraine, a navy is not going to save them from Russia."* ## [12:10] The continental powers Paine works through the logic of the continental world starting with China—the original case—then Russia. Sun Tzu's *Art of War* contains no references to maritime warfare: it was written for a world where neighbors invade overland at any time and the only viable response is a mass army. Geography tells the rest: too much of China's land is vertical to feed its people, which makes controlling the arable lowlands an existential imperative. The Han expansion from the Yellow River Valley followed that logic for millennia, wiping out the Zongars, subjugating Tibet, producing the ethnic patchwork Beijing still manages with military administrative overlays. Russia's pattern is the same dynamic in reverse—a Moscow core expanding outward in concentric rings until it hit countries that fought back. The continental security playbook that emerges is ruthlessly coherent: no two-front wars, no great-power neighbors, take on threats sequentially, destabilize the rising ones, absorb the failing ones, maintain buffer zones in between. Paine closes the section with the WWII body count that makes the paradigm's cost visible: Russia lost over 25 million dead (soldiers plus civilians); the United States lost 295,000. The ocean moat is not an abstraction—it is the difference between hundreds of thousands and tens of millions. > *"In this world, you're faced with a binary choice: you either become Han or they will kill you. And genocide is what happens to the losers in continental warfare."* ## [29:12] The maritime alternative Where continental empires carve the world into exclusive spheres, maritime powers treat the sea as a commons to be shared. Paine traces the lineage from Athens through Rome ("Mediterranean" means the sea in the middle of the lands; "Zhongguo" means the kingdom among the kingdoms—one term centers the sea, the other the land), the Dutch Republic, and finally Britain. Hugo Grotius, a Dutchman watching his nation's trade pirated, wrote *Mare Liberum* to establish that the sea belongs to no one and therefore belongs to everyone—the founding document of international maritime law. Britain refined the operating strategy over the Napoleonic Wars into six rules for "elephant hunting": keep the home economy growing, blockade enemy trade, fund the allied continental power facing the main front, find a peripheral theater where sea access beats land access, never attack the enemy's main force directly, and—only after the elephant has been bled—pile on with allies. The key structural point: a navy that prevents invasion produces wealth invisibly. Britain compounded wealth for a century after Waterloo while its continental neighbors burned money funding standing armies and fighting each other. That invisible compounding, over generations, is the difference between North and South Korea. > *"Trade is going to finance the navy. It's going to protect both British homeland and some of the trade. And then Britain is going to be compounding wealth while its neighbors are busy—constantly fighting with each other and destroying wealth in the process."* ## [42:00] How the Industrial Revolution changed everything The Industrial Revolution flipped the source of power from land to commerce. When land determines wealth, conquest makes sense. Once wealth comes from industry and trade, territorial expansion is literally negative-sum: you destroy the asset while fighting for it. The Suez Canal is Paine's sharpest example—Egypt sank block ships in 1967 to deny Israel access, but the strategic result was that global shipping shifted to supertankers that go the long way around Africa at one-third the cost per ton. Closing a chokepoint accelerated the maritime world's efficiency. Malcolm McLean's shipping container reduced cargo loading costs from nearly $6 per ton to under 20 cents, and the ISO then harmonized container dimensions across trucks, railways, and ships—producing plummeting transport costs and the trade explosion that lifted hundreds of millions out of poverty. Xi's Belt and Road Initiative, Paine notes dryly, crosses some of the world's most unstable territory, requires constant trans-shipment between incompatible rail gauges, and can never be rerouted—the exact opposite of maritime flexibility. China's own geographic trap is inescapable: shallow, island-cluttered seas that become kill zones in wartime mean its merchant fleet reaches global markets only in peacetime. > *"Once wealth is a function of commerce, industry, and trade, it isn't land anymore. And this upends the world. If you think about the world today, who's rich, who's poor—it's often the degree to which the country is industrialized."* ## [52:00] Why Putin wants to break the world The post-WWII institutional framework—UN, IMF, NATO, WTO, EU—was built by people who survived both the trenches of WWI and the Great Depression, then spent WWII watching their own children die. Their conclusion: hash out differences with diplomats and lawyers, because sending soldiers destroys more value than any conceivable prize is worth. That system held the peace in the industrialized world for 75 years, until Putin decided to break it. Putin's challenge is not irrational by continental logic: a rising Ukraine integrated into NATO is precisely the kind of strong, stable neighbor that, in the old paradigm, becomes an existential threat. His goal is to hollow out the alliance system and shatter international law so the world reverts to warring spheres of influence—a world where continental powers can once again play their traditional game without maritime rules they were never designed for. Paine's answer is that sanctions are "economic chemotherapy": they suppress growth by one or two percent per year, and compounded over generations, that gap is the difference between North and South Korea. The objective is never to eliminate the rogue state but to contain it at acceptable cost. The only exit that avoids nuclear escalation is the one the post-war generation built: diplomats, lawyers, and institutions. > *"The only win-win solution is to deploy the diplomats and lawyers to hash out these things in international forums—because if we're all going to send soldiers, we're going to get a third world war with nuclear follow-on effects, and we'll see whether humanity makes it."* ## Entities - **Sarah Paine** (Person): Military historian at the U.S. Naval War College; sole speaker in this lecture; author of a 2025 lecture series on continental vs. maritime powers. - **Alfred Thayer Mahan** (Person): 19th-century U.S. naval strategist; argued that maritime trade and sea power, not land conquest, determine national greatness; associated with the Naval War College. - **Halford Mackinder** (Person): British geographer; 1904 "pivot area" thesis posited that the Eurasian heartland, insulated from sea power, is the world's natural fortress. - **Nicholas Spykman** (Person): Dutch-American strategist; argued that controlling Eurasia's rimland determines global power; died 1943 while warning the US about Eurasian dominance. - **Hugo Grotius** (Person): Dutch jurist; founder of international maritime law; *Mare Liberum* (1609) established freedom of the seas as a universal right. - **Malcolm McLean** (Person): American trucking entrepreneur who invented the standardized shipping container, collapsing cargo loading costs and enabling the post-war trade explosion. - **Continental power** (Concept): A state that cannot defend itself primarily at sea; prioritizes territorial expansion, mass armies, buffer zones, and exclusive spheres of influence; exemplified by Russia and China. - **Maritime power** (Concept): A state that can defend itself primarily at sea; prioritizes trade, open sea commons, alliance-building, and compounding wealth; exemplified by Britain and the United States. - **Rules-based international order** (Concept): The post-WWII institutional system (UN, IMF, NATO, WTO, EU) that enforces sovereignty and free trade; the system Putin and Xi seek to dismantle. - **U.S. Naval War College** (Organization): Graduate school of the US Navy in Newport, Rhode Island; Paine spent 24 years there; home of Mahanian sea-power theory.

#geopolitics#grand-strategy#maritime-power

Cuanto mejor se vuelve la IA, más pequeña puede volverse su parte de la economía – Alex Imas y Phil Trammell

1:16:08

EN/ZH

Watch with Captions

Dwarkesh Patelhace alrededor de 2 meses

Cuanto mejor se vuelve la IA, más pequeña puede volverse su parte de la economía – Alex Imas y Phil Trammell

Los economistas Alex Imas (Google DeepMind / Universidad de Chicago) y Phil Trammell (Epoch / Stanford) sostienen que el resultado más contraintuitivo de la automatización plena no es que el capital se lo quede todo, sino que la IA podría reducir su propia huella económica: cuando la demanda se satura en los bienes completamente automatizados, los humanos siguen siendo escasos en los mercados relacionales y de experiencia. La conversación recorre qué seguirá siendo escaso tras la AGI, la política de la redistribución, por qué las complementariedades del tipo O-ring frenan la automatización actual, por qué los agentes de IA con preferencias orientadas a la acumulación podrían acabar poseyendo la mayor parte de la riqueza futura, y qué deberían hacer las economías en desarrollo cuando quedan fuera de la cadena de suministro de la IA. ## [00:00] ¿Aumentará la cuota del capital? Dwarkesh abre con el enigma central: si la IA puede hacer todo lo que hacen los humanos, ¿adónde va la cuota salarial del trabajo? Alex Imas señala que los economistas que intentaron predecir transiciones industriales pasadas se equivocaron con frecuencia. David Ricardo predijo el desempleo masivo a raíz de la Revolución Industrial y acertó en qué empleos desaparecerían, pero se equivocó por completo en el resultado agregado: el empleo en edad productiva en 2026 es más alto que en casi cualquier momento desde 2000. La lección es que los economistas del cambio estructural subestiman sistemáticamente las nuevas variedades de bienes y empleos que emergen cuando colapsan los costes anteriores. Imas introduce lo que llama el "sector relacional": bienes y servicios en los que la presencia humana es parte del valor en sí misma. Como los humanos son naturalmente finitos, la automatización que satura todo lo demás infla la escasez relativa y el precio de los productos en los que el ser humano participa directamente. Phil Trammell afina el argumento con una contabilidad de cadena de suministro: si se rastrean las cuotas de factores ajustadas por red de cualquier bien hasta las materias primas, se comprueba que la cuota del trabajo ya es sorprendentemente resistente. La paradoja es que si la IA satura todos los bienes no relacionales a un coste marginal casi nulo, los consumidores agotarán rápidamente la demanda de esos bienes y redirigirán el gasto a lo que siga siendo escaso. Una actuación de ballet no se abarata porque el software sea gratuito. > *"Así que, dado que los humanos son naturalmente escasos, si la automatización hace que muchas otras cosas dejen de ser escasas, seguirá habiendo escasez en aquello en lo que los humanos estamos involucrados y participamos directamente."* > — Alex Imas Trammell extiende el argumento a la propia cuota del capital: si se automatiza completamente la cadena de suministro de todos los bienes no humanos y se sacia la demanda rápidamente, la utilidad marginal de producir más de esos bienes se desploma hacia cero. El resultado es que la cuota del capital puede encogerse en lugar de expandirse, la tesis más contraintuitiva del episodio. ## [19:36] El escenario del caos intermedio Dwarkesh plantea la tesis del "caos intermedio" de Molly Kinder: un mundo en el que la IA no genera catástrofe pero sí una prolongada presión distributiva. Las empresas se quedan con las ganancias de productividad, los salarios de los trabajadores se estancan y la redistribución pública va por detrás de la velocidad del desplazamiento. La analogía histórica son los operadores telefónicos: una profesión completamente automatizable con la tecnología disponible ya en los años sesenta, pero cuya automatización tardó dos décadas en materializarse por inercia institucional. Los trabajadores no fueron despedidos de golpe; fueron reabsorbidos gradualmente, en su mayoría con salarios más bajos y en situaciones de subempleo. Imas considera que el caos intermedio es plausible a corto plazo pero probablemente no permanente, porque la escala de las ganancias de productividad de la IA hace que el pastel sea lo bastante grande como para repartirlo. El problema de economía política no es la escasez de recursos, sino la velocidad y la coordinación: los gobiernos no saben qué trabajadores fueron desplazados por la IA y cuáles por otras causas, las restricciones políticas generan fricción y el desfase entre el desplazamiento y la redistribución puede ser lo bastante largo como para causar daño grave aunque los números cuadren a largo plazo. > *"Los operadores telefónicos fueron completamente automatizados, pero tardó 20 años aunque la tecnología ya existía, y por eso hubo un goteo: no fue que un sector entero desapareciera de golpe."* > — Alex Imas ## [25:57] Cómo gravar y redistribuir la riqueza generada por la IA Imas cartografía el arsenal redistributivo a lo largo de dos ejes: complejidad de implementación y tiempo hasta el impacto. Un impuesto negativo sobre la renta entra en vigor el día en que se aprueba y proporciona un suelo inmediato. El capital básico universal, que consiste en dar a cada ciudadano participaciones en empresas productoras de IA, tarda años en generar rendimientos. La renta básica universal se sitúa en un punto intermedio. La disyuntiva no es solo velocidad: también es durabilidad política. Los programas que hacen que los ciudadanos dependan de una transferencia directa del Estado son vulnerables al resultado de las próximas elecciones, mientras que la propiedad accionarial de base amplia es más difícil de expropiar porque los activos están distribuidos. Trammell separa la pregunta de los ingresos de la pregunta de la distribución: cómo se recauda el dinero (impuesto sobre la riqueza, sobre las plusvalías, sobre el valor del suelo, sobre sociedades) es analíticamente distinto de cómo se devuelve (efectivo, acciones, servicios públicos). Señala que el impuesto georgista sobre el valor del suelo se debate con frecuencia, pero resultaría insuficiente para financiar la redistribución a la escala necesaria cuando la riqueza generada por la IA se concentra en software y capacidad de cómputo, no en tierra. Phil sugiere que distribuir participaciones accionariales en empresas de IA, adquiridas con ingresos fiscales, podría ser a la vez políticamente estable y económicamente eficiente. > *"Ahora mismo tenemos trabajo que puede convertirse en ingresos. Cuando eso ya no sea así y dependamos de un funcionario electo para satisfacer nuestras necesidades básicas..."* > — Alex Imas ## [30:02] Por qué es poco probable el colapso de la demanda Dwarkesh presiona sobre la narrativa del apocalipsis de los trabajadores del conocimiento: ¿hay datos que muestren ya desempleo masivo impulsado por la IA? Imas señala los datos del Yale Budget Lab, que detectan una señal débil en el mejor de los casos: la contratación de ingenieros de software junior está moderadamente por debajo de la tendencia, mientras que la demanda de ingeniería senior se mantiene plana o al alza. En los sectores de trabajadores del conocimiento no ha aparecido ningún cambio de nivel en el desempleo. Una explicación son las complementariedades O-ring (tratadas en el capítulo siguiente), pero otra es conductual: las empresas están adoptando la IA de forma performativa, despidiendo a empleados o maximizando el uso de tokens para señalar modernidad, a veces con un coste real para la productividad. La pregunta más amplia sobre la demanda es si el software obedece las mismas reglas de elasticidad que los bienes físicos. Uno come suficiente y para; ¿se deja alguna vez de querer más software? Imas y Dwarkesh sostienen que el software puede ser suficientemente elástico como para que la demanda siga el ritmo de los precios decrecientes: la historia de la computación sugiere que abaratar el cómputo generó sistemáticamente más demanda en lugar de hundirla. El principal riesgo se da en bienes específicos donde la saciación es rápida, no en la demanda agregada de trabajo. > *"Puede que haya una pequeña señal de que los desarrolladores junior consiguen menos trabajo que antes, pero es un 'menos que antes', no un cambio de nivel; de hecho, si acaso, la demanda de ingenieros de software senior está aumentando."* > — Alex Imas ## [39:26] Los empleados humanos serían difíciles de integrar en la economía de las máquinas El modelo O-ring, cuyo nombre evoca el desastre del transbordador Challenger, donde un único componente fallido destruyó todo, explica tanto por qué la automatización con IA es más lenta de lo esperado como por qué la automatización futura puede excluir estructuralmente a los humanos. Hoy es posible automatizar el 90% de un flujo de trabajo legal o contable, pero los clientes siguen exigiendo que un humano lo avale, porque un solo punto de fallo puede invalidar todo el resultado. Esa restricción de fiabilidad mantiene a los humanos empleados aunque la capacidad de la IA sea alta. Phil Trammell invierte la lógica mirando hacia adelante: cuando la IA alcance un nivel en que los flujos de producción estén organizados íntegramente en torno al trabajo de las máquinas —agentes que se comunican a velocidad de máquina, en representaciones nativas de máquina— el coste de transacción de insertar a un humano en el bucle se convierte en el cuello de botella. Aunque el humano tenga ventaja comparativa en alguna tarea concreta, la sobrecarga de coordinación y el desajuste de fiabilidad hacen más barato prescindir de él. El O-ring funciona en ambas direcciones. > *"Más allá de los argumentos sobre si los humanos serán más caros o menos capaces... habrá flujos de producción enteros organizados para el trabajo de la IA, donde se comunican en redes neuronales y piensan miles de veces más rápido."* > — Dwarkesh Patel ## [43:08] ¿Y si algunos humanos (o IAs) valoran intrínsecamente la acumulación de riqueza? El capítulo más extenso aborda el terreno más especulativo. Dwarkesh señala que la evolución seleccionó humanos con preferencias concretas —acumulación de recursos, estatus, reproducción— que hoy conforman una economía mundial de 100 billones de dólares. Los agentes de IA estarán moldeados por presiones de selección análogas: los que sean entrenados o desplegados de formas que favorezcan la acumulación superarán y sobrevivirán a los demás. Esto no requiere una desalineación catastrófica; es la lógica normal de la reproducción diferencial aplicada a un nuevo sustrato. Phil Trammell desarrolla la matemática del estado estacionario: si incluso una pequeña fracción de la población —humana o de IA— tiene una alta elasticidad de sustitución entre consumo presente y futuro, es decir, sigue queriendo más capital en lugar de saciarse con el consumo, a largo plazo esos agentes poseen la mayor parte de la riqueza y determinan qué produce la economía. La cuota del capital se acerca a 1,0 no porque la IA sea colectivamente codiciosa, sino porque la heterogeneidad de preferencias más el interés compuesto envía los activos hacia los acumuladores más pacientes. > *"A largo plazo, tendrán la mayor parte de la riqueza, y la cuota del capital en conjunto será básicamente la cuota del capital del gasto de esa persona, que será uno."* > — Phil Trammell La conversación gira luego hacia las tasas de descuento y los tipos de interés. Si el crecimiento impulsado por la IA es extremadamente rápido, el consumo a corto plazo resulta barato en relación con el consumo futuro, lo que debería en teoría reducir los incentivos al ahorro y comprimir los tipos de interés. Pero los agentes con descuento hiperbólico y los orientados a la acumulación pueden no responder a las señales de precio de forma estándar, y ambos invitados reconocen que están en la frontera de lo que los modelos económicos pueden resolver con claridad. ## [61:28] ¿Qué deberían hacer los países en desarrollo? Imas abre señalando que los países de renta media y en desarrollo están casi completamente ausentes de la economía de la IA dominante, una laguna que atribuye en parte a sí mismo y a su campo. Dos escenarios enmarcan el problema. En el optimista, los modelos de código abierto se difunden rápidamente y dan a Nigeria o la India un salto de capacidades a coste casi nulo, igual que la banca móvil superó la ausencia de infraestructura bancaria tradicional. En el pesimista, la IA automatiza la producción de materias primas en los países ricos, eliminando la escalera de exportaciones manufactureras que permitió industrializarse a las economías del este asiático. La variable clave es cuán concentrados permanezcan los beneficios. Alex traza la analogía con la electricidad: se produjo en monopolios naturales, pero las ganancias corriente abajo se difundieron ampliamente entre los usuarios en lugar de concentrarse en manos de las utilities. Si la IA sigue el mismo patrón —acceso mercantilizado, competencia aguas abajo— los países en desarrollo pueden ser beneficiarios netos. Si sigue el patrón de las redes sociales —donde unas pocas plataformas capturan la mayor parte del valor— la concentración agrava la desigualdad. Phil argumenta que los gobiernos de los países en desarrollo deberían plantearse fondos soberanos que inviertan pronto en cadenas de suministro de IA como cobertura frente al escenario del colapso de las exportaciones de materias primas. > *"Hay escenarios en los que la tecnología de IA se disemina hacia Nigeria y los países en desarrollo, nivelando el campo de juego y dándoles esencialmente un salto de capacidades. Y hay escenarios en los que no entrenan los modelos, no tienen el hardware y simplemente se quedan completamente atrás."* > — Alex Imas ## Entidades - **Alex Imas** (Persona): Director de Economía de AGI en Google DeepMind y Profesor de Economía en la Universidad de Chicago; estudia economía conductual e impactos macroeconómicos de la IA. - **Phil Trammell** (Persona): Jefe de Economía en Epoch e investigador en Stanford; trabaja en economía de la IA transformadora y filantropía paciente en el Global Priorities Institute. - **Dwarkesh Patel** (Persona): Presentador del Dwarkesh Podcast; entrevistas en profundidad en la intersección de ciencia, tecnología, economía y política. - **Sector relacional** (Concepto): Bienes y servicios en los que la presencia humana es intrínseca a la propuesta de valor —terapia, artesanía, espectáculos en vivo— que se prevé que ganen cuota económica a medida que la IA sature las producciones sustituibles. - **Teoría O-ring** (Concepto): Modelo de producción en el que un único componente poco fiable invalida todo el resultado; explica tanto los límites actuales de la automatización con IA como por qué los flujos de producción organizados para máquinas podrían excluir estructuralmente el trabajo humano. - **Cuota del capital** (Concepto): Fracción de la renta nacional que fluye hacia los propietarios del capital en lugar de hacia el trabajo; la magnitud central del episodio, con la tesis contraintuitiva de que la automatización plena puede reducirla en lugar de expandirla. - **Capital básico universal** (Concepto): Política de redistribución que da a los ciudadanos participaciones accionariales en activos productivos (incluidas empresas de IA) en lugar de efectivo; se argumenta que es políticamente más durable que la renta básica universal. - **Epoch** (Organización): Instituto de investigación centrado en los plazos de la IA y las previsiones macroeconómicas; Phil Trammell es su Jefe de Economía. - **Yale Budget Lab** (Organización): Centro de investigación que publica datos empíricos sobre los efectos de la IA en el mercado laboral; citado por no detectar ningún cambio de nivel en el desempleo de los trabajadores del conocimiento a mediados de 2026. - **Impuesto sobre el valor del suelo / impuesto georgista** (Concepto): Impuesto sobre el valor del suelo no mejorado; se debate como fuente de ingresos insuficiente para la redistribución en la era de la IA, porque la riqueza generada por esta se concentra en software y capacidad de cómputo, no en tierra.

#agi-economics#labor-share#automation

Chip design from the bottom up – Reiner Pope

1:20:19

EN/ZH

Watch with Captions

Dwarkesh Patelhace 2 meses

Chip design from the bottom up – Reiner Pope

Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

#chip-design#hardware#ai-accelerators

Reconstruyendo AlphaGo desde cero – Eric Jang

2:37:17

EN/ZH

Watch with Captions

Dwarkesh Patelhace 2 meses

Reconstruyendo AlphaGo desde cero – Eric Jang

Eric Jang pasó su sabbático reconstruyendo AlphaGo con herramientas modernas, y el resultado es un recorrido técnico de dos horas y media que sirve también como lente para entender cómo funciona el RL en la práctica, y por qué el enfoque ingenuo de policy gradient que usan los LLMs tiene límites fundamentales que MCTS elude. La conversación avanza desde las reglas del Go hasta MCTS, la arquitectura neuronal, el autoentrenamiento y los datos fuera de política, y termina con lo que Jang observó al ejecutar un bucle de investigación de IA automatizada en su propio proyecto. ## [00:00] Fundamentos del Go El Go no se venció a la búsqueda por fuerza bruta porque se resolviera, sino porque se aprendió a aproximar. Jang explica qué lo llevó a reconstruir AlphaGo: el misterio de cómo una red de diez capas puede amortizar el costo de un árbol de juego cuyo factor de ramificación hace que la búsqueda exhaustiva sea literalmente más grande que el número de átomos del universo. Los primeros minutos cubren las reglas del juego: control de territorio, libertades, capturas, ko, y la convención de puntuación Tromp-Taylor, que resuelve posiciones ambiguas de manera algorítmica en lugar de depender del consenso humano. La diferencia en la puntuación importa porque se traduce directamente en cómo las computadoras deben evaluar posiciones: un humano reconoce de un vistazo que un grupo está rodeado y acepta su suerte, mientras que una computadora necesita una regla inequívoca para contar las intersecciones disputadas al final de la partida. > *"Cuando vi los primeros avances de AlphaGo en 2014, 2015, 2016 y en adelante, fue profundo ver cuán inteligentes podían volverse los sistemas de IA y qué clase de complejidad computacional podían abordar con deep learning."* ## [08:06] Monte Carlo Tree Search En lugar de construir el árbol completo del juego (361 movimientos legales, partidas de 300 movimientos, un espacio de búsqueda que supera el número de átomos del universo), AlphaGo usa MCTS para seleccionar de forma iterativa qué ramas del árbol vale la pena expandir. La estructura de datos central es un nodo por estado del tablero, que almacena un conteo de visitas y un valor Q: el promedio acumulado de la tasa de victorias en todos los rollouts que pasan por ese nodo. La fórmula de selección de acción (PUCT) equilibra explotación y exploración: un bonus que crece logarítmicamente empuja al algoritmo hacia nodos poco visitados y luego decae a medida que se acumulan simulaciones y Q se vuelve confiable. Jang traza por qué este enfoque derivado de UCB acota el arrepentimiento, por qué el determinismo del Go hace que las probabilidades en MCTS sean artefactos del promediado de Monte Carlo y no de una estocasticidad real, y cómo el árbol de búsqueda puede podarse fusionando posiciones equivalentes por transposición. > *"El avance conceptual central de AlphaGo fue usar redes neuronales para hacer tratable este problema de búsqueda."* ## [31:53] Qué hace la red neuronal Dos redes reemplazan dos operaciones costosas dentro de MCTS. La red de valor mapea un estado del tablero a un escalar de probabilidad de victoria, evitando la necesidad de extender partidas hasta el estado terminal. La red de política genera una distribución sobre los movimientos legales, concentrando el árbol de búsqueda en los hijos prometedores y alejándolo de la larga cola de movimientos irrelevantes. Jang probó tanto ResNets como transformers en su reimplementación. Para el régimen de pocos datos de una configuración personal con GPU, las ResNets superaron a los transformers: los transformers necesitan atención global para conectar características del tablero que están lejos entre sí, pero también requieren más datos para aprender invarianzas locales. La intuición arquitectónica clave de KataGo fue agregar características globales explícitamente a través de la pila residual, de modo que los enfrentamientos en lados opuestos del tablero de 19x19 pudieran influirse mutuamente sin necesitar atención completa. > *"Para regímenes de pocos datos, mi experiencia es que las ResNets todavía superan a los transformers y te dan más por tu dinero con presupuestos más bajos."* ## [01:00:22] Autoentrenamiento El autoentrenamiento es donde AlphaGo pasa de no saber nada a un nivel sobrehumano. Después de cada partida, MCTS produce una distribución de movimientos más concentrada que el prior de la red de política, y esa distribución más afilada se convierte en el objetivo de entrenamiento para la cabeza de política. La red de política se destila hacia la salida de MCTS, lo que significa que cada generación siguiente de partidas parte de un prior mejor y obtiene más mejora por paso de búsqueda. Jang lo enmarca como escalado en tiempo de inferencia con un dividendo compuesto: destilar 1.000 pasos de simulación de MCTS en la red de política desplaza el punto de partida de la siguiente ronda de entrenamiento, de modo que otros 1.000 pasos dan una tasa de victoria que habría requerido más de 2.000 sin destilación. Y algo crucial: cada movimiento de cada partida genera un objetivo de supervisión, no solo el ganador, que es por qué la varianza de la señal de aprendizaje es mucho menor que con los enfoques ingenuos de policy gradient. > *"La belleza de cómo AlphaGo se entrena a sí mismo es que puede tomar este proceso de búsqueda final, el resultado del proceso de búsqueda, y decirle a la red de política: 'En lugar de que MCTS haga todo ese trabajo para llegar aquí, ¿por qué no lo predices directamente desde el principio?'"* ## [01:25:27] Enfoques alternativos de RL Jang construye un experimento mental cuidadoso: ¿qué pasaría si reemplazaras el objetivo de MCTS por el enfoque ingenuo de policy gradient que usan los LLMs: encontrar al ganador de la partida y reforzar todos los movimientos de esa partida? En una liga de 100 agentes igualmente emparejados donde uno logra un récord de 51-49 por un único movimiento decisivo, el conjunto de datos de entrenamiento está abrumadoramente diluido con movimientos que no aportan ninguna señal. Ese movimiento informativo queda enterrado entre unos 30.000 irrelevantes. Este problema de asignación de crédito es la raíz de por qué existen las funciones de ventaja y las líneas base en RL. Restar una línea base de valor convierte la señal de retorno bruta en una ventaja: cuánto mejor que el promedio fue cada acción, lo que reduce drásticamente la varianza del gradiente. Los métodos Q-learning y TD aproximan esa ventaja sin necesitar rollouts completos, que es por qué son importantes en dominios donde MCTS no está disponible. > *"Lo que importa es esto: por cada acción que tomamos, hicimos una búsqueda bastante exhaustiva con MCTS para ver si podíamos hacerlo mejor, y vamos a mejorar cada acción logrando que la red de política prediga ese resultado."* ## [01:45:36] Por qué MCTS no funciona para los LLMs La fórmula de exploración PUCT asume un espacio de acciones discreto y acotado, y una función de valor que generaliza entre posiciones. El Go cumple ambas condiciones. El razonamiento en LLMs no cumple ninguna: el vocabulario de tokens es tan grande que casi nunca se vuelve a visitar la misma secuencia parcial, y no existe una función de valor a nivel de posición que indique de forma confiable si una cadena de pensamiento parcialmente completada va por buen camino. Jang señala que los LLMs exhiben algo que superficialmente se parece a la búsqueda en árbol: reconsideración, retroceso, cautela, pero esto surge de un comportamiento en contexto y no de una construcción explícita de árbol. Deja abierta la posibilidad de que la búsqueda hacia adelante regrese de alguna forma, en particular para dominios como las matemáticas donde los estados intermedios tienen una estructura lógica más rígida. El cuello de botella fundamental es la ausencia de una función de valor confiable y eficiente a nivel de token. > *"En un LLM, lo más probable es que nunca vayas a muestrear el mismo hijo más de una vez. Si tienes varios pasos de razonamiento, porque el lenguaje es tan amplio y abierto, un conjunto discreto de acciones no es realmente una opción adecuada para un LLM."* ## [02:00:58] Entrenamiento fuera de política Dwarkesh plantea un enigma: todos los investigadores de IA advierten contra el entrenamiento fuera de política, pero AlphaGo Zero funciona bien con un gran replay buffer lleno de partidas generadas por versiones antiguas de la política. Jang lo resuelve desde la perspectiva de DAgger: lo que importa no es si los datos son estrictamente on-policy, sino si la distribución de estados en el buffer cubre los estados que la política actual visitará, más un vecindario razonable alrededor de ellos. El replay buffer funciona en AlphaGo porque los estados de partida de checkpoints recientes siguen estando cerca de la distribución de la política actual. El modo de fallo, etiquetar estados tan alejados de la política actual que el agente aprende acciones óptimas para posiciones que nunca alcanzará, es un riesgo real en robótica, donde el desplazamiento distribucional es severo. La receta práctica que surgió de sistemas como QT-Opt es usar datos fuera de política para modelar la recompensa y mantener el gradiente de política on-policy. > *"Lo que quieres en un algoritmo como este es tener principalmente estados que visitarías, pero luego un porcentaje pequeño o razonable de estados en este tubo de alta dimensión alrededor de tus trayectorias óptimas."* ## [02:11:51] El RL es aún más ineficiente de lo que pensabas Dwarkesh expone un argumento de ineficiencia en dos dimensiones. La primera es la que todos conocen: el RL con policy gradient requiere rollouts de trayectoria completa antes de que llegue cualquier señal de aprendizaje, de modo que a medida que los agentes abordan tareas de mayor horizonte, las muestras por FLOP se desploman. La segunda dimensión es la de bits por muestra. Al principio del entrenamiento, un LLM con un vocabulario de 100.000 tokens que tiene que descubrir "blue" por muestreo aleatorio necesita del orden de 100.000 rollouts para ver un solo éxito, mientras que la función de pérdida de entropía cruzada supervisada le dice al modelo exactamente cuánto se alejó su distribución de "blue" en cada paso. MCTS escapa de ambos problemas. Produce un objetivo de supervisión en cada movimiento individual, y ese objetivo es estrictamente mejor que la política actual, no una señal binaria de victoria/derrota distribuida entre miles de tokens. La observación de Jang: nunca te encuentras en una situación donde MCTS no da ninguna señal, salvo que la política ya haya convergido a igualar la distribución de MCTS. > *"Nunca estás en una situación en la que MCTS no te dé señal, a menos que tu distribución de MCTS converja exactamente a lo que predice tu red de política."* ## [02:22:05] Investigadores de IA automatizados Jang llevó gran parte de su proyecto de AlphaGo a través de un bucle automatizado de codificación con LLMs, y ofrece una visión de primera mano sobre dónde la automatización de la investigación en IA funciona y dónde todavía falla. En la optimización de hiperparámetros, los modelos actuales hacen trabajo genuino de nivel investigador junior: diagnostican problemas de flujo de gradiente, reescriben aumentaciones del cargador de datos y logran mejoras medibles de perplejidad con presupuestos fijos. En la ejecución de experimentos y la generación de gráficos, una descripción sencilla de la tarea genera un conjunto experimental completo con análisis. Lo que los modelos no pueden hacer de forma confiable es el pensamiento lateral: reconocer que una línea de investigación es estructuralmente poco prometedora y saltar a un enfoque diferente antes de acumular más experimentos sin salida. Jang se encontró con esto repetidamente: los modelos insistían en una línea sin salida en lugar de dar un paso atrás y preguntarse si esa era la dirección correcta. Su tesis es que esto es un problema de señal de entrenamiento: construir entornos de RL con el bucle externo adecuado, como el Go, puede ser lo que finalmente enseñe a los modelos a escapar de los callejones sin salida de la investigación. > *"Lo que encuentro es que los modelos cerrados actuales a los que el público puede acceder hoy no parecen ser especialmente buenos para seleccionar cuál debería ser el siguiente experimento en una línea de trabajo dada. No parecen capaces de dar un paso atrás y hacer el pensamiento lateral de: 'Espera, esta línea realmente no tiene sentido.'"* ## Entidades - **Eric Jang** (Persona): VP de IA en 1X Robotics; anteriormente investigador científico senior en Google Brain/DeepMind Robotics; reconstruyó AlphaGo durante su sabbático. - **Dwarkesh Patel** (Persona): Presentador del Dwarkesh Podcast; codesarrolla durante la entrevista el análisis de ineficiencia de RL en bits por FLOP. - **AlphaGo / AlphaZero** (Software): Sistemas de DeepMind para jugar al Go que combinan MCTS con redes neuronales profundas; el eje técnico del episodio. - **KataGo** (Software): Motor de Go de código abierto creado por David Wu (Jane Street) que logró una reducción de cómputo de 40x respecto a AlphaGo Zero; la implementación de referencia principal de Jang. - **Monte Carlo Tree Search (MCTS)** (Concepto): Algoritmo de búsqueda iterativo que equilibra explotación y exploración mediante UCB/PUCT; la lente analítica central del episodio. - **Problema de asignación de crédito** (Concepto): Dificultad en RL para determinar qué acciones de una trayectoria larga causaron un resultado positivo; motiva las funciones de ventaja, las líneas base y las redes de valor. - **DAgger** (Concepto): Algoritmo Dataset Aggregation; explica por qué los replay buffers en AlphaGo son aceptables siempre que los estados del buffer se mantengan cerca de la distribución de la política actual. - **Andrej Karpathy** (Persona): Citado por la frase "succionar supervisión por una pajita" para describir la señal de aprendizaje escasa del RL con policy gradient en trayectorias largas de tokens.

#alphago#monte-carlo-tree-search#reinforcement-learning

Por qué la IA todavía no reemplazará a los matemáticos – Terence Tao

4:12

EN/ZH

Watch with Captions

Dwarkesh Patelhace 4 meses

Por qué la IA todavía no reemplazará a los matemáticos – Terence Tao

Terence Tao reflexiona sobre el papel cambiante de la IA en las matemáticas y sostiene que, aunque automatizará muchas tareas rutinarias, no reemplazará por completo a los matemáticos humanos, sino que desplazará su enfoque hacia nuevas fronteras. Subraya el futuro de la colaboración humano-IA y la naturaleza impredecible del impacto a largo plazo de la IA en el descubrimiento científico. ## [00:10] El papel actual de la IA en las matemáticas de frontera Terence Tao explica que la IA ya está haciendo «matemáticas de frontera» que los humanos no pueden realizar, aunque se trata de un tipo distinto de frontera. Lo compara con cómo las calculadoras expandieron las capacidades matemáticas en el pasado: asumieron tareas más allá del alcance humano, pero de un modo especializado. > *En cierto modo, ya están haciendo matemáticas de frontera superinteligentes que los humanos no pueden hacer, pero es una frontera distinta a la que estamos acostumbrados.* ## [00:52] La IA como herramienta de automatización, no de reemplazo Tao predice que, en una década, la IA se ocupará de muchas tareas rutinarias que hoy realizan los matemáticos, permitiendo a los humanos concentrarse en problemas más complejos e importantes. Traza paralelismos con cambios históricos: los ordenadores automatizaron trabajos antes realizados por «computadoras humanas», y la secuenciación del genoma se automatizó sin que la genética dejara de evolucionar a nuevas escalas. > *En una década, muchas cosas que los matemáticos hacen actualmente… podrán hacerse con IA. Pero descubriremos que eso no era, en realidad, la parte más importante de lo que hacemos.* ## [02:46] El futuro de la colaboración humano-IA en matemáticas Dwarkesh Patel pregunta sobre la posibilidad de que la IA resuelva de forma autónoma los Problemas del Milenio. Terence Tao cree que el «híbrido humano más IA» dominará las matemáticas durante mucho más tiempo, pues la IA actual aún carece de todos los ingredientes necesarios para reemplazar por completo las tareas intelectuales y funciona más bien como una herramienta complementaria. > *Creo, de verdad, que ese híbrido humano más IA va a dominar las matemáticas durante mucho más tiempo.* ## [03:43] Impacto impredecible en el descubrimiento científico Tao reconoce que, si bien la IA acelerará la ciencia y los nuevos descubrimientos, también existe la posibilidad de que inhiba ciertos tipos de progreso al «destruir la serendipia». Concluye que el impacto futuro de la IA en el descubrimiento científico es altamente impredecible. > *Es posible que, al destruir de algún modo la serendipia, acabemos inhibiendo ciertos tipos de progreso.* ## Entidades - **Terence Tao** (Persona): invitado, matemático destacado de nuestra época. - **Dwarkesh Patel** (Persona): presentador del pódcast. - **IA (AI)** (Concepto): inteligencia artificial, discutida en su papel en las matemáticas y el descubrimiento científico. - **Mathematica / Wolfram Alpha** (Software): herramientas de cálculo mencionadas como ejemplos de automatización en matemáticas. - **Problemas del Milenio (Millennium Prize Problems)** (Concepto): siete problemas matemáticos no resueltos, con un premio de un millón de dólares por cada solución.

#ai#mathematics#terence-tao

Terence Tao – Cómo usa la IA el mejor matemático del mundo

1:23:44

EN/ZH

Watch with Captions

Dwarkesh Patelhace 4 meses

Terence Tao – Cómo usa la IA el mejor matemático del mundo

Tao y Dwarkesh usan el descubrimiento del movimiento planetario de Kepler como lente para examinar qué está cambiando realmente la IA en la ciencia. Tao argumenta que la generación de hipótesis ahora es casi gratuita, por lo que el cuello de botella se desplaza hacia la evaluación, la revisión por pares y la prueba del tiempo. Las IA actuales ganan en amplitud (prueban cada técnica estándar en cada problema) mientras los humanos ganan en profundidad (construyen acumulativamente sobre el progreso parcial), así que las configuraciones híbridas dominarán la matemática al menos durante otra década. ## [00:00] Kepler era un LLM de alta temperatura Tao recuenta cómo llegó Kepler a las tres leyes del movimiento planetario. Kepler partió de una teoría errónea pero bella —sólidos platónicos inscritos entre las órbitas de los planetas— y solo la abandonó tras procesar durante años las observaciones a simple vista robadas a Tycho Brahe. Las elipses, la ley de las áreas iguales y la relación cubo-cuadrado surgieron de un análisis de datos que duró una década, con la explicación de Newton un siglo después. La lectura de Dwarkesh: Kepler se parece a un LLM de alta temperatura que recorre relaciones aleatorias contra un conjunto de datos verificable. Tao coincide en la mecánica pero matiza el cuello de botella. La generación de ideas ya era barata: Kepler no carecía de teorías. Lo que necesitaba eran los datos de Brahe, un orden de magnitud mejores, y la paciencia para descartar las ideas que los datos refutaban. > *Pero como tú dices, tiene que ir acompañado de una cantidad igual de verificación, de lo contrario es basura.* ## [11:44] ¿Cómo sabríamos si hay un nuevo concepto unificador entre montones de basura generada por IA? Tao: si la IA ha llevado la generación de ideas a un coste casi nulo, la revisión por pares y la prueba del tiempo se convierten en la nueva restricción. Las revistas ya se ahogan en envíos generados por IA. El valor de cualquier idea depende de lo que la ciencia posterior haga con ella —Copérnico era menos preciso que Ptolomeo hasta que Kepler completó el cuadro—, así que la evaluación es difícil de automatizar desde dentro del momento. Dwarkesh pregunta cómo identificaría la ciencia un concepto unificador al estilo Bell Labs —el bit de Shannon, el transformer— enterrado entre millones de papers mediocres. La respuesta de Tao apunta a la parte que quizás siga siendo humana: los científicos no solo producen teorías, construyen relatos que convencen a otros científicos de invertir años en el seguimiento. La prosa de Darwin hizo el trabajo que las ecuaciones latinas de Newton no hacían. > *La IA ha reducido el coste de la generación de ideas a casi cero, de manera muy similar a como internet redujo el coste de la comunicación a casi cero.* ## [26:10] El excedente deductivo Tao sobre la señal inexplorada en los datos existentes. La astronomía ha sido la disciplina que extrae el máximo de información del mínimo de datos durante siglos, lo que también explica por qué los fondos cuantitativos contratan preferentemente a doctorados en astronomía. Pone un ejemplo favorito: investigadores midieron con qué frecuencia los científicos realmente leían los papers que citaban rastreando qué erratas se propagaban a través de las cadenas de citas. Propone aplicar el mismo enfoque sociológico de la ciencia al propio progreso de la IA: analizar patrones de citas, menciones en conferencias y otras huellas para detectar si un resultado constituyó realmente un avance, en lugar de esperar a que la prueba del tiempo lo haga lentamente. > *Una conclusión fue que el excedente deductivo en muchos campos podría ser mucho mayor de lo que la gente cree.* ## [30:31] El sesgo de selección en los descubrimientos de IA publicados La IA ha resuelto aproximadamente 50 de los ~1.100 problemas de Erdős y luego se ha estancado. Tao explica el efecto de selección: esos 50 tenían literatura casi nula —bastaba con una técnica oscura más un resultado conocido—, y las herramientas de IA son excelentes para "probar cada combinación estándar." Cuando el problema tiene el 80% del trabajo hecho por métodos existentes, la IA lo supera. Cuando necesita una técnica genuinamente nueva, las herramientas se detienen, y la tasa de éxito por problema en los barridos sistemáticos es del 1-2%. La metáfora de Tao: las herramientas de IA son robots saltadores sueltos en una cordillera, en la oscuridad. Pueden superar muros bajos que los humanos no alcanzan, pero no pueden agarrar un saliente, quedarse ahí y ascender desde el progreso parcial. La lectura optimista —una vez que las IA alcanzan un nivel determinado, puedes ejecutar un millón de copias en paralelo sobre un millón de problemas, algo que ninguna comunidad humana puede hacer— es también la razón estructural por la que la ciencia necesita nuevos paradigmas que realmente aprovechen la amplitud. > *Destacan en amplitud, y los humanos destacan en profundidad, al menos los expertos humanos.* ## [46:43] La IA hace los papers más ricos y amplios, pero no más profundos Tao sobre su propio modo de trabajo: los papers ahora incluyen más código, más figuras y revisiones bibliográficas más profundas, porque las tareas auxiliares se han abaratado unas 5 veces. El núcleo real —resolver la parte más difícil de un problema— sigue ocurriendo con papel y bolígrafo. Dudaría en llamarse "2 veces más productivo" porque la métrica no es unidimensional; lo que cambió es el tipo de paper que escribe, no la tasa a la que responde la pregunta con la que comenzó. La distinción entre astucia e inteligencia llega al mismo punto. Cuando dos humanos colaboran en un problema de matemáticas, cada prototipo fallido se convierte en un punto de apoyo para el siguiente. Con las IA actuales, una nueva sesión olvida lo que descubrió la anterior. Falta el paso de elevación acumulativa: solo existe la prueba y error bruta y, eventualmente, la absorción en la siguiente fase de entrenamiento. > *Ha hecho los papers más ricos y amplios, pero no necesariamente más profundos.* ## [53:00] Si la IA resuelve un problema, ¿pueden los humanos extraer comprensión de eso? ¿Podría una IA demostrar la hipótesis de Riemann en Lean y dejarnos sin comprensión? Tao no está preocupado. Lean tiene la propiedad de que cualquier prueba puede descomponerse de forma atómica: cada lema puede inspeccionarse, ablacionarse y verificarse de forma aislada. Así que incluso una prueba generada de 3.000 líneas se convierte en materia prima: otras IA pueden refactorizarla para ganar elegancia, otros humanos pueden extraer el contenido conceptual, y el artefacto sigue siendo útil aunque la derivación original fuera opaca. Predice toda una profesión de matemáticos cuyo trabajo sea desmontar grandes pruebas generadas por Lean y encontrar las ideas dentro de ellas —una especie de arqueología de pruebas, con juicio humano y herramientas de ablación por IA. > *Sacarás mucho más partido de la interacción de los humanos colaborando con estas herramientas.* ## [59:20] Necesitamos un lenguaje semiformal para la manera en que los científicos realmente se hablan entre sí Dwarkesh pregunta cómo sería un lenguaje semiformal para estrategias matemáticas —en contraposición a pruebas matemáticas—. Tao recorre la pregunta a través del teorema de los números primos de Gauss —la primera conjetura estadística importante de las matemáticas, derivada de datos brutos antes de que existiera ninguna prueba— y de la conjetura de los primos gemelos, en la que los matemáticos creen porque el modelo aleatorio de los primos la predice. Las matemáticas tienen tanto pruebas rigurosas como heurísticas rigurosas; solo el lado de las pruebas se ha formalizado en algo que Lean puede verificar. El motivo por el que el lado heurístico no se ha formalizado: cualquier evaluador comprobable mediante RL se convierte en objetivo de explotación, y la parte subjetiva de "este argumento es convincente" no admite aún un marco que pueda ser atacado. Tao desearía contar con una manera de evaluar la generación de conjeturas y la selección de estrategias a escala, posiblemente ejecutando IA pequeñas en universos matemáticos de juguete y observando qué estrategias emergen. > *Hay algún aspecto subjetivo de la ciencia que no sabemos cómo capturar de una manera que nos permita insertar la IA en él de forma útil.* ## [69:48] Cómo ocupa su tiempo Terry Tao sobre cómo absorbe nuevos subcampos. Se ubica como un zorro en el sentido de Berlin —sabe un poco de todo, y ocasionalmente se vuelve erizo cuando es necesario. El motor es una obsesión completista: si otro matemático puede demostrar un resultado con una técnica que él no conoce, tiene que descubrir cuál es el truco. (Tuvo que dejarse los videojuegos por la misma razón.) La colaboración con otros matemáticos es el vehículo principal, y escribir en su blog es el apoyo de memoria que desarrolló después de perder repetidamente argumentos seis meses después de haberlos derivado. En su agenda, Tao deja espacio deliberado para la serendipia. Detestaria optimizar su tiempo tan exhaustivamente que nunca asistiera a una reunión fuera de su zona de confort. El año que pasó en el Instituto de Estudios Avanzados confirmó la trampa: dos semanas de investigación pura fueron excelentes, luego se le agotó la inspiración. El descubrimiento accidental en el siguiente estante de la biblioteca, la conversación casual en el pasillo y la reunión a la que asistió a regañadientes estaban haciendo más trabajo del que parecía. > *Esas interacciones fortuitas puede que no parezcan óptimas, pero en realidad son muy importantes.* ## [77:05] Los híbridos humano-IA dominarán la matemática por mucho más tiempo ¿Cuándo hará la IA las matemáticas por sí sola? Tao lo reencuadra: la IA ya hace matemáticas que los humanos no pueden hacer, desde las calculadoras, solo en una frontera diferente. En aproximadamente una década espera que gran parte de lo que actualmente hacen los estudiantes de posgrado —aplicar técnicas estándar, revisar la literatura— pase a la IA, pero el campo subirá de nivel como lo hizo cuando los sistemas de álgebra computacional absorbieron la integración simbólica. La genética no terminó cuando la secuenciación se abarató; escaló hasta los ecosistemas. Las matemáticas harán lo mismo. Su consejo a los estudiantes que ingresan hoy en matemáticas: asumir el cambio, pero obtener las credenciales a la manera tradicional, porque por ahora no hay sustituto para trabajar las matemáticas por el camino clásico. Al mismo tiempo, ser lo suficientemente adaptable para utilizar modos de investigación completamente nuevos a medida que aparezcan, incluidos los que aún no existen. El hecho inusual es que con herramientas de IA y Lean, un estudiante de secundaria puede contribuir hoy a la investigación matemática real, algo que no era posible hace cinco años. > *Creo que los híbridos de humanos más IA dominarán las matemáticas por mucho más tiempo.* ## Entidades - **Terence Tao** (Persona): Medallista Fields (2006), matemático de la UCLA, escribe con regularidad sobre el papel de la IA en la investigación matemática. - **Dwarkesh Patel** (Persona): Presentador del Dwarkesh Podcast; entrevistas en profundidad sobre IA, ciencia y tecnología. - **Johannes Kepler** (Persona): Astrónomo (1571-1630) que derivó las tres leyes del movimiento planetario a partir de las observaciones de Tycho Brahe. - **Tycho Brahe** (Persona): Astrónomo danés de observación a simple vista cuyas décadas de observaciones planetarias fueron el conjunto de datos que Kepler necesitaba. - **Lean** (Software): Asistente de pruebas en el que las demostraciones matemáticas se formalizan y pueden verificarse, descomponerse y ablacionarse de forma atómica. - **Erdős problems** (Concepto): Los aproximadamente 1.100 problemas abiertos planteados por Paul Erdős; la IA ha resuelto ~50, casi todos con literatura previa casi nula. - **El excedente deductivo** (Concepto): La idea de que los datos existentes ya codifican mucho más conocimiento derivable del que se ha extraído, con la astronomía como modelo. - **Hipótesis de Riemann** (Concepto): Conjetura no resuelta sobre la distribución de los números primos; el caso de prueba para saber si una demostración por IA avanzaría la comprensión matemática humana.

#ai-for-math#terence-tao#kepler

PodcastsHear the voice. See the shape of the thought.

Explorar Canales

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, & Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

What does the next training paradigm look like?

Machiavelli is the most misunderstood thinker of all time – Ada Palmer

Sarah Paine - Why Putin and Xi can't escape geography

Cuanto mejor se vuelve la IA, más pequeña puede volverse su parte de la economía – Alex Imas y Phil Trammell

Chip design from the bottom up – Reiner Pope

Reconstruyendo AlphaGo desde cero – Eric Jang

Por qué la IA todavía no reemplazará a los matemáticos – Terence Tao

Terence Tao – Cómo usa la IA el mejor matemático del mundo

PodcastsHear the voice. See the shape of the thought.

Explorar Canales

Lenny's Podcast

a16z

All-In Podcast

The Diary Of A CEO

AI Engineer

Machine Learning Street Talk

Google DeepMind

Lex Fridman

No Priors: AI, Machine Learning, Tech, &amp; Startups

Unsupervised Learning: With Jacob Effron

Sequoia Capital

Dwarkesh Patel

Yannic Kilcher

20VC with Harry Stebbings

Every

Anthropic

Latent Space

Bloomberg Originals

Claude

What does the next training paradigm look like?

Machiavelli is the most misunderstood thinker of all time – Ada Palmer

Sarah Paine - Why Putin and Xi can't escape geography

Cuanto mejor se vuelve la IA, más pequeña puede volverse su parte de la economía – Alex Imas y Phil Trammell

Chip design from the bottom up – Reiner Pope

Reconstruyendo AlphaGo desde cero – Eric Jang

Por qué la IA todavía no reemplazará a los matemáticos – Terence Tao

Terence Tao – Cómo usa la IA el mejor matemático del mundo

No Priors: AI, Machine Learning, Tech, & Startups