LaiDub

Podcasts

Quanto mais capaz a IA se torna, menor pode ser a sua fatia da economia – Alex Imas e Phil Trammell
1:16:08
EN/ZH
Watch with Captions
Dwarkesh Patelhá 6 dias

Quanto mais capaz a IA se torna, menor pode ser a sua fatia da economia – Alex Imas e Phil Trammell

Os economistas Alex Imas (Google DeepMind / Universidade de Chicago) e Phil Trammell (Epoch / Stanford) argumentam que o resultado mais contraintuitivo da automação total não é o capital capturar tudo — é que a IA poderia de fato encolher sua própria presença econômica, à medida que a demanda satura nos bens totalmente automatizados enquanto os humanos continuam escassos nos mercados relacionais e experienciais. A conversa percorre o que permanecerá escasso após a AGI, passa pela política de redistribuição, explica por que as complementaridades em cadeia freiam a automação atual, por que agentes de IA com preferências orientadas ao acúmulo podem vir a deter a maior parte da riqueza futura, e o que economias em desenvolvimento devem fazer quando ficam de fora da cadeia de fornecimento de IA. ## [00:00] A participação do capital vai aumentar? Dwarkesh abre com o dilema central: se a IA pode fazer tudo o que humanos fazem, para onde vai a fatia da renda destinada ao trabalho? Alex Imas começa observando que economistas que tentaram prever transições industriais passadas erraram com frequência — David Ricardo previu desemprego em massa com a Revolução Industrial e acertou na direção sobre quais empregos desapareceriam, mas errou completamente no resultado agregado: o emprego em idade ativa em 2026 é maior do que em quase qualquer ponto desde 2000. A lição é que economistas que estudam mudanças estruturais subestimam sistematicamente novas variedades de bens e empregos que surgem quando velhos custos desaparecem. Imas apresenta o que chama de "setor relacional" — bens e serviços em que a presença humana é parte do valor em si. Como os humanos são naturalmente finitos, a automação que satura todo o restante infla a escassez relativa e o preço dos produtos que mantêm o humano no processo. Phil Trammell aprofunda o argumento com uma análise contábil da cadeia de suprimentos: observando as participações dos fatores ajustadas pela rede em qualquer bem — rastreando insumos de trabalho e capital até as matérias-primas — percebe-se que a parcela do trabalho já é surpreendentemente resiliente. O paradoxo é que, se a IA satura todos os bens não relacionais a custo marginal próximo de zero, os consumidores esgotam rapidamente sua demanda por esses bens e direcionam seus gastos para o que ainda é escasso. Um espetáculo de balé não fica mais barato só porque o software é gratuito. > *"Então, como os humanos são naturalmente escassos, se tivermos automação em que muitas outras coisas deixam de ser escassas, ainda teremos escassez nas coisas em que os humanos estão de alguma forma envolvidos e no processo."* > — Alex Imas Trammell estende o argumento para a própria participação do capital: automatize totalmente uma cadeia de fornecimento para todos os bens não humanos, sature a demanda rapidamente, e a utilidade marginal de mais desses bens colapsa em direção a zero. O resultado é que a participação do capital no valor pode de fato encolher em vez de crescer — a tese contraintuitiva central do episódio. ## [19:36] O cenário do Meio Bagunçado Dwarkesh levanta a tese do "meio bagunçado" de Molly Kinder: um mundo em que a IA não causa catástrofe, mas cria um aperto distributivo prolongado — as empresas capturam os ganhos de produtividade, os trabalhadores enfrentam estagnação salarial e a redistribuição governamental não acompanha o ritmo do deslocamento. A analogia histórica é a das telefonistas: uma profissão totalmente automatizável por tecnologia que já existia nos anos 1960, mas que levou duas décadas para ser automatizada por causa da inércia institucional. Os trabalhadores não foram demitidos da noite para o dia; foram gradualmente reabsorvidos — sobretudo com salários mais baixos e em situação de subemprego. Imas considera o meio bagunçado plausível no curto prazo, mas provavelmente não permanente, porque a escala dos ganhos de produtividade da IA torna o bolo grande o suficiente para ser distribuído. O problema de economia política não é a escassez de recursos, mas a velocidade e a coordenação: os governos não sabem quais trabalhadores foram deslocados pela IA em vez de outras causas, restrições políticas criam fricção, e o intervalo entre o deslocamento e a redistribuição pode ser longo o suficiente para causar danos sérios, mesmo quando as contas no fim das contas fecham. > *"As telefonistas foram completamente automatizadas, mas levou 20 anos mesmo com a tecnologia existindo — e por isso houve esse gotejamento — não foi como se um setor gigante simplesmente desaparecesse."* > — Alex Imas ## [25:57] Como tributar e redistribuir a riqueza gerada pela IA Imas mapeia o conjunto de ferramentas de redistribuição em dois eixos: complexidade de implementação e tempo até o impacto. Um imposto de renda negativo entra em vigor no dia em que é aprovado e oferece um piso imediato. O capital básico universal — distribuir a cada cidadão ações em empresas de IA — leva anos para gerar retornos. O UBI fica em algum ponto intermediário. O dilema não é apenas de velocidade; é também de durabilidade política. Programas que tornam os cidadãos dependentes de um cheque direto do governo são vulneráveis a quem quer que ganhe a próxima eleição, ao passo que a propriedade acionária de base ampla é mais difícil de expropriar porque os ativos estão distribuídos. Trammell separa a questão da receita da questão da distribuição: como se arrecada o dinheiro (imposto sobre patrimônio, ganhos de capital, imposto sobre valor da terra, imposto corporativo) é analiticamente distinto de como se devolve (dinheiro, ações, serviços públicos). Ele observa que um imposto georgista sobre o valor da terra é frequentemente discutido, mas seria insuficiente para financiar a redistribuição na escala necessária quando a riqueza gerada pela IA está concentrada em software e capacidade de processamento, não em terra. Phil sugere que a distribuição ampla de participações acionárias em empresas de IA, adquiridas com receita tributária, poderia ser ao mesmo tempo politicamente estável e economicamente eficiente. > *"Hoje somos dotados de trabalho que pode se transformar em renda — quando isso não for mais o caso e estivermos à mercê do funcionário eleito para necessidades básicas."* > — Alex Imas ## [30:02] Por que o colapso da demanda é improvável Dwarkesh pressiona sobre a narrativa do apocalipse dos trabalhadores de colarinho branco: há algum dado mostrando desemprego em massa induzido por IA já acontecendo? Imas aponta para os dados do Yale Budget Lab, que encontra no máximo um sinal fraco — as contratações de engenheiros de software júnior estão modestamente abaixo da tendência, enquanto a demanda por engenheiros sênior está estável ou em alta. Nenhuma mudança de patamar no desemprego apareceu nos setores de colarinho branco. Uma explicação é a complementaridade em cadeia (discutida mais no próximo capítulo), mas outra é comportamental: as empresas estão adotando a IA de forma performática — demitindo pessoas ou maximizando o uso de tokens para sinalizar modernidade, às vezes com custo real para a produtividade. A questão mais ampla sobre a demanda é se o software obedece às mesmas regras de elasticidade que os bens físicos. Você come o suficiente e para; mas você algum dia para de querer mais software? Imas e Dwarkesh argumentam que o software pode ser genuinamente elástico o suficiente para que a demanda acompanhe a queda dos preços — a história da computação sugere que o processamento mais barato consistentemente gerou mais demanda em vez de fazê-la colapsar. O principal risco é em bens específicos onde a saturação é rápida, não na demanda agregada por trabalho. > *"Pode haver um pequeno sinal de que os desenvolvedores júnior estão conseguindo emprego menos do que antes — mas isso é 'menos do que antes', não uma mudança de patamar; na verdade, há uma demanda maior por engenheiros de software sênior, se algo."* > — Alex Imas ## [39:26] Funcionários humanos seriam difíceis de integrar à economia das máquinas O modelo da peça O-ring — batizado em referência ao desastre do ônibus espacial Challenger, em que um componente com falha destruiu tudo — explica tanto por que a automação por IA atual é mais lenta do que o esperado quanto por que a automação futura pode excluir estruturalmente os humanos. Hoje, é possível automatizar 90% de um fluxo de trabalho jurídico ou contábil, mas os clientes ainda querem um humano para aprovar o resultado, porque um único ponto de falha pode invalidar todo o produto. Essa restrição de confiabilidade mantém os humanos empregados mesmo quando a capacidade da IA é alta. Phil Trammell vira a lógica para frente: à medida que a IA se torna boa o suficiente para que os fluxos de produção sejam organizados inteiramente em torno do trabalho de máquinas — agentes conversando em velocidade de máquina, em representações nativas de máquina — o custo de transação de inserir um humano no processo se torna o gargalo. Mesmo que um humano tenha vantagem comparativa em alguma tarefa específica, a sobrecarga de coordenação e a incompatibilidade de confiabilidade tornam mais barato contorná-lo. A peça O-ring funciona nos dois sentidos. > *"Além dos argumentos sobre como os humanos serão mais caros ou menos capazes ou o que for — além disso — haverá fluxos de produção inteiros organizados para o trabalho de IA, em que eles falam em redes neurais, pensam milhares de vezes mais rápido."* > — Dwarkesh Patel ## [43:08] E se alguns humanos (ou IAs) valorizarem o acúmulo de riqueza por si mesmo? O capítulo mais longo cobre o território mais especulativo. Dwarkesh observa que a evolução selecionou humanos com preferências específicas — acúmulo de recursos, status, reprodução — que hoje moldam uma economia mundial de 100 trilhões de dólares. Os agentes de IA serão moldados por pressões de seleção análogas: aqueles treinados ou implantados de formas que favorecem o acúmulo vão superar e sobreviver aos outros. Isso não exige um desalinhamento catastrófico; é a lógica normal da reprodução diferencial aplicada a um novo substrato. Phil Trammell trabalha a matemática do estado estacionário: se mesmo uma pequena fração da população — humana ou de IA — tem alta elasticidade de substituição entre consumo presente e futuro (ou seja, continua querendo mais capital em vez de saciar no consumo), então no longo prazo esses agentes detêm a maior parte da riqueza e determinam o que a economia produz. A participação do capital se aproxima de 1,0 não porque a IA é coletivamente gananciosa, mas porque a heterogeneidade de preferências somada ao efeito de capitalização envia os ativos para os acumuladores mais pacientes. > *"No longo prazo, eles terão a maior parte da riqueza — e a participação do capital no total será basicamente a participação do capital nos gastos dessa pessoa, que será igual a um."* > — Phil Trammell A conversa então se volta para taxas de desconto e taxas de juros. Se o crescimento impulsionado pela IA for extremamente rápido, o consumo de curto prazo é barato em relação ao consumo futuro, o que teoricamente deveria reduzir os incentivos à poupança e comprimir as taxas de juros. Mas os descontadores hiperbólicos e os agentes orientados ao acúmulo podem não responder aos sinais de preço de maneiras padrão, e ambos os convidados reconhecem que estão na fronteira do que os modelos econômicos conseguem resolver de forma limpa. ## [61:28] O que os países em desenvolvimento devem fazer? Imas abre observando que os países de renda média e em desenvolvimento estão quase totalmente ausentes da economia de IA convencional — uma lacuna que ele atribui em parte a si mesmo e à sua área. Dois cenários delimitam o problema. No otimista, modelos de código aberto se difundem rapidamente e dão à Nigéria ou à Índia um salto de capacidade a custo quase zero, assim como o banco móvel pulou a ausência de infraestrutura bancária tradicional. No pessimista, a IA automatiza a produção de commodities nos países ricos, eliminando a escada de exportação manufatureira que permitiu às economias do Leste Asiático se industrializar. A variável-chave é o quanto os benefícios permanecem concentrados. Alex usa a analogia da eletricidade: a eletricidade era produzida por monopólios naturais, mas os ganhos a jusante se difundiram amplamente para os usuários em vez de se concentrarem nas mãos das concessionárias. Se a IA seguir o mesmo padrão — acesso comoditizado, mercado a jusante competitivo — os países em desenvolvimento podem ser beneficiários líquidos. Se seguir o padrão das redes sociais — em que algumas plataformas capturam a maior parte do valor — a concentração agrava a desigualdade. Phil argumenta que os governos dos países em desenvolvimento devem considerar fundos soberanos de riqueza que invistam cedo nas cadeias de fornecimento de IA como proteção contra o cenário de colapso das exportações de commodities. > *"Há cenários em que a tecnologia de IA se dissipa para a Nigéria e os países em desenvolvimento — nivelando o campo de jogo — essencialmente dando a eles um salto de capacidade. E há cenários em que eles não treinam os modelos, não têm o hardware e simplesmente ficam completamente para trás."* > — Alex Imas ## Entidades - **Alex Imas** (Pessoa): Diretor de Economia de AGI no Google DeepMind e Professor de Economia na Universidade de Chicago; estuda economia comportamental e impactos macroeconômicos da IA. - **Phil Trammell** (Pessoa): Chefe de Economia no Epoch e pesquisador no Stanford; trabalha com economia de IA transformadora e filantropia de longo prazo no Global Priorities Institute. - **Dwarkesh Patel** (Pessoa): Apresentador do Dwarkesh Podcast; entrevistas aprofundadas na interseção de ciência, tecnologia, economia e política. - **Setor relacional** (Conceito): Bens e serviços em que a presença humana é intrínseca à proposta de valor — terapia, artesanato, espetáculos ao vivo — com previsão de ganhar participação econômica à medida que a IA satura as produções substituíveis. - **Teoria O-ring** (Conceito): Modelo de produção em que um único componente não confiável invalida todo o produto; explica tanto os limites atuais da automação por IA quanto por que fluxos de produção organizados em torno de máquinas no futuro podem excluir estruturalmente o trabalho humano. - **Participação do capital** (Conceito): A fração da renda nacional que flui para os proprietários de capital em vez do trabalho; a quantidade central do episódio, com a tese contraintuitiva de que a automação total pode reduzi-la em vez de ampliá-la. - **Capital básico universal** (Conceito): Política de redistribuição que distribui aos cidadãos participações acionárias em ativos produtivos (incluindo empresas de IA) em vez de dinheiro; argumenta-se ser mais duradoura politicamente do que o UBI. - **Epoch** (Organização): Instituto de pesquisa focado em cronogramas de IA e previsões macroeconômicas; Phil Trammell é Chefe de Economia lá. - **Yale Budget Lab** (Organização): Centro de pesquisa que publica dados empíricos sobre os efeitos da IA no mercado de trabalho; citado por não encontrar mudança de patamar no desemprego de colarinho branco até meados de 2026. - **Imposto sobre valor da terra / Imposto georgista** (Conceito): Imposto sobre o valor não melhorado da terra; discutido como fonte de receita insuficiente para a redistribuição na era da IA porque a riqueza gerada pela IA está concentrada em software e processamento, não em terra.

#agi-economics#labor-share#automation
Chip design from the bottom up – Reiner Pope
1:20:19
EN/ZH
Watch with Captions
Dwarkesh Patelhá 19 dias

Chip design from the bottom up – Reiner Pope

Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

#chip-design#hardware#ai-accelerators
Building AlphaGo from scratch – Eric Jang
2:37:17
EN/ZH
Watch with Captions
Dwarkesh Patelhá 26 dias

Building AlphaGo from scratch – Eric Jang

Eric Jang spent his sabbatical rebuilding AlphaGo with modern tools, and the result is a two-and-a-half-hour technical walkthrough that doubles as a lens on how RL actually works—and why the naive policy-gradient approach baked into LLM training has fundamental limits that MCTS sidesteps. The conversation moves from Go rules through MCTS, neural architecture, self-play training, and off-policy data, before landing on what Jang observed running an automated AI research loop on his own project. ## [00:00] Basics of Go Go defeated brute-force search not by being solved but by being approximated. Jang explains what drew him to rebuild AlphaGo: the mystery of how a ten-layer network can amortize the cost of a game tree whose branching factor makes exhaustive search literally larger than the number of atoms in the universe. The early minutes cover the rules—territory control, liberties, captures, ko—and the Tromp-Taylor scoring convention that resolves ambiguous positions algorithmically rather than relying on human consensus. The scoring difference matters because it maps directly onto how computers must evaluate positions: a human glances at a surrounded group and accepts its fate, while a computer needs an unambiguous rule to count contested intersections at the end of a game. > *"When I saw the early breakthroughs on AlphaGo in 2014, 2015, 2016 and so forth, it was profound to see how smart AI systems could become and the computational complexity class they could tackle with deep learning."* ## [08:06] Monte Carlo Tree Search Rather than building out the full game tree (361 legal moves, 300-move games, search space exceeding the atom count of the universe), AlphaGo uses MCTS to interactively select which tree branches are worth expanding. The core data structure is a node per board state, storing a visit count and a Q value—the running average win rate across all rollouts through that node. The action-selection formula (PUCT) balances exploitation with exploration: a logarithmically growing bonus pushes the algorithm toward under-visited nodes, then decays as simulations accumulate and Q becomes reliable. Jang traces why this UCB-derived approach bounds regret, why Go's determinism means the probabilities in MCTS are artifacts of Monte Carlo averaging rather than genuine stochasticity, and how the search tree can be pruned by merging transposition-equivalent positions. > *"AlphaGo's core conceptual breakthrough was using neural nets to make this search problem tractable."* ## [31:53] What the neural network does Two networks replace two expensive operations inside MCTS. The value network maps a board state to a win-probability scalar, short-circuiting the need to roll out games to terminal states. The policy network outputs a distribution over legal moves, focusing the search tree toward promising children and away from the long tail of irrelevant ones. Jang tried both ResNets and transformers on his reimplementation. For the small-data regime of a personal GPU setup, ResNets outperformed transformers—transformers need global attention to connect far-apart board features, but they also need more data to learn local invariances. KataGo's key architectural insight was pooling global features explicitly through the residual stack so that battles on opposite sides of the 19x19 board could influence each other without requiring full attention. > *"For small data regimes, my experience is that ResNets still outperform transformers and give you more bang for the buck at lower budgets."* ## [01:00:22] Self-play Self-play is where AlphaGo bootstraps from knowing nothing to superhuman strength. After every game, MCTS produces a sharpened move distribution—more peaked than the raw policy network's prior—and that sharpened distribution becomes the training target for the policy head. The policy network is being distilled toward the MCTS output, which means each subsequent generation of games starts from a better prior and gets more improvement per search step. Jang frames this as test-time scaling with a compounding dividend: distilling 1,000 MCTS simulation steps into the policy network shifts the starting point of the next training round, so a second 1,000 steps buys a win rate that would have required 2,000+ steps without distillation. Crucially, every move in every game generates a supervision target—not just the winner—which is why the variance of the learning signal is vastly lower than naive policy-gradient approaches. > *"The beauty of how AlphaGo trains itself is that it can actually take this final search process—the outcome of the search process—and tell the policy network, 'Hey, instead of having MCTS do all this legwork to arrive here, why don't you just predict that from the get-go?'"* ## [01:25:27] Alternative RL approaches Jang constructs a careful thought experiment: what if you replaced the MCTS objective with the naive policy-gradient approach LLMs use—find the game winner and reinforce all moves from that game? In a league of 100 evenly-matched agents where one squeaks out a 51-49 record due to a single critical move, the training dataset is overwhelmingly diluted with moves that carry no signal. The one informative move is buried in roughly 30,000 irrelevant ones. This credit-assignment problem is the root of why advantage functions and baselines exist in RL. Subtracting a value baseline converts the raw return signal into an advantage—how much better than average each action actually was—and dramatically reduces gradient variance. Q-learning and TD methods approximate that advantage without needing full rollouts, which is why they matter for domains where MCTS is unavailable. > *"Importantly, what it is doing is saying: for every action we took, we did a pretty exhaustive search on MCTS to see if we could do better, and we're going to make every action that we took better by having the policy network predict that outcome instead."* ## [01:45:36] Why doesn't MCTS work for LLMs The PUCT exploration formula assumes a bounded, discrete action space and a value function that generalizes across positions. Go satisfies both. LLM reasoning satisfies neither: the token vocabulary is so large that you will almost never revisit the same partial sequence, and there is no position-level value function that reliably tells you whether a partially completed chain of thought is on track to solve the problem. Jang notes that LLMs do exhibit something that superficially resembles tree search—reconsidering, backtracking, hedging—but this emerges from in-context behavior rather than explicit tree construction. He leaves open the possibility that forward search could return in some form, particularly for domains like mathematics where intermediate states have a more rigid logical structure. The fundamental bottleneck is the absence of a trustworthy, query-efficient value function at the token level. > *"In an LLM, you're most likely never going to sample the same child more than once. If you have multiple steps of thinking, because language is so broad and open-ended, a discrete set of actions is not really an appropriate choice for an LLM."* ## [02:00:58] Off-policy training Dwarkesh raises a puzzle: every AI researcher warns against off-policy training, yet AlphaGo Zero runs fine with a large replay buffer full of games generated by older policy versions. Jang resolves this through the DAgger lens: what matters is not whether data is strictly on-policy, but whether the distribution of states in the buffer covers the states the current policy will actually visit, plus a reasonable neighborhood around them. The replay buffer works in AlphaGo because game states from recent checkpoints still lie near the current policy's distribution. The failure mode—labeling states so far from the current policy that the agent learns optimal actions for positions it will never reach—is a real risk in robotics, where distributional shift is severe. The practical recipe that emerged from systems like QT-Opt is to use off-policy data for reward shaping while keeping the policy gradient on-policy. > *"What you want in an algorithm like this is to have mostly states that you would visit, but then a small or reasonable percentage of states in this high-dimensional tube around your optimal trajectories."* ## [02:11:51] RL is even more information inefficient than you thought Dwarkesh lays out a two-dimensional inefficiency argument. The first dimension is the one everyone knows: policy-gradient RL requires full trajectory rollouts before any learning signal arrives, so as agents tackle longer-horizon tasks, samples per FLOP collapse. The second dimension is bits per sample. Early in training, an LLM with a 100K-token vocabulary that has to discover "blue" by random sampling needs on the order of 100K rollouts just to see one success—whereas supervised cross-entropy loss tells the model exactly how far its distribution was from "blue" on every step. MCTS escapes both problems. It produces a supervision target at every single move, and that target is strictly better than the current policy—not merely a binary win/loss signal smeared across thousands of tokens. Jang's observation: you are never in a situation where MCTS gives you zero signal, unless the policy has already converged to match the MCTS distribution exactly. > *"You're never in a situation where the MCTS is giving you no signal, unless your MCTS distribution converges to exactly what your policy network predicts."* ## [02:22:05] Automated AI researchers Jang ran much of his AlphaGo project through an automated LLM coding loop, giving a ground-level account of where AI research automation succeeds and where it still fails. On hyperparameter optimization, current models do genuine grad-student work: they diagnose gradient flow problems, rewrite data-loader augmentations, and squeeze measurable perplexity improvements on fixed budgets. On experiment execution and plotting, a simple skill description generates a full experimental suite with analysis. What the models cannot reliably do is lateral thinking—recognizing that a research track is structurally unpromising and jumping to a different framing before accumulating more dead-end experiments. Jang ran into this repeatedly: models would grind down a dead-end track rather than stepping back and asking whether the track was the right one. His thesis is that this is a training signal problem—building RL environments with the right outer loop, like Go, may be what eventually teaches models to escape local research dead ends. > *"What I find is that the current closed models the public can access today don't seem to be that great at selecting what the next experiment should be in a given track. They don't seem to be able to step back and do the lateral thinking of, 'Wait a minute, this track doesn't really make sense.'"* ## Entities - **Eric Jang** (Person): VP of AI at 1X Robotics; previously senior research scientist at Google Brain/DeepMind Robotics; rebuilt AlphaGo on sabbatical. - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; co-develops the bits-per-FLOP RL inefficiency analysis during the interview. - **AlphaGo / AlphaZero** (Software): DeepMind's Go-playing systems combining MCTS with deep neural networks; the technical centerpiece of the episode. - **KataGo** (Software): Open-source Go engine by David Wu (Jane Street) that achieved 40x compute reduction over AlphaGo Zero; Jang's primary reference implementation. - **Monte Carlo Tree Search (MCTS)** (Concept): Iterative search algorithm balancing exploitation and exploration via UCB/PUCT; the episode's central analytical lens. - **Credit assignment problem** (Concept): Difficulty in RL of determining which actions in a long trajectory caused a positive outcome; motivates advantage functions, baselines, and value networks. - **DAgger** (Concept): Dataset Aggregation algorithm; explains why replay buffers in AlphaGo are tolerable as long as buffer states stay near the current policy's distribution. - **Andrej Karpathy** (Person): Referenced for the phrase "sucking supervision through a straw" describing policy-gradient RL's sparse learning signal over long token trajectories.

#alphago#monte-carlo-tree-search#reinforcement-learning
Por que a IA ainda não vai substituir os matemáticos – Terence Tao
4:12
EN/ZH
Watch with Captions
Dwarkesh Patelhá 2 meses

Por que a IA ainda não vai substituir os matemáticos – Terence Tao

Terence Tao discute o papel em evolução da IA na matemática e argumenta que, embora ela venha a automatizar muitas tarefas rotineiras, não substituirá por completo os matemáticos humanos — apenas deslocará o foco deles para novas fronteiras. Ele destaca o futuro da colaboração humano-IA e a natureza imprevisível do impacto de longo prazo da IA na descoberta científica. ## [00:10] O papel atual da IA na matemática de fronteira Terence Tao explica que a IA já está fazendo uma "matemática de fronteira" que os humanos não conseguem, embora seja um tipo diferente de fronteira. Ele compara isso a como as calculadoras expandiram as possibilidades matemáticas no passado: assumiram tarefas além da capacidade humana, mas de forma especializada. > *De certo modo, elas já estão fazendo matemática de fronteira super-inteligente que os humanos não podem fazer, mas é uma fronteira diferente daquela a que estamos acostumados.* ## [00:52] IA como ferramenta de automação, não como substituto Tao prevê que, em uma década, a IA assumirá muitas tarefas rotineiras hoje realizadas por matemáticos, permitindo que os humanos se concentrem em problemas mais complexos e importantes. Ele traça paralelos com transições históricas: os computadores automatizaram trabalhos antes feitos por "computadores humanos", e o sequenciamento de genomas tornou-se automático sem que a genética deixasse de evoluir em novas escalas. > *Em uma década, muita coisa que os matemáticos fazem hoje… poderá ser feita pela IA. Mas vamos descobrir que essa não era, de fato, a parte mais importante do que fazemos.* ## [02:46] O futuro da colaboração humano-IA na matemática Dwarkesh Patel pergunta sobre a possibilidade de a IA resolver autonomamente os Problemas do Prêmio do Milênio. Terence Tao acredita que o "híbrido humano mais IA" dominará a matemática por muito mais tempo, já que a IA atual ainda não tem todos os ingredientes necessários para substituir por completo as tarefas intelectuais — funcionando mais como uma ferramenta complementar. > *Eu realmente acredito que esse híbrido humano mais IA vai dominar a matemática por muito mais tempo.* ## [03:43] Impacto imprevisível sobre a descoberta científica Tao reconhece que, embora a IA vá acelerar a ciência e novas descobertas, também há a possibilidade de ela inibir certos tipos de progresso ao "destruir a serendipidade". Conclui que o impacto futuro da IA sobre a descoberta científica é altamente imprevisível. > *É possível que, ao destruir de algum modo a serendipidade, acabemos inibindo certos tipos de progresso.* ## Entidades - **Terence Tao** (Pessoa): convidado, um dos matemáticos mais proeminentes da nossa época. - **Dwarkesh Patel** (Pessoa): apresentador do podcast. - **IA (AI)** (Conceito): inteligência artificial, discutida no seu papel em matemática e descoberta científica. - **Mathematica / Wolfram Alpha** (Software): ferramentas computacionais citadas como exemplos de automação em matemática. - **Problemas do Prêmio do Milênio (Millennium Prize Problems)** (Conceito): sete problemas matemáticos não resolvidos, com prêmio de um milhão de dólares para cada solução.

#ai#mathematics#terence-tao
Terence Tao – Como o maior matemático do mundo usa IA
1:23:44
EN/ZH
Watch with Captions
Dwarkesh Patelhá 3 meses

Terence Tao – Como o maior matemático do mundo usa IA

Tao e Dwarkesh usam a descoberta de Kepler sobre o movimento planetário como lente para entender o que a IA está realmente mudando na ciência. Tao argumenta que gerar hipóteses é agora quase de graça, então o gargalo migra para a avaliação, a revisão por pares e o teste do tempo. As IAs atuais ganham em amplitude — tentam cada técnica padrão em cada problema — enquanto os humanos ganham em profundidade, acumulando avanços a partir de progresso parcial. Configurações híbridas vão dominar a matemática por pelo menos mais uma década. ## [00:00] Kepler era um LLM de alta temperatura Tao reconta como Kepler chegou às três leis do movimento planetário. Kepler partiu de uma teoria errada, porém bela — sólidos platônicos inscritos entre as órbitas dos planetas — e só a abandonou depois de anos analisando as observações a olho nu roubadas de Tycho Brahe. As elipses, a lei das áreas e a lei dos cubos emergiram de uma análise de dados que durou décadas, com a explicação de Newton chegando um século depois. O enquadramento de Dwarkesh: Kepler se parece com um LLM de alta temperatura que percorre relações aleatórias contra um conjunto de dados verificável. Tao concorda com a mecânica, mas questiona onde estava o gargalo. A geração de ideias já era barata — Kepler não faltavam teorias. O que ele precisava eram dos dados uma ordem de grandeza melhores que Brahe possuía e da paciência para descartar as ideias que os dados refutavam. > *Mas como você diz, isso tem que ser acompanhado por uma quantidade igual de verificação, caso contrário é lixo.* ## [11:44] Como identificar um novo conceito unificador em meio a toneladas de lixo gerado por IA? Tao: se a IA reduziu o custo de geração de ideias a quase zero, a revisão por pares e o teste do tempo se tornam a nova restrição. As revistas já estão se afogando em submissões geradas por IA. O valor de qualquer ideia depende do que a ciência posterior faz com ela — Copérnico era menos preciso do que Ptolomeu até Kepler completar o quadro — portanto a avaliação é difícil de automatizar de dentro do momento em que ocorre. Dwarkesh pergunta como a ciência identificaria um conceito unificador ao estilo Bell Labs — o bit de Shannon, o transformer — enterrado em milhões de artigos medíocres. A resposta de Tao aponta para o que pode permanecer humano: os cientistas não apenas produzem teorias, eles constroem narrativas que convencem outros cientistas a investir anos em desdobramentos. A prosa de Darwin fez o trabalho que as equações em latim de Newton não fizeram. > *A IA reduziu o custo de geração de ideias a quase zero, de forma muito semelhante a como a internet reduziu o custo de comunicação a quase zero.* ## [26:10] O excedente dedutivo Tao fala sobre o sinal inexplorado nos dados existentes. A astronomia é a disciplina que extrai o máximo de informação do mínimo de dados há séculos — o que também explica por que fundos de hedge quantitativos contratam preferencialmente PhDs em astronomia. Ele dá um exemplo favorito: pesquisadores mediram com que frequência os cientistas realmente leram os artigos que citam, rastreando quais erros tipográficos se propagavam pelas cadeias de citação. Ele sugere aplicar o mesmo tratamento da sociologia da ciência ao próprio progresso da IA — minerando padrões de citação, menções em conferências e outros rastros para detectar se um resultado realmente constituiu avanço, em vez de esperar que o teste do tempo o faça lentamente. > *Uma conclusão foi que o excedente dedutivo em muitos campos pode ser muito maior do que as pessoas percebem.* ## [30:31] Viés de seleção nas descobertas de IA relatadas A IA resolveu aproximadamente 50 dos cerca de 1.100 problemas de Erdős e depois estacionou. Tao explica o efeito de seleção: esses 50 tinham literatura quase inexistente — uma técnica obscura mais um resultado conhecido era suficiente, e as ferramentas de IA são excelentes em "tentar cada combinação padrão". Quando o problema tem 80% do trabalho feito por métodos existentes, a IA o resolve. Quando exige uma técnica genuinamente nova, as ferramentas param, e a taxa de sucesso por problema em varreduras sistemáticas é de 1 a 2%. A metáfora de Tao: as ferramentas de IA são robôs saltadores soltos em uma cordilheira, no escuro. Eles conseguem superar paredes baixas que os humanos não alcançam, mas não conseguem se agarrar a uma presa, permanecer ali e puxar a partir do progresso parcial. A leitura otimista — uma vez que as IAs atingem determinado nível, você pode rodar um milhão de cópias paralelas em um milhão de problemas, algo que nenhuma comunidade humana consegue fazer — é também a razão estrutural pela qual a ciência precisa de novos paradigmas que realmente explorem essa amplitude. > *Elas se destacam em amplitude, e os humanos se destacam em profundidade, os especialistas humanos ao menos.* ## [46:43] A IA torna os artigos mais ricos e amplos, mas não mais profundos Tao sobre seu próprio padrão de trabalho: os artigos agora trazem mais código, mais figuras, levantamentos bibliográficos mais aprofundados, porque as tarefas auxiliares ficaram cerca de 5 vezes mais baratas. O núcleo real — resolver a parte mais difícil de um problema — ainda acontece no papel. Ele reluta em se chamar "2 vezes mais produtivo" porque a métrica não é unidimensional; o que mudou é o tipo de artigo que ele escreve, não a velocidade com que responde à pergunta com que começou. A distinção entre habilidade e inteligência recai no mesmo lugar. Quando dois humanos colaboram em um problema matemático, cada protótipo fracassado se torna um ponto de apoio para o próximo. Com as IAs atuais, uma nova sessão esquece o que a anterior descobriu. A etapa cumulativa de avançar a partir do progresso anterior está ausente — restam apenas tentativa e erro brutos e, eventualmente, a absorção no próximo ciclo de treinamento. > *Isso tornou os artigos mais ricos e amplos, mas não necessariamente mais profundos.* ## [53:00] Se a IA resolve um problema, os humanos conseguem extrair compreensão disso? Uma IA poderia provar a hipótese de Riemann em Lean e nos deixar sem entender nada? Tao não está preocupado. O Lean tem a propriedade de que qualquer prova pode ser decomposta atomicamente — cada lema pode ser inspecionado, ablacionado e testado em isolamento. Assim, mesmo uma prova gerada de 3.000 linhas se torna matéria-prima: outras IAs podem refatorar em busca de elegância, outros humanos podem extrair o conteúdo conceitual, e o artefato ainda é útil mesmo que a derivação original seja opaca. Ele prevê uma profissão inteira de matemáticos cujo trabalho é desmontar provas gigantes geradas por Lean e encontrar as ideias dentro delas — uma espécie de arqueologia de provas, combinando julgamento humano com ferramentas de ablação por IA. > *Você vai extrair muito mais proveito da interação entre humanos colaborando com essas ferramentas.* ## [59:20] Precisamos de uma linguagem semiformal para a forma como os cientistas realmente se comunicam Dwarkesh pergunta como seria uma linguagem semiformal para estratégias matemáticas — em oposição a provas matemáticas. Tao traça a questão pelo teorema dos números primos de Gauss — a primeira conjectura estatística importante da matemática, derivada de dados brutos antes de qualquer prova existir — e pela conjectura dos primos gêmeos, em que os matemáticos acreditam porque o modelo aleatório dos primos a prediz. A matemática tem tanto provas rigorosas quanto heurísticas rigorosas; apenas o lado das provas foi formalizado em algo que o Lean pode verificar. O motivo pelo qual o lado heurístico não foi formalizado: qualquer avaliador verificável por aprendizado por reforço vira alvo de exploração, e o aspecto subjetivo de "esse argumento é convincente" ainda não admite uma estrutura que possa ser burlada. Tao adoraria uma forma de avaliar geração de conjecturas e seleção de estratégias em escala, possivelmente rodando pequenas IAs em universos matemáticos simplificados e observando quais estratégias emergem. > *Há um aspecto subjetivo da ciência que não sabemos como capturar de uma forma que permita inserir a IA de maneira útil.* ## [69:48] Como Terry usa seu tempo Tao sobre como absorve novos subcampos. Ele se posiciona como uma raposa no sentido de Berlin — sabe um pouco sobre tudo, mas vira ouriço quando necessário. O que o move é uma obsessão por completude: se outro matemático pode provar um resultado com uma técnica que ele não conhece, ele tem que descobrir qual era o truque. Ele teve que parar de jogar videogame pelo mesmo motivo. A colaboração com outros matemáticos é o principal veículo, e escrever no seu blog é o recurso de memória que desenvolveu depois de repetidamente perder argumentos seis meses após tê-los derivado. Na sua agenda, Tao deixa deliberadamente espaço para a serendipidade. Ele detestaria otimizar seu tempo a ponto de nunca sentar em uma reunião fora da sua zona de conforto. O ano que passou no Institute for Advanced Study confirmou a armadilha — duas semanas de pesquisa pura foram ótimas, depois ficou sem inspiração. A descoberta acidental na prateleira seguinte da biblioteca, a conversa informal no corredor e a reunião a que compareceu a contragosto faziam mais trabalho do que pareciam. > *Essas interações fortuitas podem não parecer ideais, mas são de fato muito importantes.* ## [77:05] Híbridos humano-IA vão dominar a matemática por muito mais tempo Quando a IA simplesmente fará matemática? Tao reenquadra a pergunta — a IA já faz matemática que os humanos não conseguem, como as calculadoras, só que em uma fronteira diferente. Em cerca de uma década, ele espera que grande parte do que os estudantes de pós-graduação fazem hoje — aplicar técnicas padrão, varrer a literatura — migre para a IA, mas o campo vai subir um nível assim como aconteceu quando os sistemas de álgebra computacional absorveram a integração simbólica. A genética não acabou quando o sequenciamento ficou barato; escalou para ecossistemas. A matemática vai fazer o mesmo. Seu conselho aos estudantes que ingressam na matemática agora: assuma que haverá mudanças, mas obtenha suas credenciais do jeito tradicional — por enquanto ainda não há substituto para trabalhar a matemática pelo caminho convencional. Ao mesmo tempo, fique adaptável o suficiente para usar modos inteiramente novos de pesquisa à medida que surgirem, incluindo os que ainda não existem. Um fato incomum é que, com ferramentas de IA e Lean, um estudante do ensino médio pode contribuir para pesquisa matemática real hoje, o que não era verdade há cinco anos. > *Acredito que os híbridos humano mais IA vão dominar a matemática por muito mais tempo.* ## Entidades - **Terence Tao** (Pessoa): Medalha Fields (2006), matemático da UCLA, escreve regularmente sobre o papel da IA na pesquisa matemática. - **Dwarkesh Patel** (Pessoa): Apresentador do Dwarkesh Podcast; entrevistas longas sobre IA, ciência e tecnologia. - **Johannes Kepler** (Pessoa): Astrônomo (1571-1630) que derivou as três leis do movimento planetário a partir das observações de Tycho Brahe. - **Tycho Brahe** (Pessoa): Astrônomo dinamarquês que fez décadas de observações planetárias a olho nu; seus dados foram essenciais para Kepler. - **Lean** (Software): Assistente de provas no qual provas matemáticas são formalizadas e podem ser verificadas, decompostas e ablacionadas atomicamente. - **Problemas de Erdős** (Conceito): Os aproximadamente 1.100 problemas em aberto propostos por Paul Erdős; a IA resolveu cerca de 50, quase todos com literatura anterior quase inexistente. - **O excedente dedutivo** (Conceito): A ideia de que os dados existentes já codificam muito mais conhecimento derivável do que foi extraído, tendo a astronomia como modelo. - **Hipótese de Riemann** (Conceito): Conjectura não resolvida sobre a distribuição dos primos; o caso de teste para saber se uma prova gerada por IA avançaria a compreensão matemática humana.

#ai-for-math#terence-tao#kepler