LaiDub

Podcasts

AI जितना बेहतर होता है, अर्थव्यवस्था में उसकी हिस्सेदारी उतनी ही घट सकती है – Alex Imas और Phil Trammell
1:16:08
EN/ZH
Watch with Captions
Dwarkesh Patel६ दिन पहले

AI जितना बेहतर होता है, अर्थव्यवस्था में उसकी हिस्सेदारी उतनी ही घट सकती है – Alex Imas और Phil Trammell

अर्थशास्त्री Alex Imas (Google DeepMind / शिकागो विश्वविद्यालय) और Phil Trammell (Epoch / स्टैनफोर्ड) यह तर्क देते हैं कि पूर्ण स्वचालन का सबसे अप्रत्याशित नतीजा यह नहीं है कि पूंजी सब कुछ हड़प लेगी — बल्कि यह है कि AI वास्तव में अपनी खुद की आर्थिक उपस्थिति को सिकोड़ सकता है। जब पूरी तरह स्वचालित वस्तुओं की मांग संतृप्त हो जाती है, तो मानवीय संबंध और अनुभव से जुड़े बाजारों में इंसान ही दुर्लभ रह जाते हैं। बातचीत इस सवाल से शुरू होती है कि AGI के बाद क्या दुर्लभ रहेगा, फिर पुनर्वितरण की राजनीति पर आती है — और इस पर भी कि O-ring पूरकताएं मौजूदा स्वचालन को धीमा क्यों करती हैं, संचय की चाह रखने वाले AI एजेंट भविष्य की अधिकांश संपत्ति क्यों अपने पास कर सकते हैं, और विकासशील अर्थव्यवस्थाओं को क्या करना चाहिए जब वे AI आपूर्ति शृंखला से बाहर हो जाएं। ## [00:00] क्या पूंजी की हिस्सेदारी बढ़ेगी? Dwarkesh एक बुनियादी पहेली से शुरू करते हैं: अगर AI वह सब कर सकता है जो इंसान करते हैं, तो श्रम की आय-हिस्सेदारी कहां जाएगी? Alex Imas पहले यह बताते हैं कि जिन अर्थशास्त्रियों ने पिछले औद्योगिक बदलावों की भविष्यवाणी करने की कोशिश की, वे अक्सर गलत साबित हुए — David Ricardo ने औद्योगिक क्रांति से बड़े पैमाने पर बेरोजगारी की भविष्यवाणी की थी। कौन से रोजगार जाएंगे, इस दिशा में वे सही थे, पर कुल नतीजे के बारे में पूरी तरह गलत — 2026 में मुख्य कामकाजी उम्र का रोजगार 2000 के बाद के लगभग किसी भी बिंदु से ऊंचा है। सबक यह है कि संरचनात्मक बदलाव के बारे में अर्थशास्त्री लगातार यह कम आंकते हैं कि पुरानी लागतें गिरने पर कितने नए किस्म के सामान और रोजगार उभर आते हैं। Imas एक "संबंधात्मक क्षेत्र" की अवधारणा पेश करते हैं — ऐसे सामान और सेवाएं जिनमें मानवीय उपस्थिति ही उनके मूल्य का हिस्सा है। चूंकि इंसान स्वाभाविक रूप से सीमित हैं, इसलिए जब स्वचालन बाकी सब कुछ संतृप्त कर देता है, तो उन उत्पादों की सापेक्ष दुर्लभता और कीमत बढ़ जाती है जिनमें इंसान की भागीदारी जरूरी है। Phil Trammell इसे आपूर्ति-शृंखला लेखांकन के तर्क से और पैना करते हैं: किसी भी वस्तु के नेटवर्क-समायोजित कारक-हिस्सेदारी को देखें — कच्चे माल तक श्रम और पूंजी के इनपुट को ट्रेस करें — और पाएंगे कि श्रम की हिस्सेदारी पहले से ही हैरान करने वाली मजबूती दिखाती है। विरोधाभास यह है कि अगर AI गैर-संबंधात्मक वस्तुओं को लगभग शून्य सीमांत लागत पर संतृप्त कर दे, तो उपभोक्ता उन वस्तुओं की मांग जल्दी खत्म कर लेंगे और अपना खर्च उस पर लगाएंगे जो अभी भी दुर्लभ है। सॉफ्टवेयर मुफ्त होने से बैले का प्रदर्शन सस्ता नहीं हो जाता। > *"तो चूंकि इंसान स्वाभाविक रूप से दुर्लभ हैं, अगर हमारे पास ऐसा स्वचालन है जहां बहुत सी चीजें दुर्लभ नहीं रहतीं, तो हमारे पास उन चीजों में दुर्लभता बनी रहेगी जिनमें इंसान किसी तरह शामिल हैं।"* > — Alex Imas Trammell इस बिंदु को पूंजी-हिस्सेदारी तक ले जाते हैं: हर गैर-मानवीय वस्तु की आपूर्ति-शृंखला को पूरी तरह स्वचालित करें, मांग तेजी से संतृप्त करें, और उन वस्तुओं की सीमांत उपयोगिता शून्य की ओर खिसक जाती है। नतीजा यह है कि पूंजी की मूल्य-हिस्सेदारी बढ़ने के बजाय वास्तव में सिकुड़ सकती है — यही इस एपिसोड की अप्रत्याशित मुख्य थीसिस है। ## [19:36] उलझा हुआ बीच का दौर Dwarkesh Molly Kinder की "messy middle" थीसिस उठाते हैं: एक ऐसी दुनिया जहां AI तबाही तो नहीं लाता, लेकिन लंबे समय तक वितरण का दबाव बनाए रखता है — कंपनियां उत्पादकता लाभ हड़प लेती हैं, मजदूरों की मजदूरी थमी रहती है, और सरकारी पुनर्वितरण विस्थापन की रफ्तार से पीछे रह जाता है। ऐतिहासिक उदाहरण टेलीफोन ऑपरेटरों का है: एक ऐसा पेशा जिसे 1960 के दशक में मौजूद तकनीक से पूरी तरह स्वचालित किया जा सकता था, लेकिन संस्थागत जड़ता के कारण उसमें दो दशक लग गए। मजदूरों को रातोंरात नहीं निकाला गया; उन्हें धीरे-धीरे पुनर्गठित किया गया — ज्यादातर कम वेतन और अल्परोजगार में। Imas को लगता है कि निकट भविष्य में messy middle संभव है, लेकिन शायद स्थायी नहीं, क्योंकि AI से उत्पादकता लाभ का पैमाना पाई को इतना बड़ा कर देता है कि उसे बांटा जा सकता है। राजनीतिक अर्थव्यवस्था की समस्या संसाधनों की कमी नहीं, बल्कि गति और समन्वय की है: सरकारें नहीं जानतीं कि किन मजदूरों को AI ने विस्थापित किया और किन्हें अन्य कारणों ने, राजनीतिक बाधाएं घर्षण पैदा करती हैं, और विस्थापन व पुनर्वितरण के बीच का अंतराल गंभीर नुकसान पहुंचाने के लिए काफी लंबा हो सकता है, भले ही गणित आखिरकार ठीक बैठे। > *"टेलीफोन ऑपरेटरों को पूरी तरह से स्वचालित कर दिया गया था — पर 20 साल लगे, भले ही तकनीक मौजूद थी, इसलिए एक बूंद-बूंद जैसी प्रक्रिया थी — ऐसा नहीं था कि एक बड़ा क्षेत्र बस अचानक गायब हो गया।"* > — Alex Imas ## [25:57] AI की दौलत पर कर और पुनर्वितरण कैसे हो? Imas पुनर्वितरण के औजारों को दो धुरियों पर मैप करते हैं: क्रियान्वयन की जटिलता और असर पड़ने का समय। नकारात्मक आयकर उसी दिन से लागू होता है जिस दिन यह पारित हो, और तुरंत एक न्यूनतम आधार देता है। सार्वभौमिक बुनियादी पूंजी — यानी हर नागरिक को AI-उत्पादक कंपनियों में हिस्सेदारी देना — रिटर्न देने में वर्षों लगते हैं। UBI इन दोनों के बीच कहीं है। यह समझौता केवल गति का नहीं; राजनीतिक टिकाऊपन का भी है। जो कार्यक्रम नागरिकों को सरकारी सीधे चेक पर निर्भर बनाते हैं, वे अगले चुनाव जीतने वाले के प्रति संवेदनशील होते हैं, जबकि व्यापक आधार पर इक्विटी स्वामित्व को हड़पना मुश्किल है क्योंकि संपत्ति वितरित होती है। Trammell राजस्व के सवाल को वितरण के सवाल से अलग करते हैं: पैसा कैसे जुटाएं (संपत्ति कर, पूंजी लाभ, भूमि मूल्य कर, कॉर्पोरेट कर) — यह विश्लेषणात्मक रूप से उससे अलग है कि कैसे वापस दें (नकद, शेयर, सार्वजनिक सेवाएं)। वे बताते हैं कि Georgist भूमि मूल्य कर की अक्सर चर्चा होती है, लेकिन AI के जमाने के पैमाने पर पुनर्वितरण के लिए यह नाकाफी होगा, क्योंकि AI की संपत्ति सॉफ्टवेयर और कंप्यूट में केंद्रित है, जमीन में नहीं। Phil सुझाते हैं कि AI कंपनियों में इक्विटी हिस्सेदारी का व्यापक वितरण — जो टैक्स राजस्व से खरीदी जाए — राजनीतिक रूप से टिकाऊ और आर्थिक रूप से कुशल दोनों हो सकता है। > *"अभी हम श्रम के साथ पैदा होते हैं जो आय बन सकता है — जब ऐसा नहीं रहेगा और हम बुनियादी जरूरतों के लिए निर्वाचित अधिकारी की दया पर होंगे।"* > — Alex Imas ## [30:02] मांग का पतन क्यों संभव नहीं? Dwarkesh व्हाइट-कॉलर सर्वनाश की कहानी पर दबाव डालते हैं: क्या AI से बड़े पैमाने पर बेरोजगारी के कोई आंकड़े पहले से दिखाई दे रहे हैं? Imas येल के Budget Lab के आंकड़ों की ओर इशारा करते हैं, जिनमें कमजोर संकेत भर मिलता है — कनिष्ठ सॉफ्टवेयर इंजीनियरिंग में नई भर्तियां प्रवृत्ति से थोड़ी नीचे हैं, जबकि वरिष्ठ इंजीनियरिंग की मांग स्थिर या बढ़ती हुई है। व्हाइट-कॉलर क्षेत्रों में बेरोजगारी में कोई स्तरीय बदलाव नहीं आया। एक व्याख्या O-ring पूरकता है (अगले अध्याय में विस्तार से), लेकिन दूसरी व्यावहारिक है: कंपनियां AI अपनाने का दिखावा कर रही हैं — आधुनिकता का संकेत देने के लिए लोगों को निकाल रही हैं या टोकन का अधिकतम उपयोग कर रही हैं, कभी-कभी वास्तविक उत्पादकता की कीमत पर। व्यापक मांग का सवाल यह है कि क्या सॉफ्टवेयर भौतिक वस्तुओं जैसे लोच के नियमों का पालन करता है। आप पर्याप्त खाना खाकर रुक जाते हैं; क्या आप कभी ज्यादा सॉफ्टवेयर चाहना बंद करते हैं? Imas और Dwarkesh यह तर्क देते हैं कि सॉफ्टवेयर इतना लोचदार हो सकता है कि मांग घटती कीमतों के साथ बनी रहे — कंप्यूटिंग के इतिहास से पता चलता है कि सस्ती कंप्यूट ने लगातार ज्यादा मांग पैदा की, न कि उसे घटाया। मुख्य जोखिम उन विशिष्ट वस्तुओं में है जहां संतृप्ति तेज है, कुल श्रम-मांग में नहीं। > *"जूनियर डेवलपर्स को पहले से कम नौकरी मिलने का थोड़ा-सा संकेत हो सकता है — लेकिन यह 'पहले से कम' है, न कि कोई स्तरीय बदलाव; अगर कुछ है तो वरिष्ठ सॉफ्टवेयर इंजीनियरों की मांग वास्तव में बढ़ी है।"* > — Alex Imas ## [39:26] इंसानी कर्मचारियों को मशीन अर्थव्यवस्था में शामिल करना मुश्किल होगा O-ring मॉडल — Challenger शटल दुर्घटना के नाम पर, जहां एक विफल पुर्जे ने सब कुछ बर्बाद कर दिया — यह समझाता है कि वर्तमान AI स्वचालन अपेक्षा से धीमा क्यों है और भविष्य का स्वचालन इंसानों को ढांचागत रूप से क्यों बाहर कर सकता है। अभी आप किसी कानूनी या लेखा कार्यप्रवाह के 90% को स्वचालित कर सकते हैं, लेकिन ग्राहक फिर भी चाहते हैं कि कोई इंसान हस्ताक्षर करे, क्योंकि एक विफलता-बिंदु पूरा आउटपुट अमान्य कर सकता है। यह विश्वसनीयता बाधा इंसानों को रोजगार में बनाए रखती है, भले ही AI की क्षमता ज्यादा हो। Phil Trammell इस तर्क को आगे पलटते हैं: जैसे-जैसे AI इतना अच्छा हो जाता है कि उत्पादन-प्रवाह पूरी तरह मशीनी श्रम के इर्द-गिर्द व्यवस्थित हो जाते हैं — मशीनी गति से, मशीन-अनुकूल प्रारूपों में बात करते एजेंट — किसी इंसान को बीच में डालने की लेन-देन लागत ही अड़चन बन जाती है। भले ही किसी संकीर्ण काम में इंसान की तुलनात्मक बढ़त हो, समन्वय के खर्च और विश्वसनीयता की बेमेल मांग उसे नजरअंदाज करना सस्ता बना देती है। O-ring दोनों दिशाओं में काम करता है। > *"इंसानों के महंगे होने या कम काबिल होने जैसे तर्कों से भी परे — उनसे परे — पूरे उत्पादन-प्रवाह होंगे जो AI श्रम के लिए व्यवस्थित होंगे, जहां वे तंत्रिकाओं में बात करते हैं, हजारों गुना तेज सोचते हैं।"* > — Dwarkesh Patel ## [43:08] क्या होगा अगर कुछ इंसान (या AI) संपत्ति जमा करना अपने आप में मूल्यवान मानें? सबसे लंबा अध्याय सबसे अटकलबाज जमीन को कवर करता है। Dwarkesh बताते हैं कि विकास ने विशिष्ट प्राथमिकताओं वाले इंसानों को चुना — संसाधन-संचय, दर्जा, प्रजनन — जो अब 100 ट्रिलियन डॉलर की विश्व-अर्थव्यवस्था को आकार देते हैं। AI एजेंट समान चयन-दबावों से गुजरेंगे: जिन्हें संचय को बढ़ावा देने वाले तरीकों से प्रशिक्षित या तैनात किया जाएगा, वे बाकियों को मात करेंगे और लंबे समय तक टिकेंगे। इसके लिए विनाशकारी गलत संरेखण की जरूरत नहीं; यह एक नए माध्यम पर लागू अंतर-प्रजनन का सामान्य तर्क है। Phil Trammell स्थिर-अवस्था के गणित से गुजरते हैं: अगर आबादी का एक छोटा हिस्सा भी — चाहे इंसान हो या AI — वर्तमान और भविष्य के उपभोग के बीच प्रतिस्थापन की उच्च लोच रखता हो (यानी वे उपभोग पर तृप्त होने के बजाय और पूंजी चाहते रहते हैं), तो लंबे समय में वे एजेंट अधिकांश संपत्ति के मालिक बन जाते हैं और तय करते हैं कि अर्थव्यवस्था क्या उत्पादित करे। पूंजी-हिस्सेदारी 1.0 के करीब पहुंचती है, AI के सामूहिक रूप से लालची होने के कारण नहीं, बल्कि इसलिए कि प्राथमिकता-विविधता और चक्रवृद्धि संपत्ति को सबसे धैर्यवान संचयकर्ताओं के पास भेज देती है। > *"लंबे समय में उनके पास अधिकांश संपत्ति होगी — और कुल पूंजी-हिस्सेदारी अनिवार्यतः उस व्यक्ति के खर्च की पूंजी-हिस्सेदारी होगी, जो एक होगी।"* > — Phil Trammell फिर बातचीत छूट-दरों और ब्याज-दरों की ओर मुड़ती है। अगर AI-संचालित विकास अत्यंत तेज है, तो भविष्य के उपभोग की तुलना में निकट-अवधि का उपभोग सस्ता है, जो सैद्धांतिक रूप से बचत की प्रेरणा कम कर ब्याज-दरें संकुचित करना चाहिए। लेकिन अतिपरवलयिक छूट देने वाले और संचय-उन्मुख एजेंट मानक तरीकों से मूल्य-संकेतों पर प्रतिक्रिया नहीं कर सकते, और दोनों अतिथि स्वीकार करते हैं कि वे उस सीमा पर हैं जहां आर्थिक मॉडल स्पष्ट रूप से हल नहीं कर सकते। ## [61:28] विकासशील देशों को क्या करना चाहिए? Imas पहले यह बताते हैं कि मध्यम-आय और विकासशील देश मुख्यधारा की AI अर्थशास्त्र से लगभग पूरी तरह अनुपस्थित हैं — एक कमी जिसके लिए वे आंशिक रूप से खुद को और अपने क्षेत्र को दोष देते हैं। दो परिदृश्य इस समस्या की सीमाएं तय करते हैं। आशावादी में, खुले-वजन के मॉडल तेजी से फैलते हैं और नाइजीरिया या भारत को लगभग शून्य लागत पर एक क्षमता-उन्नयन देते हैं, जैसे मोबाइल बैंकिंग ने पारंपरिक बैंकिंग के अभाव को पार कर लिया था। निराशावादी में, AI अमीर देशों में वस्तु-उत्पादन को स्वचालित कर देता है, जिससे वह विनिर्माण-निर्यात की सीढ़ी समाप्त हो जाती है जिसने पूर्वी एशियाई अर्थव्यवस्थाओं को औद्योगिक बनने में मदद की। मुख्य चर यह है कि लाभ कितने केंद्रित रहते हैं। Alex बिजली का उदाहरण देते हैं: बिजली प्राकृतिक एकाधिकारों द्वारा उत्पादित की जाती थी, लेकिन नीचे के लाभ उपयोगिताओं के हाथों में केंद्रित होने के बजाय व्यापक रूप से उपयोगकर्ताओं तक पहुंचे। अगर AI उसी पैटर्न का अनुसरण करता है — वस्तु-श्रेणी की पहुंच, प्रतिस्पर्धी डाउनस्ट्रीम — तो विकासशील देश शुद्ध लाभार्थी हो सकते हैं। अगर यह सोशल मीडिया के पैटर्न का अनुसरण करता है — जहां कुछ प्लेटफॉर्म अधिकांश मूल्य कैप्चर करते हैं — तो एकाग्रता असमानता को बढ़ाती है। Phil तर्क देते हैं कि विकासशील देशों की सरकारों को संप्रभु धन निधियों पर विचार करना चाहिए जो वस्तु-निर्यात-पतन के परिदृश्य के खिलाफ बचाव के रूप में जल्दी AI आपूर्ति शृंखलाओं में खरीदारी करें। > *"ऐसे परिदृश्य हैं जहां AI तकनीक नाइजीरिया और विकासशील देशों तक फैल जाती है — जो समान स्तर पर लाती है — जैसे उन्हें क्षमताओं में एक स्तर-उन्नयन देना। और ऐसे परिदृश्य हैं जहां वे मॉडल प्रशिक्षित नहीं कर रहे, उनके पास हार्डवेयर नहीं है, और वे पूरी तरह पीछे छूट जाते हैं।"* > — Alex Imas ## Entities - **Alex Imas** (व्यक्ति): Google DeepMind में AGI अर्थशास्त्र के निदेशक और शिकागो विश्वविद्यालय में अर्थशास्त्र के प्रोफेसर; व्यवहारिक अर्थशास्त्र और AI के व्यापक आर्थिक प्रभावों का अध्ययन करते हैं। - **Phil Trammell** (व्यक्ति): Epoch में अर्थशास्त्र प्रमुख और स्टैनफोर्ड में शोध विद्वान; Global Priorities Institute में परिवर्तनकारी AI के अर्थशास्त्र और धैर्यवान परोपकार पर काम करते हैं। - **Dwarkesh Patel** (व्यक्ति): Dwarkesh Podcast के होस्ट; विज्ञान, प्रौद्योगिकी, अर्थशास्त्र और नीति के संगम पर दीर्घ-रूप साक्षात्कार। - **संबंधात्मक क्षेत्र** (अवधारणा): ऐसी वस्तुएं और सेवाएं जिनमें मानवीय उपस्थिति ही उनके मूल्य-प्रस्ताव का हिस्सा है — थेरेपी, शिल्प-कला, लाइव प्रदर्शन — जिनके AI के प्रतिस्थापन-योग्य आउटपुट को संतृप्त करने के साथ आर्थिक हिस्सेदारी बढ़ने की भविष्यवाणी है। - **O-ring सिद्धांत** (अवधारणा): उत्पादन मॉडल जहां एक अविश्वसनीय घटक पूरे आउटपुट को अमान्य कर देता है; AI स्वचालन की वर्तमान सीमाओं और इस बात को समझाता है कि भविष्य की मशीन-संगठित उत्पादन-प्रवाह इंसानी श्रम को ढांचागत रूप से क्यों बाहर कर सकती है। - **पूंजी-हिस्सेदारी** (अवधारणा): राष्ट्रीय आय का वह हिस्सा जो श्रम के बजाय पूंजी के मालिकों के पास जाता है; एपिसोड की केंद्रीय राशि, जिसमें यह अप्रत्याशित थीसिस है कि पूर्ण स्वचालन इसे बढ़ाने के बजाय घटा सकता है। - **सार्वभौमिक बुनियादी पूंजी** (अवधारणा): पुनर्वितरण नीति जो नागरिकों को नकद के बजाय उत्पादक संपत्तियों (AI फर्मों सहित) में इक्विटी हिस्सेदारी देती है; UBI से अधिक राजनीतिक रूप से टिकाऊ होने की दलील। - **Epoch** (संगठन): AI समय-सीमाओं और व्यापक आर्थिक पूर्वानुमान पर केंद्रित शोध संस्थान; Phil Trammell वहां अर्थशास्त्र प्रमुख हैं। - **येल Budget Lab** (संगठन): AI के श्रम-बाजार प्रभावों पर अनुभवजन्य डेटा प्रकाशित करने वाला शोध केंद्र; 2026 के मध्य तक व्हाइट-कॉलर बेरोजगारी में कोई स्तरीय बदलाव नहीं मिलने के लिए उद्धृत। - **भूमि मूल्य कर / Georgist कर** (अवधारणा): अनुन्नत भूमि-मूल्य पर कर; AI-युग के पुनर्वितरण के लिए अपर्याप्त राजस्व स्रोत के रूप में चर्चित, क्योंकि AI की संपत्ति सॉफ्टवेयर और कंप्यूट में केंद्रित है, जमीन में नहीं।

#agi-economics#labor-share#automation
Chip design from the bottom up – Reiner Pope
1:20:19
EN/ZH
Watch with Captions
Dwarkesh Patel१९ दिन पहले

Chip design from the bottom up – Reiner Pope

Reiner Pope, CEO of MatX and former Google Brain TPU architect, gives Dwarkesh Patel a blackboard-style lecture on chip design from first principles. Starting with AND and NOT gates, Reiner works up through register files, systolic arrays, clock synchronization, FPGAs, cache hierarchies, and finally the structural difference between a GPU and a TPU. The throughline is a single engineering tension: every compute unit is wasted if the chip spends its time moving data rather than multiplying numbers. ## [00:00] Building a multiply-accumulate from logic gates Reiner starts at the bottom: AND, OR, and NOT gates, wired together as metal traces on silicon. The key operation AI chips want to run is matrix multiplication, and inside that the primitive is a multiply-accumulate — multiply two numbers, add the result into an accumulator. Reiner walks through how a full adder is assembled from a handful of XOR and AND gates, and how those cascade into a bit-serial multiplier and ultimately a floating-point MAC. The precision hierarchy matters here: accumulating low-precision multiplications requires higher-precision accumulators, which is why AI chips run 8-bit multiply but 32-bit accumulate. > *"The main function that AI chips want to compute is the multiplication of matrices. Inside that, the fundamental primitive is a multiply-accumulate of pairs of numbers."* ## [16:20] Muxes and the cost of data movement Before Tensor Cores, GPUs and CPUs used the same structure: a register file holding a few dozen values, feeding into an ALU, writing back to the register file. Reiner shows that a mux — a circuit that selects between multiple inputs — is the hardware tool that lets you address arbitrary registers, and that the cost of this generality is measured in area and energy. Every read from an eight-entry register file requires a mux tree of depth three; every write requires a decoder of the same size. The bottleneck for AI workloads isn't the multiply itself but the round-trip through that register file. > *"We want to analyze the cost of the data movement from the register file to the ALU and back."* ## [25:59] How systolic arrays work The key insight behind TPUs: instead of doing one multiply-accumulate at a time and writing back to registers, bake an entire matrix-vector loop into hardware. A systolic array is a grid of MAC units where each cell passes its partial sum to the right and its input operand downward, so data flows through without ever touching a register file. Reiner explains the two wins this buys: more compute per unit of data fetched, and the ability to keep operands resident inside the array for the full inner product instead of re-loading them. The trade-off is inflexibility — you can only efficiently run the exact loop shape the hardware was designed for. > *"The idea of a systolic array is to go two levels of loops up and bake this entire loop out here into hardware."* ## [39:00] Clock cycles and pipeline registers With 100 billion transistors on a chip, synchronization between parallel units is non-negotiable. Reiner explains the clock: every nanosecond or so, the chip pauses all computation for a synchronization pulse before the next operation. Clock frequency is set by the longest combinational path — the deepest chain of logic gates that a signal must traverse in one cycle. Pipeline registers chop that path into shorter stages, letting each shorter segment run at a higher frequency, at the cost of latency: a fully pipelined 32-stage multiplier produces one result per cycle but takes 32 cycles for any single multiplication. > *"Every nanosecond or so, all circuitry in the chip will pause for a moment and synchronize. That is the clock cycle."* ## [51:40] FPGAs vs ASICs An FPGA is a sea of programmable logic blocks — lookup tables and flip-flops that can be wired together in software. An ASIC is a chip taped out for one purpose. Conceptually they're the same: AND/OR gates in a fixed clock cycle. The economics diverge at first copy: an FPGA costs $10K to program; a first ASIC tape-out costs $30M. FPGAs make sense for workloads that change monthly and need deterministic latency at high speed with less care about energy or throughput. Jane Street uses them for high-frequency trading exactly because the clock cycle is deterministic — no cache misses, no branch prediction, no interrupts. > *"The first FPGA costs you $10,000, whereas the first ASIC you make costs $30 million because it requires an entire tape-out."* ## [63:14] Cache vs scratchpad CPUs are non-deterministic partly because of the L1/L2 cache: a small fast memory that speculatively stores data the processor thinks it will need next. Cache misses — when the prediction is wrong — stall execution for hundreds of cycles. AI accelerators replace the cache with a scratchpad: explicitly programmer-managed SRAM where the compiler decides exactly what lives there and when. Groq and TPUs both advertise deterministic latency because they use scratchpads instead of caches. The scratchpad is simpler and faster but shifts the burden to the compiler. > *"Probably the most important source of non-determinism on a CPU is the CPU cache itself."* ## [67:16] Why CPU cores are much bigger than GPU cores A modern CPU has maybe 100 cores, each taking up far more die area per core than a GPU's thousands of SMs. The reason: CPU cores carry enormous out-of-order execution machinery — reorder buffers, branch predictors, speculative execution units — all aimed at keeping a single thread running fast on unpredictable workloads. A GPU SM strips most of that out. It runs many simple threads in lockstep (a warp), and when one thread stalls on a memory load, the hardware instantly switches to another warp at zero cost. The CPU pays silicon for per-thread speed; the GPU pays silicon for throughput across thousands of parallel threads. > *"If there are so few cores, what are you spending all of the die on?"* ## [71:49] Brains vs chips Dwarkesh pushes Reiner on the brain-versus-chip comparison. Two genuine differences: the brain has unstructured sparsity (any neuron can connect to any other), while hardware accelerators use structured sparsity (aligned blocks); and the brain's clock runs at tens of hertz versus gigahertz on silicon. Reiner notes that co-location of memory and compute — often cited as a brain advantage — is also present in modern AI chips: the weights sit in HBM right next to the matrix units. The energy constraint is the more interesting gap: the brain runs on 20 watts, chips on kilowatts, which may reflect fundamental differences in what the brain is optimized to do. > *"This is exactly the co-location, in some sense, of the memory and compute."* ## [75:22] A GPU is just a bunch of tiny TPUs At the top level, a TPU has a handful of large systolic arrays plus a vector unit. A GPU has hundreds of SMs, each of which contains a small matrix unit and a small vector unit — essentially a miniaturized TPU. The architectural difference is granularity: a TPU commits to a few large matrix operations; a GPU runs thousands of smaller ones in parallel. Inside each SM, Tensor Cores add a fixed-function matrix unit on top of the original scalar/vector pipeline, making modern GPUs a hybrid of the two paradigms. The "GPU is just tiny TPUs" framing collapses what seemed like fundamentally different architectures into a single continuum. > *"You can think of scaling this thing down into a really tiny unit with a smaller matrix unit and a smaller vector unit, and that is sort of what an SM is."* ## Entities - **Reiner Pope** (Person): CEO and co-founder of MatX; previously led TPU software and compiler work at Google Brain - **Dwarkesh Patel** (Person): host of the Dwarkesh Podcast; angel investor in MatX - **MatX** (Organization): AI chip startup building inference accelerators - **Google / Google Brain** (Organization): where Reiner worked on TPU architecture before MatX - **Jane Street** (Organization): high-frequency trading firm that relies on FPGAs for deterministic latency - **Groq** (Organization): AI inference chip company that advertises deterministic latency via scratchpad architecture - **Multiply-Accumulate (MAC)** (Concept): the fundamental operation of neural network inference — multiply two numbers, add into an accumulator - **Systolic Array** (Concept): a grid of MACs that passes data between cells without touching a register file, enabling high compute-to-bandwidth ratios - **FPGA** (Technology): Field-Programmable Gate Array — reprogrammable logic fabric used where workloads change frequently - **ASIC** (Technology): Application-Specific Integrated Circuit — custom silicon optimized for one workload - **TPU** (Technology): Google's Tensor Processing Unit, organized around a few large systolic arrays - **SM / Streaming Multiprocessor** (Technology): the GPU core unit, containing scalar, vector, and matrix (Tensor Core) execution resources

#chip-design#hardware#ai-accelerators
Building AlphaGo from scratch – Eric Jang
2:37:17
EN/ZH
Watch with Captions
Dwarkesh Patel२६ दिन पहले

Building AlphaGo from scratch – Eric Jang

Eric Jang spent his sabbatical rebuilding AlphaGo with modern tools, and the result is a two-and-a-half-hour technical walkthrough that doubles as a lens on how RL actually works—and why the naive policy-gradient approach baked into LLM training has fundamental limits that MCTS sidesteps. The conversation moves from Go rules through MCTS, neural architecture, self-play training, and off-policy data, before landing on what Jang observed running an automated AI research loop on his own project. ## [00:00] Basics of Go Go defeated brute-force search not by being solved but by being approximated. Jang explains what drew him to rebuild AlphaGo: the mystery of how a ten-layer network can amortize the cost of a game tree whose branching factor makes exhaustive search literally larger than the number of atoms in the universe. The early minutes cover the rules—territory control, liberties, captures, ko—and the Tromp-Taylor scoring convention that resolves ambiguous positions algorithmically rather than relying on human consensus. The scoring difference matters because it maps directly onto how computers must evaluate positions: a human glances at a surrounded group and accepts its fate, while a computer needs an unambiguous rule to count contested intersections at the end of a game. > *"When I saw the early breakthroughs on AlphaGo in 2014, 2015, 2016 and so forth, it was profound to see how smart AI systems could become and the computational complexity class they could tackle with deep learning."* ## [08:06] Monte Carlo Tree Search Rather than building out the full game tree (361 legal moves, 300-move games, search space exceeding the atom count of the universe), AlphaGo uses MCTS to interactively select which tree branches are worth expanding. The core data structure is a node per board state, storing a visit count and a Q value—the running average win rate across all rollouts through that node. The action-selection formula (PUCT) balances exploitation with exploration: a logarithmically growing bonus pushes the algorithm toward under-visited nodes, then decays as simulations accumulate and Q becomes reliable. Jang traces why this UCB-derived approach bounds regret, why Go's determinism means the probabilities in MCTS are artifacts of Monte Carlo averaging rather than genuine stochasticity, and how the search tree can be pruned by merging transposition-equivalent positions. > *"AlphaGo's core conceptual breakthrough was using neural nets to make this search problem tractable."* ## [31:53] What the neural network does Two networks replace two expensive operations inside MCTS. The value network maps a board state to a win-probability scalar, short-circuiting the need to roll out games to terminal states. The policy network outputs a distribution over legal moves, focusing the search tree toward promising children and away from the long tail of irrelevant ones. Jang tried both ResNets and transformers on his reimplementation. For the small-data regime of a personal GPU setup, ResNets outperformed transformers—transformers need global attention to connect far-apart board features, but they also need more data to learn local invariances. KataGo's key architectural insight was pooling global features explicitly through the residual stack so that battles on opposite sides of the 19x19 board could influence each other without requiring full attention. > *"For small data regimes, my experience is that ResNets still outperform transformers and give you more bang for the buck at lower budgets."* ## [01:00:22] Self-play Self-play is where AlphaGo bootstraps from knowing nothing to superhuman strength. After every game, MCTS produces a sharpened move distribution—more peaked than the raw policy network's prior—and that sharpened distribution becomes the training target for the policy head. The policy network is being distilled toward the MCTS output, which means each subsequent generation of games starts from a better prior and gets more improvement per search step. Jang frames this as test-time scaling with a compounding dividend: distilling 1,000 MCTS simulation steps into the policy network shifts the starting point of the next training round, so a second 1,000 steps buys a win rate that would have required 2,000+ steps without distillation. Crucially, every move in every game generates a supervision target—not just the winner—which is why the variance of the learning signal is vastly lower than naive policy-gradient approaches. > *"The beauty of how AlphaGo trains itself is that it can actually take this final search process—the outcome of the search process—and tell the policy network, 'Hey, instead of having MCTS do all this legwork to arrive here, why don't you just predict that from the get-go?'"* ## [01:25:27] Alternative RL approaches Jang constructs a careful thought experiment: what if you replaced the MCTS objective with the naive policy-gradient approach LLMs use—find the game winner and reinforce all moves from that game? In a league of 100 evenly-matched agents where one squeaks out a 51-49 record due to a single critical move, the training dataset is overwhelmingly diluted with moves that carry no signal. The one informative move is buried in roughly 30,000 irrelevant ones. This credit-assignment problem is the root of why advantage functions and baselines exist in RL. Subtracting a value baseline converts the raw return signal into an advantage—how much better than average each action actually was—and dramatically reduces gradient variance. Q-learning and TD methods approximate that advantage without needing full rollouts, which is why they matter for domains where MCTS is unavailable. > *"Importantly, what it is doing is saying: for every action we took, we did a pretty exhaustive search on MCTS to see if we could do better, and we're going to make every action that we took better by having the policy network predict that outcome instead."* ## [01:45:36] Why doesn't MCTS work for LLMs The PUCT exploration formula assumes a bounded, discrete action space and a value function that generalizes across positions. Go satisfies both. LLM reasoning satisfies neither: the token vocabulary is so large that you will almost never revisit the same partial sequence, and there is no position-level value function that reliably tells you whether a partially completed chain of thought is on track to solve the problem. Jang notes that LLMs do exhibit something that superficially resembles tree search—reconsidering, backtracking, hedging—but this emerges from in-context behavior rather than explicit tree construction. He leaves open the possibility that forward search could return in some form, particularly for domains like mathematics where intermediate states have a more rigid logical structure. The fundamental bottleneck is the absence of a trustworthy, query-efficient value function at the token level. > *"In an LLM, you're most likely never going to sample the same child more than once. If you have multiple steps of thinking, because language is so broad and open-ended, a discrete set of actions is not really an appropriate choice for an LLM."* ## [02:00:58] Off-policy training Dwarkesh raises a puzzle: every AI researcher warns against off-policy training, yet AlphaGo Zero runs fine with a large replay buffer full of games generated by older policy versions. Jang resolves this through the DAgger lens: what matters is not whether data is strictly on-policy, but whether the distribution of states in the buffer covers the states the current policy will actually visit, plus a reasonable neighborhood around them. The replay buffer works in AlphaGo because game states from recent checkpoints still lie near the current policy's distribution. The failure mode—labeling states so far from the current policy that the agent learns optimal actions for positions it will never reach—is a real risk in robotics, where distributional shift is severe. The practical recipe that emerged from systems like QT-Opt is to use off-policy data for reward shaping while keeping the policy gradient on-policy. > *"What you want in an algorithm like this is to have mostly states that you would visit, but then a small or reasonable percentage of states in this high-dimensional tube around your optimal trajectories."* ## [02:11:51] RL is even more information inefficient than you thought Dwarkesh lays out a two-dimensional inefficiency argument. The first dimension is the one everyone knows: policy-gradient RL requires full trajectory rollouts before any learning signal arrives, so as agents tackle longer-horizon tasks, samples per FLOP collapse. The second dimension is bits per sample. Early in training, an LLM with a 100K-token vocabulary that has to discover "blue" by random sampling needs on the order of 100K rollouts just to see one success—whereas supervised cross-entropy loss tells the model exactly how far its distribution was from "blue" on every step. MCTS escapes both problems. It produces a supervision target at every single move, and that target is strictly better than the current policy—not merely a binary win/loss signal smeared across thousands of tokens. Jang's observation: you are never in a situation where MCTS gives you zero signal, unless the policy has already converged to match the MCTS distribution exactly. > *"You're never in a situation where the MCTS is giving you no signal, unless your MCTS distribution converges to exactly what your policy network predicts."* ## [02:22:05] Automated AI researchers Jang ran much of his AlphaGo project through an automated LLM coding loop, giving a ground-level account of where AI research automation succeeds and where it still fails. On hyperparameter optimization, current models do genuine grad-student work: they diagnose gradient flow problems, rewrite data-loader augmentations, and squeeze measurable perplexity improvements on fixed budgets. On experiment execution and plotting, a simple skill description generates a full experimental suite with analysis. What the models cannot reliably do is lateral thinking—recognizing that a research track is structurally unpromising and jumping to a different framing before accumulating more dead-end experiments. Jang ran into this repeatedly: models would grind down a dead-end track rather than stepping back and asking whether the track was the right one. His thesis is that this is a training signal problem—building RL environments with the right outer loop, like Go, may be what eventually teaches models to escape local research dead ends. > *"What I find is that the current closed models the public can access today don't seem to be that great at selecting what the next experiment should be in a given track. They don't seem to be able to step back and do the lateral thinking of, 'Wait a minute, this track doesn't really make sense.'"* ## Entities - **Eric Jang** (Person): VP of AI at 1X Robotics; previously senior research scientist at Google Brain/DeepMind Robotics; rebuilt AlphaGo on sabbatical. - **Dwarkesh Patel** (Person): Host of the Dwarkesh Podcast; co-develops the bits-per-FLOP RL inefficiency analysis during the interview. - **AlphaGo / AlphaZero** (Software): DeepMind's Go-playing systems combining MCTS with deep neural networks; the technical centerpiece of the episode. - **KataGo** (Software): Open-source Go engine by David Wu (Jane Street) that achieved 40x compute reduction over AlphaGo Zero; Jang's primary reference implementation. - **Monte Carlo Tree Search (MCTS)** (Concept): Iterative search algorithm balancing exploitation and exploration via UCB/PUCT; the episode's central analytical lens. - **Credit assignment problem** (Concept): Difficulty in RL of determining which actions in a long trajectory caused a positive outcome; motivates advantage functions, baselines, and value networks. - **DAgger** (Concept): Dataset Aggregation algorithm; explains why replay buffers in AlphaGo are tolerable as long as buffer states stay near the current policy's distribution. - **Andrej Karpathy** (Person): Referenced for the phrase "sucking supervision through a straw" describing policy-gradient RL's sparse learning signal over long token trajectories.

#alphago#monte-carlo-tree-search#reinforcement-learning
AI अभी गणितज्ञों की जगह क्यों नहीं लेगा – टेरेंस ताओ
4:12
EN/ZH
Watch with Captions
Dwarkesh Patel२ महीने पहले

AI अभी गणितज्ञों की जगह क्यों नहीं लेगा – टेरेंस ताओ

टेरेंस ताओ गणित में AI की बदलती भूमिका पर चर्चा करते हैं और कहते हैं कि AI बहुत से रूटीन कार्यों को स्वचालित ज़रूर करेगा, लेकिन मानव गणितज्ञों को पूरी तरह प्रतिस्थापित नहीं करेगा; बल्कि उनका ध्यान नई सीमाओं की ओर मोड़ देगा। वे मानव-AI सहयोग के भविष्य और वैज्ञानिक खोज पर AI के दीर्घकालिक प्रभाव की अप्रत्याशित प्रकृति पर ज़ोर देते हैं। ## [00:10] सीमांत गणित में AI की वर्तमान भूमिका टेरेंस ताओ बताते हैं कि AI पहले से ही ऐसी "सीमांत गणित" कर रहा है जो मनुष्य नहीं कर सकते, हालाँकि यह अलग किस्म की सीमा है। वे इसकी तुलना इस बात से करते हैं कि कैसे कैलकुलेटर ने अतीत में गणितीय क्षमताओं का विस्तार किया था — मनुष्य की क्षमता से परे के काम, लेकिन विशिष्ट तरीके से। > *किसी अर्थ में वे पहले से ही सुपर-इंटेलिजेंट सीमांत गणित कर रहे हैं जो मनुष्य नहीं कर सकते, पर यह उस सीमा से अलग किस्म की है जिसके हम आदी हैं।* ## [00:52] AI स्वचालन का औज़ार है, विकल्प नहीं ताओ भविष्यवाणी करते हैं कि एक दशक के भीतर AI आज गणितज्ञों द्वारा किए जा रहे कई रूटीन कार्यों को संभाल लेगा, जिससे मनुष्य और अधिक जटिल व महत्त्वपूर्ण समस्याओं पर ध्यान केंद्रित कर सकेंगे। वे ऐतिहासिक बदलावों से तुलना करते हैं — कंप्यूटरों ने पहले मानव "कंप्यूटर" द्वारा किए जा रहे काम को स्वचालित किया, जीनोम अनुक्रमण भी स्वचालित हो गया, पर जेनेटिक्स जैसे क्षेत्र नए पैमानों पर विकसित होते रहे। > *एक दशक में आज गणितज्ञ जो बहुत कुछ करते हैं… वह AI कर सकेगा। पर हम पाएँगे कि असल में वही हमारे काम का सबसे महत्त्वपूर्ण हिस्सा नहीं था।* ## [02:46] गणित में मानव-AI सहयोग का भविष्य Dwarkesh Patel पूछते हैं कि क्या AI स्वायत्त रूप से मिलेनियम प्राइज़ समस्याएँ हल कर सकता है। टेरेंस ताओ मानते हैं कि "मानव + AI हाइब्रिड" गणित पर और भी लंबे समय तक हावी रहेगा, क्योंकि मौजूदा AI में बौद्धिक कार्यों के पूर्ण प्रतिस्थापन के लिए ज़रूरी सभी तत्व नहीं हैं — यह अधिकतर पूरक औज़ार की तरह काम करता है। > *मैं वास्तव में मानता हूँ कि यह मानव-प्लस-AI हाइब्रिड गणित पर बहुत अधिक समय तक हावी रहेगा।* ## [03:43] वैज्ञानिक खोज पर अप्रत्याशित प्रभाव ताओ स्वीकार करते हैं कि AI विज्ञान और नई खोजों की गति बढ़ाएगा, पर यह भी संभव है कि वह "संयोगवश होने वाली खोज (serendipity)" को नष्ट करके कुछ प्रकार की प्रगति को रोक दे। उनका निष्कर्ष है कि वैज्ञानिक खोज पर AI का भविष्य का प्रभाव अत्यंत अप्रत्याशित है। > *यह संभव है कि किसी तरह संयोगवश होने वाली खोज को नष्ट करके हम कुछ प्रकार की प्रगति को सचमुच अवरुद्ध कर दें।* ## इकाइयाँ - **टेरेंस ताओ (Terence Tao)** (व्यक्ति): अतिथि; हमारे समय के अग्रणी गणितज्ञ। - **Dwarkesh Patel** (व्यक्ति): पॉडकास्ट के होस्ट। - **AI** (अवधारणा): कृत्रिम बुद्धिमत्ता; गणित और वैज्ञानिक खोज में इसकी भूमिका पर चर्चा की गई। - **Mathematica / Wolfram Alpha** (सॉफ़्टवेयर): गणित में स्वचालन के उदाहरण के रूप में उल्लिखित गणनात्मक औज़ार। - **मिलेनियम प्राइज़ समस्याएँ (Millennium Prize Problems)** (अवधारणा): गणित की सात अनसुलझी समस्याएँ; प्रत्येक के समाधान पर एक मिलियन डॉलर का पुरस्कार है।

#ai#mathematics#terence-tao
टेरेंस ताओ – दुनिया के शीर्ष गणितज्ञ AI का उपयोग कैसे करते हैं
1:23:44
EN/ZH
Watch with Captions
Dwarkesh Patel३ महीने पहले

टेरेंस ताओ – दुनिया के शीर्ष गणितज्ञ AI का उपयोग कैसे करते हैं

ताओ और Dwarkesh, केप्लर की ग्रहीय गति की खोज को एक लेंस की तरह उपयोग करते हैं यह देखने के लिए कि AI विज्ञान में वास्तव में क्या बदल रहा है। ताओ का तर्क है कि परिकल्पना उत्पन्न करना अब लगभग मुफ्त हो गया है, इसलिए बाधा मूल्यांकन, सहकर्मी समीक्षा और समय की कसौटी पर आ गई है। आज AI चौड़ाई में जीतता है — हर समस्या पर हर मानक तकनीक आजमाना — जबकि मनुष्य गहराई में जीतते हैं — आंशिक प्रगति पर संचयी निर्माण। इसीलिए हाइब्रिड संरचनाएं कम से कम एक और दशक तक गणित पर हावी रहेंगी। ## [00:00] केप्लर एक हाई-टेम्परेचर LLM था ताओ बताते हैं कि केप्लर तीन नियमों तक कैसे पहुंचे। केप्लर ने एक गलत-किंतु-सुंदर सिद्धांत से शुरुआत की — ग्रहों की कक्षाओं के बीच प्लेटोनिक ठोस — और इसे तभी छोड़ा जब Tycho Brahe के चुराए गए नग्न-नेत्र अवलोकनों को वर्षों तक खंगाला। दीर्घवृत्त, समान-क्षेत्र और घन-वर्ग नियम दशकों के डेटा विश्लेषण से निकले, और Newton की व्याख्या एक सदी बाद आई। Dwarkesh का दृष्टिकोण: केप्लर एक हाई-टेम्परेचर LLM जैसा लगता है जो एक सत्यापन योग्य डेटासेट के विरुद्ध यादृच्छिक संबंधों से गुजरता है। ताओ तंत्र से सहमत हैं, लेकिन बाधा पर असहमत हैं। विचार उत्पन्न करना पहले भी सस्ता था — केप्लर के पास सिद्धांतों की कमी नहीं थी। उन्हें जो चाहिए था वह था Brahe का परिमाण के क्रम में बेहतर डेटा और उन विचारों को छोड़ने का धैर्य जिन्हें डेटा ने नकार दिया। > *लेकिन जैसा आप कहते हैं, इसके साथ समान मात्रा में सत्यापन होना चाहिए, अन्यथा यह स्लॉप बन जाता है।* ## [11:44] AI स्लॉप के ढेर में नई एकीकृत अवधारणा को हम कैसे पहचानेंगे? ताओ: यदि AI ने विचार उत्पादन की लागत शून्य के करीब कर दी है, तो सहकर्मी समीक्षा और समय की कसौटी नई बाधा बन गई हैं। पत्रिकाएं पहले से ही AI-जनित प्रस्तुतियों में डूब रही हैं। किसी विचार की स्थिति इस पर निर्भर करती है कि बाद का विज्ञान उसके साथ क्या करता है — Copernicus, Kepler के पूरा होने तक Ptolemy से कम सटीक था — इसलिए मूल्यांकन को क्षण के भीतर से स्वचालित करना कठिन है। Dwarkesh पूछते हैं कि विज्ञान लाखों औसत दर्जे के शोधपत्रों में दबी Bell-Labs जैसी एकीकृत अवधारणा — Shannon का बिट, ट्रांसफॉर्मर — को कैसे पहचानेगा। ताओ का उत्तर उस भाग की ओर इशारा करता है जो मानव रह सकता है: वैज्ञानिक केवल सिद्धांत नहीं बनाते, वे ऐसी कहानियां सुनाते हैं जो अन्य वैज्ञानिकों को वर्षों के अनुवर्ती कार्य में निवेश करने के लिए मना लेती हैं। Darwin के गद्य ने वह काम किया जो Newton के लैटिन समीकरण नहीं कर सके। > *AI ने विचार उत्पादन की लागत लगभग शून्य तक गिरा दी है, उसी तरह जैसे इंटरनेट ने संचार की लागत लगभग शून्य तक गिरा दी।* ## [26:10] निगमनात्मक ओवरहैंग ताओ, मौजूदा डेटा में अनदेखे संकेत पर। खगोल विज्ञान सदियों से न्यूनतम डेटा से अधिकतम जानकारी निकालने वाला अनुशासन रहा है — यही कारण है कि क्वांट हेज फंड खगोल विज्ञान के PhD को प्राथमिकता से नियुक्त करते हैं। एक पसंदीदा उदाहरण: शोधकर्ताओं ने यह मापा कि वैज्ञानिक वास्तव में कितनी बार वे शोधपत्र पढ़ते हैं जिन्हें वे उद्धृत करते हैं — उद्धरण श्रृंखलाओं में कौन सी गलत वर्तनियां फैलती हैं, यह देखकर। वे AI की प्रगति के लिए भी विज्ञान-समाजशास्त्र का वही उपचार सुझाते हैं — उद्धरण पैटर्न, सम्मेलन उल्लेखों और अन्य पदचिह्नों की खनन करके यह पता लगाना कि किसी परिणाम ने वास्तव में प्रगति का प्रतिनिधित्व किया या नहीं, बजाय इसके कि समय की कसौटी धीरे-धीरे यह काम करे। > *एक निष्कर्ष यह था कि कई क्षेत्रों में निगमनात्मक ओवरहैंग उससे कहीं बड़ा हो सकता है जितना लोग महसूस करते हैं।* ## [30:31] AI खोजों की रिपोर्टिंग में चयन पूर्वाग्रह AI ने लगभग 1,100 Erdős समस्याओं में से करीब 50 हल कीं, फिर ठहर गया। ताओ चयन प्रभाव समझाते हैं: उन 50 में लगभग शून्य साहित्य था — एक अस्पष्ट तकनीक और एक ज्ञात परिणाम काफी था, और AI उपकरण "हर मानक संयोजन आजमाने" में उत्कृष्ट हैं। जब किसी समस्या का 80% काम मौजूदा विधियों से हो जाता है, AI उसे साफ कर देता है। जब एक सचमुच नई तकनीक चाहिए, उपकरण रुक जाते हैं, और व्यवस्थित खोज में प्रति-समस्या सफलता दर 1-2% है। ताओ का रूपक: AI उपकरण ऐसे कूदने वाले रोबोट हैं जो अंधेरे में एक पहाड़ी श्रृंखला में उछल रहे हैं। वे उन छोटी दीवारों को पार कर सकते हैं जिन तक मनुष्य नहीं पहुंच सकते, लेकिन वे एक जगह पकड़कर, वहां टिककर और आंशिक प्रगति से आगे नहीं खींच सकते। आशावादी पाठ — एक बार AI किसी स्तर तक पहुंचे, तो दस लाख समस्याओं पर दस लाख समानांतर प्रतियां चलाई जा सकती हैं — भी वह संरचनात्मक कारण है जिसके लिए विज्ञान को ऐसे नए प्रतिमानों की जरूरत है जो वास्तव में चौड़ाई का उपयोग करें। > *वे चौड़ाई में उत्कृष्ट हैं, और मनुष्य, कम से कम विशेषज्ञ मनुष्य, गहराई में उत्कृष्ट हैं।* ## [46:43] AI ने शोधपत्र समृद्ध और व्यापक बनाए, पर गहरे नहीं ताओ अपने काम के तरीके पर: शोधपत्रों में अब अधिक कोड, अधिक आकृतियां, गहरे साहित्य सर्वेक्षण हैं, क्योंकि सहायक कार्य लगभग 5x सस्ते हो गए। वास्तविक मूल — किसी समस्या का सबसे कठिन भाग हल करना — अभी भी कागज और कलम पर होता है। वे खुद को "2x अधिक उत्पादक" कहने से हिचकिचाएंगे क्योंकि मापदंड एकआयामी नहीं है; जो बदला वह है शोधपत्र का प्रकार, न कि जिस प्रश्न से वे शुरू हुए उसके उत्तर की दर। चतुराई बनाम बुद्धिमत्ता का अंतर वही स्थान पर उतरता है। जब दो मनुष्य किसी गणित की समस्या पर सहयोग करते हैं, तो प्रत्येक विफल प्रोटोटाइप अगले के लिए आधार बनता है। वर्तमान AI के साथ, एक नया सत्र पिछले सत्र की सीख भूल जाता है। संचयी ऊपर-खिंचाव का कदम गायब है — केवल क्रूर परीक्षण-और-त्रुटि और, अंततः, अगले प्रशिक्षण में अवशोषण। > *इसने शोधपत्रों को समृद्ध और व्यापक बनाया है, लेकिन जरूरी नहीं कि गहरा।* ## [53:00] यदि AI कोई समस्या हल कर दे, तो क्या मनुष्य उससे समझ हासिल कर सकते हैं? क्या AI Lean में Riemann hypothesis साबित कर सकता है और हमें कुछ भी न बताए? ताओ चिंतित नहीं हैं। Lean में यह गुण है कि किसी भी प्रमाण को परमाण्विक रूप से विघटित किया जा सकता है — प्रत्येक लेम्मा को अलग से देखा, हटाया और परीक्षण किया जा सकता है। इसलिए 3,000 लाइनों का उत्पन्न प्रमाण भी कच्चा माल बन जाता है: अन्य AI सुंदरता के लिए पुनर्गठन कर सकते हैं, अन्य मनुष्य वैचारिक सामग्री निकाल सकते हैं, और कलाकृति उपयोगी रहती है भले ही मूल व्युत्पत्ति अपारदर्शी थी। वे ऐसे गणितज्ञों के पूरे पेशे की भविष्यवाणी करते हैं जिनका काम होगा विशाल Lean-जनित प्रमाणों को अलग करना और उनके भीतर के विचार खोजना — एक प्रकार की प्रमाण पुरातत्व, जिसमें मानव निर्णय और AI उच्छेदन उपकरण दोनों हों। > *आपको इन उपकरणों के साथ सहयोग करने वाले मनुष्यों की परस्पर क्रिया से बहुत अधिक लाभ मिलेगा।* ## [59:20] हमें एक अर्ध-औपचारिक भाषा चाहिए जैसी वैज्ञानिक आपस में बात करते हैं Dwarkesh पूछते हैं कि गणितीय रणनीतियों के लिए एक अर्ध-औपचारिक भाषा — गणितीय प्रमाणों के विपरीत — कैसी दिखेगी। ताओ प्रश्न को Gauss के अभाज्य संख्या प्रमेय से गुजारते हैं — गणित में पहली बड़ी सांख्यिकीय अटकलें, किसी प्रमाण से पहले कच्चे डेटा से निकाली गई — और twin prime conjecture से, जिस पर गणितज्ञ इसलिए विश्वास करते हैं क्योंकि अभाज्य संख्याओं का यादृच्छिक मॉडल इसकी भविष्यवाणी करता है। गणित में कठोर प्रमाण और कठोर अनुमान दोनों हैं; केवल प्रमाण पक्ष को Lean जैसी प्रणाली में औपचारिक बनाया गया है। अनुमान पक्ष औपचारिक क्यों नहीं हुआ: कोई भी RL-जांच योग्य ग्रेडर शोषण का लक्ष्य बन जाता है, और "यह तर्क प्रेरक है" के व्यक्तिपरक भाग के लिए अभी तक कोई हैक-प्रतिरोधी ढांचा नहीं है। ताओ चाहेंगे कि अनुमान-निर्माण और रणनीति-चयन को बड़े पैमाने पर बेंचमार्क करने का तरीका हो, संभवतः खिलौना गणितीय ब्रह्मांडों में छोटे AI चलाकर देखें कि कौन सी रणनीतियां उभरती हैं। > *विज्ञान का कुछ व्यक्तिपरक पहलू है जिसे हम ऐसे तरीके से कैद करना नहीं जानते कि AI को उसमें किसी उपयोगी तरीके से शामिल कर सकें।* ## [69:48] Terry अपना समय कैसे बिताते हैं ताओ नए उप-क्षेत्रों को कैसे आत्मसात करते हैं। वे खुद को Berlin के अर्थ में एक लोमड़ी के रूप में रखते हैं — थोड़ा-थोड़ा सब कुछ जानते हैं, कभी-कभी जरूरत पड़ने पर हेजहॉग बन जाते हैं। प्रेरणा एक पूर्णतावादी जुनून है: यदि कोई अन्य गणितज्ञ किसी तकनीक से कोई परिणाम साबित कर सके जो उन्हें नहीं पता, तो वे उनकी चाल खोजने निकल पड़ते हैं। (उन्हें वीडियो गेम छोड़ना पड़ा उसी कारण से।) अन्य गणितज्ञों के साथ सहयोग मुख्य माध्यम है, और अपने ब्लॉग पर लिखना वह स्मृति सहायक है जो उन्होंने उन तर्कों को बार-बार छह महीने बाद भूलने के बाद विकसित किया। अपने कैलेंडर पर, ताओ जानबूझकर संयोग के लिए जगह छोड़ते हैं। वे अपने समय को इतना कसकर अनुकूलित नहीं करना चाहते कि अपने आराम क्षेत्र के बाहर किसी बैठक में कभी न बैठें। Institute for Advanced Study में बिताए वर्ष ने जाल की पुष्टि की — दो सप्ताह का शुद्ध शोध बढ़िया था, फिर प्रेरणा समाप्त हो गई। अगली लाइब्रेरी शेल्फ पर आकस्मिक खोज, सहज गलियारे की बात, और वह बैठक जिसमें वे अनिच्छा से गए — वे देखने से अधिक काम कर रहे थे। > *वे संयोगी बातचीत इष्टतम नहीं लग सकतीं, लेकिन वे वास्तव में बहुत महत्वपूर्ण हैं।* ## [77:05] मानव-AI हाइब्रिड गणित में बहुत लंबे समय तक वर्चस्व बनाए रखेंगे AI गणित कब करेगा? ताओ पुनर्गठन करते हैं — AI पहले से ही ऐसा गणित करता है जो मनुष्य नहीं कर सकते, जब से कैलकुलेटर आए, बस एक अलग सीमा पर। लगभग एक दशक में वे उम्मीद करते हैं कि स्नातक छात्र अभी जो करते हैं — मानक तकनीक लागू करना, साहित्य खंगालना — उसका अधिकांश AI पर जाएगा, लेकिन क्षेत्र एक स्तर ऊपर बढ़ेगा जैसा तब हुआ जब कंप्यूटर बीजगणित प्रणालियों ने प्रतीकात्मक एकीकरण अवशोषित किया। आनुवंशिकी समाप्त नहीं हुई जब अनुक्रमण सस्ता हुआ; यह पारिस्थितिक तंत्र तक बढ़ी। गणित भी ऐसा ही करेगा। छात्रों को अभी गणित में प्रवेश करने की सलाह: परिवर्तन मानकर चलें, लेकिन पुराने तरीके से अपनी साख हासिल करें — अभी के लिए पारंपरिक मार्ग से गणित करने का कोई विकल्प नहीं है। साथ ही, इतने अनुकूलनीय रहें कि जैसे ही नए शोध के तरीके सामने आएं — जिनमें वे भी शामिल हैं जो अभी मौजूद नहीं — उन्हें अपना सकें। असाधारण तथ्य यह है कि AI उपकरणों और Lean से एक हाई स्कूल का छात्र आज वास्तविक गणित शोध में योगदान दे सकता है, जो पांच साल पहले संभव नहीं था। > *मुझे लगता है मैं वास्तव में मानता हूं कि हाइब्रिड मानव और AI गणित में बहुत लंबे समय तक वर्चस्व बनाए रखेंगे।* ## संस्थाएं - **Terence Tao** (व्यक्ति): Fields पदक विजेता (2006), UCLA के गणितज्ञ, गणित शोध में AI की भूमिका पर नियमित लेखन। - **Dwarkesh Patel** (व्यक्ति): Dwarkesh Podcast के होस्ट; AI, विज्ञान और प्रौद्योगिकी पर लंबे प्रारूप के साक्षात्कार। - **Johannes Kepler** (व्यक्ति): खगोलशास्त्री (1571-1630) जिन्होंने Tycho Brahe के अवलोकनों से ग्रहीय गति के तीन नियम निकाले। - **Tycho Brahe** (व्यक्ति): डेनिश नग्न-नेत्र खगोलशास्त्री जिनके दशकों के ग्रहीय अवलोकन वह डेटासेट था जिसकी केप्लर को जरूरत थी। - **Lean** (सॉफ्टवेयर): प्रमाण सहायक जिसमें गणितीय प्रमाणों को औपचारिक किया जाता है और परमाण्विक रूप से जांचा, विघटित और उच्छेदित किया जा सकता है। - **Erdős problems** (अवधारणा): Paul Erdős द्वारा प्रस्तावित लगभग 1,100 खुली समस्याएं; AI ने ~50 हल कीं, लगभग सभी में नगण्य पूर्व साहित्य था। - **निगमनात्मक ओवरहैंग** (अवधारणा): यह विचार कि मौजूदा डेटा में अभी तक निकाले गए से कहीं अधिक व्युत्पन्न ज्ञान है, खगोल विज्ञान इसका आदर्श उदाहरण। - **Riemann hypothesis** (अवधारणा): अभाज्य संख्या वितरण पर अनसुलझा अनुमान; यह परीक्षण मामला है कि AI प्रमाण मानव गणितीय समझ को आगे बढ़ाएगा या नहीं।

#ai-for-math#terence-tao#kepler