तंत्रिका नेटवर्क की विस्तार सीमाएं: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(5 intermediate revisions by 4 users not shown)
Line 1: Line 1:
[[File:Infinitely wide neural network.webm|thumb|406x406px|एक न्यूरल नेटवर्क का व्यवहार सरल हो जाता है क्योंकि यह अनंत रूप से व्यापक हो जाता है। बाएं: दो छिपी हुई परतों वाला एक [[बायेसियन नेटवर्क]], एक 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है <math>(y_1, y_2)</math> (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फ़ंक्शन <math>p(y_1, y_2)</math> नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में एक [[तंत्रिका नेटवर्क गाऊसी प्रक्रिया|न्यूरल नेटवर्क गाऊसी प्रक्रिया]] में परिवर्तित हो जाता है।]]
[[File:Infinitely wide neural network.webm|thumb|406x406px|न्यूरल नेटवर्क का व्यवहार सरल हो जाता है क्योंकि यह अनंत रूप से व्यापक हो जाता है। बाएं: दो छिपी हुई परतों वाला [[बायेसियन नेटवर्क]], 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है <math>(y_1, y_2)</math> (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फ़ंक्शन <math>p(y_1, y_2)</math> नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में [[तंत्रिका नेटवर्क गाऊसी प्रक्रिया|न्यूरल नेटवर्क गाऊसी प्रक्रिया]] में परिवर्तित हो जाता है।]]




[[कृत्रिम तंत्रिका नेटवर्क|आर्टिफिशियल न्यूरल नेटवर्क]] मशीन लर्निंग में उपयोग किए जाने वाले मॉडलों का एक वर्ग है, और जैविक [[तंत्रिका सर्किट|न्यूरल नेटवर्क]] से प्रेरित है। वे आधुनिक गहन शिक्षण एल्गोरिदम के मुख्य घटक हैं। आर्टिफिशियल न्यूरल नेटवर्क में गणना समान्यत: आर्टिफिशियल न्यूरॉन्स की अनुक्रमिक परतों में व्यवस्थित की जाती है। एक परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। आर्टिफिशियल न्यूरल नेटवर्क का सैद्धांतिक विश्लेषण कभी-कभी सीमित स्थिति पर विचार करता है कि परत की चौड़ाई बड़ी या अनंत हो जाती है। यह सीमा न्यूरल नेटवर्क पूर्वानुमानों , प्रशिक्षण गतिशीलता, सामान्यीकरण और हानि सतहों के बारे में सरल विश्लेषणात्मक कथन देने में सक्षम बनाती है। यह विस्तृत परत सीमा व्यावहारिक रुचि की भी है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले न्यूरल नेटवर्क अधिकांशतः उत्तम प्रदर्शन करते हैं।<ref name=":7">
 
[[कृत्रिम तंत्रिका नेटवर्क|आर्टिफिशियल न्यूरल नेटवर्क]] मशीन लर्निंग में उपयोग किए जाने वाले मॉडलों का वर्ग है, और जैविक [[तंत्रिका सर्किट|न्यूरल नेटवर्क]] से प्रेरित है। वह  आधुनिक गहन शिक्षण एल्गोरिदम के मुख्य घटक हैं। आर्टिफिशियल न्यूरल नेटवर्क में गणना समान्यत: आर्टिफिशियल न्यूरॉन्स की अनुक्रमिक परतों में व्यवस्थित की जाती है। परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। आर्टिफिशियल न्यूरल नेटवर्क का सैद्धांतिक विश्लेषण कभी-कभी सीमित स्थिति पर विचार करता है कि परत की चौड़ाई बड़ी या अनंत हो जाती है। यह सीमा न्यूरल नेटवर्क पूर्वानुमानों , प्रशिक्षण गतिशीलता, सामान्यीकरण और हानि सतहों के बारे में सरल विश्लेषणात्मक कथन देने में सक्षम बनाती है। यह विस्तृत परत सीमा व्यावहारिक रुचि की भी है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले न्यूरल नेटवर्क अधिकांशतः उत्तम प्रदर्शन करते हैं।<ref name=":7">
{{Cite journal|last1=Novak|first1=Roman|last2=Bahri|first2=Yasaman|last3=Abolafia|first3=Daniel A.|last4=Pennington|first4=Jeffrey|last5=Sohl-Dickstein|first5=Jascha|date=2018-02-15|title=Sensitivity and Generalization in Neural Networks: an Empirical Study|url=https://openreview.net/forum?id=HJC2SzZCW|journal=International Conference on Learning Representations|arxiv=1802.08760|bibcode=2018arXiv180208760N}}</ref><ref name=":8">
{{Cite journal|last1=Novak|first1=Roman|last2=Bahri|first2=Yasaman|last3=Abolafia|first3=Daniel A.|last4=Pennington|first4=Jeffrey|last5=Sohl-Dickstein|first5=Jascha|date=2018-02-15|title=Sensitivity and Generalization in Neural Networks: an Empirical Study|url=https://openreview.net/forum?id=HJC2SzZCW|journal=International Conference on Learning Representations|arxiv=1802.08760|bibcode=2018arXiv180208760N}}</ref><ref name=":8">
{{Cite journal|last1=Canziani|first1=Alfredo|last2=Paszke|first2=Adam|last3=Culurciello|first3=Eugenio|date=2016-11-04|title=An Analysis of Deep Neural Network Models for Practical Applications|url=https://openreview.net/forum?id=Bygq-H9eg|arxiv=1605.07678|bibcode=2016arXiv160507678C}}</ref><ref name=":1">
{{Cite journal|last1=Canziani|first1=Alfredo|last2=Paszke|first2=Adam|last3=Culurciello|first3=Eugenio|date=2016-11-04|title=An Analysis of Deep Neural Network Models for Practical Applications|url=https://openreview.net/forum?id=Bygq-H9eg|arxiv=1605.07678|bibcode=2016arXiv160507678C}}</ref><ref name=":1">
Line 11: Line 12:
== बड़ी चौड़ाई सीमा पर आधारित सैद्धांतिक दृष्टिकोण                                                                                    ==
== बड़ी चौड़ाई सीमा पर आधारित सैद्धांतिक दृष्टिकोण                                                                                    ==


* [[ तंत्रिका नेटवर्क गाऊसी प्रक्रिया | न्यूरल नेटवर्क गाऊसी प्रक्रिया]] (एनएनजीपी) बायेसियन न्यूरल नेटवर्क की अनंत चौड़ाई सीमा और यादृच्छिक आरंभीकरण के बाद गैर-बायेसियन न्यूरल नेटवर्क द्वारा अनुभव किए गए कार्यों पर वितरण से मेल खाता है।<ref>
* [[ तंत्रिका नेटवर्क गाऊसी प्रक्रिया |न्यूरल नेटवर्क गाऊसी प्रक्रिया]] (एनएनजीपी) बायेसियन न्यूरल नेटवर्क की अनंत चौड़ाई सीमा और यादृच्छिक आरंभीकरण के पश्चात गैर-बायेसियन न्यूरल नेटवर्क द्वारा अनुभव किए गए कार्यों पर वितरण से मेल खाता है।<ref>
{{Citation|last=Neal|first=Radford M.|chapter=Priors for Infinite Networks|date=1996|title=Bayesian Learning for Neural Networks|series=Lecture Notes in Statistics|volume=118|pages=29–53|publisher=Springer New York|doi=10.1007/978-1-4612-0745-0_2|isbn=978-0-387-94724-2}}
{{Citation|last=Neal|first=Radford M.|chapter=Priors for Infinite Networks|date=1996|title=Bayesian Learning for Neural Networks|series=Lecture Notes in Statistics|volume=118|pages=29–53|publisher=Springer New York|doi=10.1007/978-1-4612-0745-0_2|isbn=978-0-387-94724-2}}
</ref><ref>
</ref><ref>
Line 23: Line 24:
{{Cite journal|last1=Schoenholz|first1=Samuel S.|last2=Gilmer|first2=Justin|last3=Ganguli|first3=Surya|last4=Sohl-Dickstein|first4=Jascha|date=2016|title=Deep information propagation|journal=International Conference on Learning Representations|arxiv=1611.01232}}
{{Cite journal|last1=Schoenholz|first1=Samuel S.|last2=Gilmer|first2=Justin|last3=Ganguli|first3=Surya|last4=Sohl-Dickstein|first4=Jascha|date=2016|title=Deep information propagation|journal=International Conference on Learning Representations|arxiv=1611.01232}}
</ref> इस लक्षण वर्णन का उपयोग यह अनुमान लगाने के लिए किया जाता है कि मॉडल प्रशिक्षण क्षमता आर्किटेक्चर और आरंभीकरण हाइपर-पैरामीटर पर कैसे निर्भर करती है।
</ref> इस लक्षण वर्णन का उपयोग यह अनुमान लगाने के लिए किया जाता है कि मॉडल प्रशिक्षण क्षमता आर्किटेक्चर और आरंभीकरण हाइपर-पैरामीटर पर कैसे निर्भर करती है।
* [[तंत्रिका स्पर्शरेखा कर्नेल|न्यूरल स्पर्शरेखा कर्नेल]] ग्रेडिएंट डिसेंट ट्रेनिंग के समय न्यूरल नेटवर्क पूर्वानुमानों के विकास का वर्णन करता है। अनंत चौड़ाई सीमा में एनटीके समान्यत: स्थिर हो जाता है, जो अधिकांशतः ग्रेडिएंट डिसेंट ट्रेनिंग के समय एक विस्तृत न्यूरल नेटवर्क द्वारा गणना किए गए फ़ंक्शन के लिए संवर्त फॉर्म अभिव्यक्तियों की अनुमति देता है।<ref>
* [[तंत्रिका स्पर्शरेखा कर्नेल|न्यूरल स्पर्शरेखा कर्नेल]] ग्रेडिएंट डिसेंट ट्रेनिंग के समय न्यूरल नेटवर्क पूर्वानुमानों के विकास का वर्णन करता है। अनंत चौड़ाई सीमा में एनटीके समान्यत: स्थिर हो जाता है, जो अधिकांशतः ग्रेडिएंट डिसेंट ट्रेनिंग के समय विस्तृत न्यूरल नेटवर्क द्वारा गणना किए गए फ़ंक्शन के लिए संवर्त फॉर्म अभिव्यक्तियों की अनुमति देता है।<ref>
{{Cite journal|last1=Jacot| first1=Arthur| last2=Gabriel| first2=Franck| last3=Hongler| first3=Clement|title=Neural tangent kernel: Convergence and generalization in neural networks|date=2018|journal=Advances in Neural Information Processing Systems|arxiv=1806.07572}}</ref> प्रशिक्षण की गतिशीलता अनिवार्य रूप से रैखिक हो जाती है।<ref name="Lee">{{Cite journal|last1=Lee|first1=Jaehoon|last2=Xiao|first2=Lechao|last3=Schoenholz|first3=Samuel S.|last4=Bahri|first4=Yasaman|last5=Novak|first5=Roman|last6=Sohl-Dickstein|first6=Jascha|last7=Pennington|first7=Jeffrey|title=किसी भी गहराई के विस्तृत तंत्रिका नेटवर्क ग्रेडिएंट डिसेंट के तहत रैखिक मॉडल के रूप में विकसित होते हैं|journal=Journal of Statistical Mechanics: Theory and Experiment|year=2020|volume=2020|issue=12|page=124002|doi=10.1088/1742-5468/abc62b|arxiv=1902.06720|bibcode=2020JSMTE2020l4002L|s2cid=62841516}}</ref>
{{Cite journal|last1=Jacot| first1=Arthur| last2=Gabriel| first2=Franck| last3=Hongler| first3=Clement|title=Neural tangent kernel: Convergence and generalization in neural networks|date=2018|journal=Advances in Neural Information Processing Systems|arxiv=1806.07572}}</ref> प्रशिक्षण की गतिशीलता अनिवार्य रूप से रैखिक हो जाती है।<ref name="Lee">{{Cite journal|last1=Lee|first1=Jaehoon|last2=Xiao|first2=Lechao|last3=Schoenholz|first3=Samuel S.|last4=Bahri|first4=Yasaman|last5=Novak|first5=Roman|last6=Sohl-Dickstein|first6=Jascha|last7=Pennington|first7=Jeffrey|title=किसी भी गहराई के विस्तृत तंत्रिका नेटवर्क ग्रेडिएंट डिसेंट के तहत रैखिक मॉडल के रूप में विकसित होते हैं|journal=Journal of Statistical Mechanics: Theory and Experiment|year=2020|volume=2020|issue=12|page=124002|doi=10.1088/1742-5468/abc62b|arxiv=1902.06720|bibcode=2020JSMTE2020l4002L|s2cid=62841516}}</ref>
* एक अलग प्रारंभिक वजन स्केलिंग और उपयुक्त रूप से बड़ी सीखने की दर के साथ अनंत चौड़ाई वाले न्यूरल नेटवर्क का अध्ययन, निश्चित न्यूरल स्पर्शरेखा कर्नेल द्वारा वर्णित की तुलना में गुणात्मक रूप से भिन्न गैर-रेखीय प्रशिक्षण गतिशीलता की ओर जाता है।<ref>{{Cite book|last=Mei, Song Montanari, Andrea Nguyen, Phan-Minh|title=दो-परतों वाले तंत्रिका नेटवर्क के परिदृश्य का एक औसत फ़ील्ड दृश्य|date=2018-04-18|oclc=1106295873}}</ref><ref>
* इस प्रकार के भिन्न प्रारंभिक वजन स्केलिंग और उपयुक्त रूप से बड़ी सीखने की दर के साथ अनंत चौड़ाई वाले न्यूरल नेटवर्क का अध्ययन, निश्चित न्यूरल स्पर्शरेखा कर्नेल द्वारा वर्णित की तुलना में गुणात्मक रूप से भिन्न गैर-रेखीय प्रशिक्षण गतिशीलता की ओर जाता है।<ref>{{Cite book|last=Mei, Song Montanari, Andrea Nguyen, Phan-Minh|title=दो-परतों वाले तंत्रिका नेटवर्क के परिदृश्य का एक औसत फ़ील्ड दृश्य|date=2018-04-18|oclc=1106295873}}</ref><ref>
{{Cite arXiv|last1=Nguyen| first1=Phan-Minh| last2=Pham| first2=Huy Tuan|title=A Rigorous Framework for the Mean Field Limit of Multilayer Neural Networks|date=2020| class=cs.LG|eprint=2001.11443}}
{{Cite arXiv|last1=Nguyen| first1=Phan-Minh| last2=Pham| first2=Huy Tuan|title=A Rigorous Framework for the Mean Field Limit of Multilayer Neural Networks|date=2020| class=cs.LG|eprint=2001.11443}}
</ref>
</ref>
Line 34: Line 35:


== संदर्भ                                                                                                                                                                        ==
== संदर्भ                                                                                                                                                                        ==
<!-- Inline citations added to your article will automatically display here. See en.wikipedia.org/wiki/WP:REFB for instructions on how to add citations. -->
{{reflist}}
{{reflist}}
[[Category: ध्यान लगा के पढ़ना या सीखना]] [[Category: कृत्रिम तंत्रिका प्रसार]]


[[Category: Machine Translated Page]]
[[Category:CS1 errors]]
[[Category:CS1 maint]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:कृत्रिम तंत्रिका प्रसार]]
[[Category:ध्यान लगा के पढ़ना या सीखना]]

Latest revision as of 10:19, 22 August 2023

न्यूरल नेटवर्क का व्यवहार सरल हो जाता है क्योंकि यह अनंत रूप से व्यापक हो जाता है। बाएं: दो छिपी हुई परतों वाला बायेसियन नेटवर्क, 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फ़ंक्शन नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में न्यूरल नेटवर्क गाऊसी प्रक्रिया में परिवर्तित हो जाता है।


आर्टिफिशियल न्यूरल नेटवर्क मशीन लर्निंग में उपयोग किए जाने वाले मॉडलों का वर्ग है, और जैविक न्यूरल नेटवर्क से प्रेरित है। वह आधुनिक गहन शिक्षण एल्गोरिदम के मुख्य घटक हैं। आर्टिफिशियल न्यूरल नेटवर्क में गणना समान्यत: आर्टिफिशियल न्यूरॉन्स की अनुक्रमिक परतों में व्यवस्थित की जाती है। परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। आर्टिफिशियल न्यूरल नेटवर्क का सैद्धांतिक विश्लेषण कभी-कभी सीमित स्थिति पर विचार करता है कि परत की चौड़ाई बड़ी या अनंत हो जाती है। यह सीमा न्यूरल नेटवर्क पूर्वानुमानों , प्रशिक्षण गतिशीलता, सामान्यीकरण और हानि सतहों के बारे में सरल विश्लेषणात्मक कथन देने में सक्षम बनाती है। यह विस्तृत परत सीमा व्यावहारिक रुचि की भी है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले न्यूरल नेटवर्क अधिकांशतः उत्तम प्रदर्शन करते हैं।[1][2][3][4][5][6]

बड़ी चौड़ाई सीमा पर आधारित सैद्धांतिक दृष्टिकोण

  • न्यूरल नेटवर्क गाऊसी प्रक्रिया (एनएनजीपी) बायेसियन न्यूरल नेटवर्क की अनंत चौड़ाई सीमा और यादृच्छिक आरंभीकरण के पश्चात गैर-बायेसियन न्यूरल नेटवर्क द्वारा अनुभव किए गए कार्यों पर वितरण से मेल खाता है।[7][8][9][10]
  • एनएनजीपी कर्नेल को प्राप्त करने के लिए उपयोग की जाने वाली समान अंतर्निहित गणनाओं का उपयोग गहरे नेटवर्क के माध्यम से ग्रेडिएंट और इनपुट के बारे में जानकारी के प्रसार को चिह्नित करने के लिए गहन सूचना प्रसार में भी किया जाता है।[11] इस लक्षण वर्णन का उपयोग यह अनुमान लगाने के लिए किया जाता है कि मॉडल प्रशिक्षण क्षमता आर्किटेक्चर और आरंभीकरण हाइपर-पैरामीटर पर कैसे निर्भर करती है।
  • न्यूरल स्पर्शरेखा कर्नेल ग्रेडिएंट डिसेंट ट्रेनिंग के समय न्यूरल नेटवर्क पूर्वानुमानों के विकास का वर्णन करता है। अनंत चौड़ाई सीमा में एनटीके समान्यत: स्थिर हो जाता है, जो अधिकांशतः ग्रेडिएंट डिसेंट ट्रेनिंग के समय विस्तृत न्यूरल नेटवर्क द्वारा गणना किए गए फ़ंक्शन के लिए संवर्त फॉर्म अभिव्यक्तियों की अनुमति देता है।[12] प्रशिक्षण की गतिशीलता अनिवार्य रूप से रैखिक हो जाती है।[13]
  • इस प्रकार के भिन्न प्रारंभिक वजन स्केलिंग और उपयुक्त रूप से बड़ी सीखने की दर के साथ अनंत चौड़ाई वाले न्यूरल नेटवर्क का अध्ययन, निश्चित न्यूरल स्पर्शरेखा कर्नेल द्वारा वर्णित की तुलना में गुणात्मक रूप से भिन्न गैर-रेखीय प्रशिक्षण गतिशीलता की ओर जाता है।[14][15]
  • कैटापुल्ट डायनेमिक्स उस स्थिति में न्यूरल नेटवर्क प्रशिक्षण डायनेमिक्स का वर्णन करता है जब परत की चौड़ाई अनंत तक ले जाने पर लॉग अनंत तक विचलन करता है, और प्रारंभिक प्रशिक्षण डायनेमिक्स के गुणात्मक गुणों का वर्णन करता है।[16]


संदर्भ

  1. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
  2. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C. {{cite journal}}: Cite journal requires |journal= (help)
  3. Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
  4. Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
  5. Lawrence, Steve; Giles, C. Lee; Tsoi, Ah Chung (1996). "What size neural network gives optimal generalization? convergence properties of backpropagation". CiteSeerX 10.1.1.125.6019. {{cite journal}}: Cite journal requires |journal= (help)
  6. Bartlett, P.L. (1998). "The sample complexity of pattern classification with neural networks: the size of the weights is more important than the size of the network". IEEE Transactions on Information Theory. 44 (2): 525–536. doi:10.1109/18.661502. ISSN 1557-9654.
  7. Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
  8. Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Deep Neural Networks as Gaussian Processes". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
  9. G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
  10. Hron, Jiri; Bahri, Yasaman; Novak, Roman; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2020). "Exact posterior distributions of wide Bayesian neural networks". ICML 2020 Workshop on Uncertainty & Robustness in Deep Learning. arXiv:2006.10541.
  11. Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
  12. Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018). "Neural tangent kernel: Convergence and generalization in neural networks". Advances in Neural Information Processing Systems. arXiv:1806.07572.
  13. Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "किसी भी गहराई के विस्तृत तंत्रिका नेटवर्क ग्रेडिएंट डिसेंट के तहत रैखिक मॉडल के रूप में विकसित होते हैं". Journal of Statistical Mechanics: Theory and Experiment. 2020 (12): 124002. arXiv:1902.06720. Bibcode:2020JSMTE2020l4002L. doi:10.1088/1742-5468/abc62b. S2CID 62841516.
  14. Mei, Song Montanari, Andrea Nguyen, Phan-Minh (2018-04-18). दो-परतों वाले तंत्रिका नेटवर्क के परिदृश्य का एक औसत फ़ील्ड दृश्य. OCLC 1106295873.{{cite book}}: CS1 maint: multiple names: authors list (link)
  15. Nguyen, Phan-Minh; Pham, Huy Tuan (2020). "A Rigorous Framework for the Mean Field Limit of Multilayer Neural Networks". arXiv:2001.11443 [cs.LG].
  16. Lewkowycz, Aitor; Bahri, Yasaman; Dyer, Ethan; Sohl-Dickstein, Jascha; Gur-Ari, Guy (2020). "The large learning rate phase of deep learning: the catapult mechanism". arXiv:2003.02218 [stat.ML].