तंत्रिका नेटवर्क गाऊसी प्रक्रिया: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(9 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|The distribution over functions corresponding to an infinitely wide Bayesian neural network.}}
{{Short description|The distribution over functions corresponding to an infinitely wide Bayesian neural network.}}
[[File:Infinitely wide neural network.webm|thumb|406x406px|बाएं: दो छिपी हुई परतों वाला [[बायेसियन नेटवर्क]], 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है <math>(y_1, y_2)</math> (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फ़ंक्शन <math>p(y_1, y_2)</math> नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में [[बहुभिन्नरूपी सामान्य वितरण]] में परिवर्तित हो जाता है।]]बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए मॉडलिंग उपकरण है, और इस प्रकार मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। [[ध्यान लगा के पढ़ना या सीखना|डीप लर्निंग]] और [[कृत्रिम तंत्रिका नेटवर्क]] ऐसे दृष्टिकोण हैं जिनका उपयोग [[ यंत्र अधिगम ]] में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके [[सांख्यिकीय पैरामीटर]] और पूर्वानुमान दोनों संभाव्य हैं।<ref>{{Cite journal|last=MacKay|first=David J. C.|date=1992|title=बैकप्रॉपैगेशन नेटवर्क के लिए एक व्यावहारिक बायेसियन फ्रेमवर्क|journal=Neural Computation|volume=4|issue=3|pages=448–472|doi=10.1162/neco.1992.4.3.448|s2cid=16543854|issn=0899-7667|url=https://resolver.caltech.edu/CaltechAUTHORS:MACnc92b}}</ref><ref>{{Cite book|last=Neal|first=Radford M.|title=तंत्रिका नेटवर्क के लिए बायेसियन लर्निंग|publisher=Springer Science and Business Media|year=2012}}</ref> जबकि मानक कृत्रिम तंत्रिका नेटवर्क अधिकांश गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं,<ref>
[[File:Infinitely wide neural network.webm|thumb|406x406px|बाएं: दो छिपी हुई लेयर्स वाला [[बायेसियन नेटवर्क]], 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है <math>(y_1, y_2)</math> (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फलन <math>p(y_1, y_2)</math> नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में [[बहुभिन्नरूपी सामान्य वितरण]] में परिवर्तित हो जाता है।]]बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए मॉडलिंग उपकरण है, और इस प्रकार मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। [[ध्यान लगा के पढ़ना या सीखना|डीप लर्निंग]] और [[कृत्रिम तंत्रिका नेटवर्क]] ऐसे दृष्टिकोण हैं जिनका उपयोग [[ यंत्र अधिगम |यंत्र अधिगम]] में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके [[सांख्यिकीय पैरामीटर]] और पूर्वानुमान दोनों संभाव्य हैं।<ref>{{Cite journal|last=MacKay|first=David J. C.|date=1992|title=बैकप्रॉपैगेशन नेटवर्क के लिए एक व्यावहारिक बायेसियन फ्रेमवर्क|journal=Neural Computation|volume=4|issue=3|pages=448–472|doi=10.1162/neco.1992.4.3.448|s2cid=16543854|issn=0899-7667|url=https://resolver.caltech.edu/CaltechAUTHORS:MACnc92b}}</ref><ref>{{Cite book|last=Neal|first=Radford M.|title=तंत्रिका नेटवर्क के लिए बायेसियन लर्निंग|publisher=Springer Science and Business Media|year=2012}}</ref> जबकि मानक कृत्रिम तंत्रिका नेटवर्क अधिकांश गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं,<ref>
{{cite journal|last1=Guo|first1=Chuan|last2=Pleiss|first2=Geoff|last3=Sun|first3=Yu|last4=Weinberger|first4=Kilian Q.|date=2017|title=On calibration of modern neural networks|journal=Proceedings of the 34th International Conference on Machine Learning-Volume 70|arxiv=1706.04599}}
{{cite journal|last1=Guo|first1=Chuan|last2=Pleiss|first2=Geoff|last3=Sun|first3=Yu|last4=Weinberger|first4=Kilian Q.|date=2017|title=On calibration of modern neural networks|journal=Proceedings of the 34th International Conference on Machine Learning-Volume 70|arxiv=1706.04599}}
</ref> बायेसियन तंत्रिका नेटवर्क अधिक त्रुटिहीन रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।
</ref> बायेसियन तंत्रिका नेटवर्क अधिक त्रुटिहीन रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।


तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं (एनएनजीपी) विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के बराबर हैं,<ref name=":2" /><ref name=":11">
'''तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं''' ('''एनएनजीपी''') विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के सामान्तर हैं,<ref name=":2">{{Citation|last=Neal|first=Radford M.|chapter=Priors for Infinite Networks|date=1996|title=Bayesian Learning for Neural Networks|series=Lecture Notes in Statistics|volume=118|pages=29–53|publisher=Springer New York|doi=10.1007/978-1-4612-0745-0_2|isbn=978-0-387-94724-2}}</ref><ref name=":11">
{{cite journal|last1=Williams|first1=Christopher K. I.|date=1997|title=Computing with infinite networks|journal=Neural Information Processing Systems}}
{{cite journal|last1=Williams|first1=Christopher K. I.|date=1997|title=Computing with infinite networks|journal=Neural Information Processing Systems}}
</ref><ref name=":0">{{cite journal|last1=Lee|first1=Jaehoon|last2=Bahri|first2=Yasaman|last3=Novak|first3=Roman|last4=Schoenholz|first4=Samuel S.|last5=Pennington|first5=Jeffrey|last6=Sohl-Dickstein|first6=Jascha|date=2017|title=गॉसियन प्रक्रियाओं के रूप में डीप न्यूरल नेटवर्क|journal=International Conference on Learning Representations|arxiv=1711.00165|bibcode=2017arXiv171100165L}}</ref><ref name=":3" /><ref name=":1" /><ref name=":4" /><ref name=":9" /><ref>
</ref><ref name=":0">{{cite journal|last1=Lee|first1=Jaehoon|last2=Bahri|first2=Yasaman|last3=Novak|first3=Roman|last4=Schoenholz|first4=Samuel S.|last5=Pennington|first5=Jeffrey|last6=Sohl-Dickstein|first6=Jascha|date=2017|title=गॉसियन प्रक्रियाओं के रूप में डीप न्यूरल नेटवर्क|journal=International Conference on Learning Representations|arxiv=1711.00165|bibcode=2017arXiv171100165L}}</ref><ref name=":3">
{{cite journal |last1=G. de G. Matthews |first1=Alexander |last2=Rowland |first2=Mark |last3=Hron |first3=Jiri |last4=Turner |first4=Richard E. |last5=Ghahramani | first5=Zoubin |date=2017 |title=Gaussian Process Behaviour in Wide Deep Neural Networks |journal=International Conference on Learning Representations |arxiv=1804.11271 |bibcode=2018arXiv180411271M }}
</ref><ref name=":1">
{{cite journal |last1=Novak |first1=Roman |last2=Xiao |first2=Lechao |last3=Lee |first3=Jaehoon |last4=Bahri |first4=Yasaman |last5=Yang | first5=Greg |last6=Abolafia | first6=Dan | last7= Pennington |first7=Jeffrey |last8=Sohl-Dickstein |first8=Jascha |date=2018 |title=Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes |journal=International Conference on Learning Representations |arxiv=1810.05148 |bibcode=2018arXiv181005148N }}</ref><ref name=":4">
{{cite journal |last1=Garriga-Alonso |first1= Adrià |last2= Aitchison |first2= Laurence |last3=Rasmussen |first3=Carl Edward |date=2018 |title=Deep Convolutional Networks as shallow Gaussian Processes |journal=International Conference on Learning Representations |arxiv= 1808.05587 |bibcode= 2018arXiv180805587G }}</ref><ref name=":9">
{{cite arXiv |last1=Borovykh |first1=Anastasia |date=2018 |title=A Gaussian Process perspective on Convolutional Neural Networks |class=stat.ML |eprint=1810.10798 }}
</ref><ref>
{{cite arXiv|eprint=2002.08517|class=cs.LG|first1=Russell|last1=Tsuchida|first2=Tim|last2=Pearce|title=Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks|date=2020|last3=van der Heide|first3=Christopher|last4=Roosta|first4=Fred|last5=Gallagher|first5=Marcus}}
{{cite arXiv|eprint=2002.08517|class=cs.LG|first1=Russell|last1=Tsuchida|first2=Tim|last2=Pearce|title=Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks|date=2020|last3=van der Heide|first3=Christopher|last4=Roosta|first4=Fred|last5=Gallagher|first5=Marcus}}
</ref><ref name=":5" /> और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए [[बंद-रूप अभिव्यक्ति]] तरीका प्रदान करें। वे [[गाऊसी प्रक्रिया]] संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना सामान्यतः [[कृत्रिम न्यूरॉन|कृत्रिम न्यूरॉन्स]] की अनुक्रमिक परतों में व्यवस्थित की जाती है। परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के बीच समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में परतें असीमित रूप से चौड़ी (आंकड़ा देखें) हो जाती हैं। यह बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क सामान्यतः बेहतर प्रदर्शन करते हैं।<ref name=":7">
</ref><ref name=":5">
{{cite journal |last1=Yang |first1=Greg |date=2019 |title=Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes |url=https://papers.nips.cc/paper/9186-wide-feedforward-or-recurrent-neural-networks-of-any-architecture-are-gaussian-processes.pdf |journal=Advances in Neural Information Processing Systems |arxiv=1910.12478 |bibcode=2019arXiv191012478Y }}
</ref> और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए [[बंद-रूप अभिव्यक्ति]] विधि प्रदान करें। वे [[गाऊसी प्रक्रिया]] संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना सामान्यतः [[कृत्रिम न्यूरॉन|कृत्रिम न्यूरॉन्स]] की अनुक्रमिक लेयर्स में व्यवस्थित की जाती है। लेयर में न्यूरॉन्स की संख्या को लेयर की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के मध्य समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में लेयरें अनन्तित रूप से चौड़ी (आंकड़ा देखें) हो जाती हैं। यह बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि लेयर की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क सामान्यतः उत्तम प्रदर्शन करते हैं।<ref name=":7">
{{Cite journal|last1=Novak|first1=Roman|last2=Bahri|first2=Yasaman|last3=Abolafia|first3=Daniel A.|last4=Pennington|first4=Jeffrey|last5=Sohl-Dickstein|first5=Jascha|date=2018-02-15|title=Sensitivity and Generalization in Neural Networks: an Empirical Study|url=https://openreview.net/forum?id=HJC2SzZCW|journal=International Conference on Learning Representations|arxiv=1802.08760|bibcode=2018arXiv180208760N}}</ref><ref name=":8">
{{Cite journal|last1=Novak|first1=Roman|last2=Bahri|first2=Yasaman|last3=Abolafia|first3=Daniel A.|last4=Pennington|first4=Jeffrey|last5=Sohl-Dickstein|first5=Jascha|date=2018-02-15|title=Sensitivity and Generalization in Neural Networks: an Empirical Study|url=https://openreview.net/forum?id=HJC2SzZCW|journal=International Conference on Learning Representations|arxiv=1802.08760|bibcode=2018arXiv180208760N}}</ref><ref name=":8">
{{Cite journal|last1=Canziani|first1=Alfredo|last2=Paszke|first2=Adam|last3=Culurciello|first3=Eugenio|date=2016-11-04|title=An Analysis of Deep Neural Network Models for Practical Applications|url=https://openreview.net/forum?id=Bygq-H9eg|arxiv=1605.07678|bibcode=2016arXiv160507678C}}</ref><ref name=":1" /><ref name=":6">
{{Cite journal|last1=Canziani|first1=Alfredo|last2=Paszke|first2=Adam|last3=Culurciello|first3=Eugenio|date=2016-11-04|title=An Analysis of Deep Neural Network Models for Practical Applications|url=https://openreview.net/forum?id=Bygq-H9eg|arxiv=1605.07678|bibcode=2016arXiv160507678C}}</ref><ref name=":1" /><ref name=":6">
Line 14: Line 22:
</ref>
</ref>


एनएनजीपी कई अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के बाद, लेकिन प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह [[तंत्रिका स्पर्शरेखा कर्नेल]] भविष्यवाणी समीकरणों में शब्द के रूप में प्रकट होता है; इसका उपयोग [[गहन सूचना प्रसार|डीप सूचना प्रसार]] में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं।<ref name=":10">
एनएनजीपी अनेक अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के पश्चात्, किन्तु प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह [[तंत्रिका स्पर्शरेखा कर्नेल]] भविष्यवाणी समीकरणों में शब्द के रूप में प्रकट होता है; इसका उपयोग [[गहन सूचना प्रसार|डीप सूचना प्रसार]] में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं।<ref name=":10">
{{Cite journal|last1=Schoenholz|first1=Samuel S.|last2=Gilmer|first2=Justin|last3=Ganguli|first3=Surya|last4=Sohl-Dickstein|first4=Jascha|date=2016|title=Deep information propagation|journal=International Conference on Learning Representations|arxiv=1611.01232}}
{{Cite journal|last1=Schoenholz|first1=Samuel S.|last2=Gilmer|first2=Justin|last3=Ganguli|first3=Surya|last4=Sohl-Dickstein|first4=Jascha|date=2016|title=Deep information propagation|journal=International Conference on Learning Representations|arxiv=1611.01232}}
</ref> यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।
</ref> यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।


== कार्टून चित्रण ==
== कार्टून चित्रण ==
[[File:Wide neural networks are described by a Gaussian process svg.svg|alt=|thumb|406x406px|जब पैरामीटर <math>\theta</math> अनंत चौड़ाई वाले नेटवर्क का उनके पूर्व से बार-बार नमूना लिया जाता है <math>p(\theta)</math>नेटवर्क आउटपुट पर परिणामी वितरण को गाऊसी प्रक्रिया द्वारा वर्णित किया गया है।]]तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग <math>\theta</math> तंत्रिका नेटवर्क द्वारा गणना किए गए विशिष्ट फ़ंक्शन से मेल खाता है। पूर्व वितरण <math>p(\theta)</math> इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को असीम रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण कई आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।
[[File:Wide neural networks are described by a Gaussian process svg.svg|alt=|thumb|406x406px|जब अनंत चौड़ाई वाले नेटवर्क के पैरामीटर <math>\theta</math> को उनके पिछले <math>p(\theta)</math> से बार-बार नमूना लिया जाता है, तब नेटवर्क आउटपुट पर परिणामी वितरण को गॉसियन प्रक्रिया द्वारा वर्णित किया जाता है।]]तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग <math>\theta</math> तंत्रिका नेटवर्क द्वारा गणना किए गए विशिष्ट फलन से मेल खाता है। पूर्व वितरण <math>p(\theta)</math> इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को अनन्त रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण अनेक आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।


दाईं ओर का चित्र एक-आयामी आउटपुट को प्लॉट करता है <math>z^L(\cdot;\theta)</math> दो इनपुट के लिए तंत्रिका नेटवर्क का <math>x</math> और <math>x^*</math> दूसरे के खिलाफ। काले बिंदु पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फ़ंक्शन को दिखाते हैं <math>p(\theta)</math>. लाल रेखाएं नेटवर्क आउटपुट पर संयुक्त वितरण के लिए आईएसओ-संभाव्यता रूपरेखा हैं <math>z^L(x;\theta)</math> और <math>z^L(x^*;\theta)</math> प्रेरक <math>p(\theta)</math>. यह वितरण के अनुरूप फ़ंक्शन स्पेस में वितरण है <math>p(\theta)</math> पैरामीटर स्पेस में, और काले बिंदु इस वितरण से नमूने हैं। असीम रूप से विस्तृत तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण गाऊसी प्रक्रिया है, नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित सेट के लिए बहुभिन्नरूपी गाऊसी प्रक्रिया है।
दाईं ओर का चित्र दो इनपुट <math>x</math> और <math>x^*</math> के लिए एक तंत्रिका नेटवर्क के एक-आयामी आउटपुट <math>z^L(\cdot;\theta)</math> को एक-दूसरे के विरुद्ध प्लॉट करता है। काले बिंदु <math>p(\theta)</math> से पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फलन को दिखाते हैं। लाल रेखाएं नेटवर्क आउटपुट <math>z^L(x;\theta)</math> और <math>z^L(x^*;\theta)</math> पर <math>p(\theta)</math> द्वारा प्रेरित संयुक्त वितरण के लिए आइसो-संभाव्यता रूपरेखा हैं। यह पैरामीटर स्पेस में वितरण <math>p(\theta)</math> के अनुरूप फलन स्पेस में वितरण है, और काले बिंदु इस वितरण से नमूने हैं। अनन्तित व्यापक तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण एक गाऊसी प्रक्रिया है नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित समुच्चय के लिए एक बहुभिन्नरूपी गाऊसी है।


इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के बीच पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।
इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के मध्य पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।


== आर्किटेक्चर जो एनएनजीपी के अनुरूप है ==
== आर्किटेक्चर जो एनएनजीपी के अनुरूप है ==
असीम रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के बीच समानता को निम्न के लिए दर्शाया गया है: एकल छिपी हुई परत<ref name=":2">{{Citation|last=Neal|first=Radford M.|chapter=Priors for Infinite Networks|date=1996|title=Bayesian Learning for Neural Networks|series=Lecture Notes in Statistics|volume=118|pages=29–53|publisher=Springer New York|doi=10.1007/978-1-4612-0745-0_2|isbn=978-0-387-94724-2}}</ref> और गहरा<ref name=":0" /><ref name=":3">
अनन्त रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के मध्य समानता को निम्न के लिए दिखाया गया है: एकल छिपी हुई लेयर<ref name=":2" /> और गहरी<ref name=":0" /><ref name=":3" /> पूरी तरह से [[दृढ़ तंत्रिका नेटवर्क]]<ref name=":1" /><ref name=":4" /><ref name=":9" /> क्योंकि प्रति लेयर इकाइयों की संख्या अनंत तक ले जाती है; चैनलों की संख्या के रूप में कन्वेन्शनल न्यूरल नेटवर्क को अनंत तक ले जाया जाता है; [8] [9] [10] ट्रांसफॉर्मर नेटवर्क को ध्यान प्रमुखों की संख्या के रूप में अनंत तक ले जाया जाता है;<ref>{{Cite journal|last1=Hron|first1=Jiri|last2=Bahri|first2=Yasaman|last3=Sohl-Dickstein|first3=Jascha|last4=Novak|first4=Roman|date=2020-06-18|title=Infinite attention: NNGP and NTK for deep attention networks|journal=International Conference on Machine Learning|volume=2020|arxiv=2006.10540|bibcode=2020arXiv200610540H}}</ref> [[आवर्तक तंत्रिका नेटवर्क]] को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है।<ref name=":5" /> वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी वास्तुकला के लिए प्रयुक्त होता है: सामान्यतः, यदि एक वास्तुकला को केवल आव्युह गुणन और समन्वयात्मक गैर-रैखिकता (अर्थात एक [[टेंसर प्रोग्राम]]) के माध्यम से व्यक्त किया जा सकता है, तब इसमें एक अनंत-चौड़ाई वाला जीपी होता है।<ref name=":5" />  
{{cite journal |last1=G. de G. Matthews |first1=Alexander |last2=Rowland |first2=Mark |last3=Hron |first3=Jiri |last4=Turner |first4=Richard E. |last5=Ghahramani | first5=Zoubin |date=2017 |title=Gaussian Process Behaviour in Wide Deep Neural Networks |journal=International Conference on Learning Representations |arxiv=1804.11271 |bibcode=2018arXiv180411271M }}
 
</ref> प्रति परत इकाइयों की संख्या अनंत तक ले जाने पर पूरी तरह से जुड़े नेटवर्क; चैनलों की संख्या को अनंत तक ले जाने पर [[दृढ़ तंत्रिका नेटवर्क]];<ref name=":1">
इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे [[एलएसटीएम]], जीआरयू), (एनडी या ग्राफ) कनवल्शन, पूलिंग, स्किप कनेक्शन, ध्यान, [[बैच सामान्यीकरण]], और/या लेयर सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क सम्मिलित हैं।
{{cite journal |last1=Novak |first1=Roman |last2=Xiao |first2=Lechao |last3=Lee |first3=Jaehoon |last4=Bahri |first4=Yasaman |last5=Yang | first5=Greg |last6=Abolafia | first6=Dan | last7= Pennington |first7=Jeffrey |last8=Sohl-Dickstein |first8=Jascha |date=2018 |title=Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes |journal=International Conference on Learning Representations |arxiv=1810.05148 |bibcode=2018arXiv181005148N }}</ref><ref name=":4">
{{cite journal |last1=Garriga-Alonso |first1= Adrià |last2= Aitchison |first2= Laurence |last3=Rasmussen |first3=Carl Edward |date=2018 |title=Deep Convolutional Networks as shallow Gaussian Processes |journal=International Conference on Learning Representations |arxiv= 1808.05587 |bibcode= 2018arXiv180805587G }}</ref><ref name=":9">
{{cite arXiv |last1=Borovykh |first1=Anastasia |date=2018 |title=A Gaussian Process perspective on Convolutional Neural Networks |class=stat.ML |eprint=1810.10798 }}
</ref> ट्रांसफॉर्मर नेटवर्क में ध्यान प्रमुखों की संख्या को अनंत तक ले जाया जाता है;<ref>{{Cite journal|last1=Hron|first1=Jiri|last2=Bahri|first2=Yasaman|last3=Sohl-Dickstein|first3=Jascha|last4=Novak|first4=Roman|date=2020-06-18|title=Infinite attention: NNGP and NTK for deep attention networks|journal=International Conference on Machine Learning|volume=2020|arxiv=2006.10540|bibcode=2020arXiv200610540H}}</ref> [[आवर्तक तंत्रिका नेटवर्क]] को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है।<ref name=":5" />वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी आर्किटेक्चर के लिए लागू होता है: सामान्यतः, यदि किसी आर्किटेक्चर को केवल मैट्रिक्स गुणन और समन्वयात्मक गैर-रैखिकता (यानी [[टेंसर प्रोग्राम]]) के माध्यम से व्यक्त किया जा सकता है, तो इसमें अनंत-चौड़ाई वाला जीपी होता है।<ref name=":5">
{{cite journal |last1=Yang |first1=Greg |date=2019 |title=Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes |url=https://papers.nips.cc/paper/9186-wide-feedforward-or-recurrent-neural-networks-of-any-architecture-are-gaussian-processes.pdf |journal=Advances in Neural Information Processing Systems |arxiv=1910.12478 |bibcode=2019arXiv191012478Y }}
</ref>
इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे [[एलएसटीएम]], गेटेड आवर्तक इकाई), (एनडी या ग्राफ) कन्वेन्शनल न्यूरल नेटवर्क, पूलिंग, स्किप कनेक्शन, ध्यान, [[बैच सामान्यीकरण]], और/या परत सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क शामिल हैं।


== असीम रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और गाऊसी प्रक्रिया के बीच पत्राचार ==
== अनन्त रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और गाऊसी प्रक्रिया के मध्य पत्राचार ==


यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट मामले के लिए असीम रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के बीच पत्राचार पर विस्तार करता है। यह प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।<ref name=":1" />
यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट स्थितियों के लिए अनन्त रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के मध्य पत्राचार पर विस्तार करता है। यह प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।<ref name=":1" />




Line 45: Line 46:
=== नेटवर्क आर्किटेक्चर विनिर्देश ===
=== नेटवर्क आर्किटेक्चर विनिर्देश ===


फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है।
फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के सामान्तर है।


इनपुट के साथ पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें <math>x</math>, पैरामीटर <math>\theta</math> वजन से मिलकर <math>W^l</math> और पक्षपात <math>b^l</math> प्रत्येक परत के लिए <math>l</math> नेटवर्क में, पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) <math>z^l</math>, सक्रियण (पोस्ट-नॉनलाइनरिटी) <math>y^l</math>, बिंदुवार अरैखिकता <math>\phi(\cdot)</math>, और परत की चौड़ाई <math>n^l</math>. सरलता के लिए, चौड़ाई <math>n^{L+1}</math> रीडआउट वेक्टर का <math>z^L</math> 1 माना जाता है। इस नेटवर्क के मापदंडों का पूर्व वितरण है <math>p(\theta)</math>, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन शामिल होता है, जिसमें परत की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित सेट द्वारा वर्णित किया गया है:
इनपुट <math>x</math> के साथ एक पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें, पैरामीटर <math>\theta</math> जिसमें नेटवर्क में प्रत्येक लेयर <math>l</math> के लिए वजन <math>W^l</math> और पूर्वाग्रह <math>b^l</math>, पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) <math>z^l</math>, सक्रियण (पोस्ट-नॉनलाइनरिटी) <math>y^l</math>, बिंदुवार नॉनलाइनरिटी <math>\phi(\cdot)</math>, और लेयर चौड़ाई <math>n^l</math> सम्मिलित हैं। सरलता के लिए, रीडआउट सदिश <math>z^L</math> की चौड़ाई <math>n^{L+1}</math> को 1 माना जाता है। इस नेटवर्क के मापदंडों में एक पूर्व वितरण <math>p(\theta)</math> होता है, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन सम्मिलित होता है, जिसमें लेयर की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित समुच्चय द्वारा वर्णित किया गया है:


:<math block="">
:<math block="">
Line 69: Line 70:
=== <math>z^l | y^l</math> गाऊसी प्रक्रिया है ===
=== <math>z^l | y^l</math> गाऊसी प्रक्रिया है ===


हम सबसे पहले यह देखते हैं कि पूर्व-सक्रियण <math>z^l</math> पूर्ववर्ती सक्रियणों पर वातानुकूलित गाऊसी प्रक्रिया द्वारा वर्णित हैं <math>y^l</math>. यह परिणाम सीमित चौड़ाई पर भी कायम रहता है।
हम पहले देखते हैं कि पूर्व-सक्रियण <math>z^l</math> का वर्णन पूर्ववर्ती सक्रियण <math>y^l</math> पर वातानुकूलित गाऊसी प्रक्रिया द्वारा किया जाता है। यह परिणाम सीमित चौड़ाई पर भी स्थिर रहता है।  
प्रत्येक पूर्व-सक्रियण <math>z^l_i</math> वज़न के अनुरूप गॉसियन यादृच्छिक चर का भारित योग है <math>W^l_{ij}</math> और पक्षपात <math>b^l_i</math>, जहां उन गाऊसी चरों में से प्रत्येक के लिए गुणांक पूर्ववर्ती सक्रियण हैं <math>y^l_j</math>.
 
क्योंकि वे शून्य-माध्य गाऊसी का भारित योग हैं <math>z^l_i</math> स्वयं शून्य-माध्य गॉसियन हैं (गुणांकों पर आधारित)। <math>y^l_j</math>).
प्रत्येक पूर्व-सक्रियण <math>z^l_i</math> गॉसियन यादृच्छिक चर का एक भारित योग है, जो भार <math>W^l_{ij}</math> और पूर्वाग्रह <math>b^l_i</math> के अनुरूप है, जहां गुणांक उनमें से प्रत्येक गाऊसी चर के लिए पूर्ववर्ती सक्रियण <math>y^l_j</math> हैं। चूँकि वे शून्य-माध्य गाऊसी का एक भारित योग हैं, <math>z^l_i</math> स्वयं शून्य-माध्य गाऊसी (गुणांक y<math>y^l_j</math> पर आधारित) हैं। चूँकि <math>z^l</math> <math>y^l</math> के किसी भी समुच्चय के लिए संयुक्त रूप से गॉसियन हैं, इसलिए उन्हें पूर्ववर्ती सक्रियण <math>y^l</math> पर वातानुकूलित गॉसियन प्रक्रिया द्वारा वर्णित किया गया है। इस गॉसियन प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण <math>\sigma_w^2</math> और <math>\sigma_b^2</math> पर निर्भर करता है, साथ ही दूसरे क्षण आव्युह <math>K^l</math> पर भी निर्भर करता है। पूर्ववर्ती सक्रियण <math>y^l</math>,
के बाद से <math>z^l</math> के किसी भी सेट के लिए संयुक्त रूप से गाऊसी हैं <math>y^l</math>, उन्हें पूर्ववर्ती सक्रियणों पर वातानुकूलित गाऊसी प्रक्रिया द्वारा वर्णित किया गया है <math>y^l</math>.
इस गाऊसी प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण पर निर्भर करता है <math>\sigma_w^2</math> और <math>\sigma_b^2</math>, साथ ही दूसरा क्षण मैट्रिक्स <math>K^l</math> पूर्ववर्ती सक्रियणों में से <math>y^l</math>,


:<math block="">
:<math block="">
Line 81: Line 80:
\end{align}
\end{align}
</math>
</math>
वजन पैमाने का प्रभाव <math>\sigma^2_w</math> सहप्रसरण मैट्रिक्स में योगदान को पुनः स्केल करना है <math>K^l</math>, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि <math>\sigma_b^2</math> इसे बनाएं <math>z^l_i</math> विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण मैट्रिक्स को स्थिर मैट्रिक्स की तरह बनाता है।
वजन पैमाने का प्रभाव <math>\sigma^2_w</math> सहप्रसरण आव्युह <math>K^l</math> में योगदान को पुनः स्केल करना है, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि <math>\sigma_b^2</math> इसे बनाएं <math>z^l_i</math> विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण आव्युह को स्थिर आव्युह की तरह बनाता है।


=== <math>z^l | K^l</math> गाऊसी प्रक्रिया है ===
=== <math>z^l | K^l</math> गाऊसी प्रक्रिया है ===


पूर्व-सक्रियण <math>z^l</math> केवल पर निर्भर हैं <math>y^l</math> इसके दूसरे क्षण मैट्रिक्स के माध्यम से <math>K^l</math>. इस वजह से हम ऐसा कह सकते हैं <math>z^l</math> गॉसियन प्रक्रिया पर आधारित है <math>K^l</math>, बजाय वातानुकूलित पर <math>y^l</math>,
पूर्व-सक्रियण <math>z^l</math> केवल इसके दूसरे क्षण आव्युह <math>K^l</math> के माध्यम से <math>y^l</math> पर निर्भर करता है। इस कारण से, हम कह सकते हैं कि <math>z^l</math> एक गाऊसी प्रक्रिया है जो <math>y^l</math> पर आधारित होने के अतिरिक्त <math>K^l</math> पर आधारित है।


:<math block="">
:<math block="">
Line 94: Line 93:




=== परत की चौड़ाई के रूप में <math>n^l \rightarrow \infty</math>, <math>K^l \mid K^{l-1}</math> नियतिवादी हो जाता है ===
=== लेयर की चौड़ाई के रूप में <math>n^l \rightarrow \infty</math>, <math>K^l \mid K^{l-1}</math> नियतिवादी हो जाता है ===


जैसा कि पहले परिभाषित किया गया था, <math>K^l</math> का दूसरा क्षण मैट्रिक्स है <math>y^l</math>. तब से <math>y^l</math> गैर-रैखिकता लागू करने के बाद सक्रियण वेक्टर है <math>\phi</math>, इसे प्रतिस्थापित किया जा सकता है <math>\phi\left(z^{l-1}\right)</math>, जिसके परिणामस्वरूप संशोधित समीकरण व्यक्त होता है <math>K^l</math> के लिए <math>l>0</math> के अनुसार <math>z^{l-1}</math>,
जैसा कि पहले परिभाषित किया गया था, <math>K^l</math> का दूसरा क्षण आव्युह <math>y^l</math> है। तब से <math>y^l</math> गैर-रैखिकता प्रयुक्त करने के पश्चात् सक्रियण सदिश <math>\phi</math> है, इसे <math>\phi\left(z^{l-1}\right)</math> से प्रतिस्थापित किया जा सकता है, जिसके परिणामस्वरूप संशोधित समीकरण व्यक्त होता है <math>K^l</math> के लिए <math>l>0</math> के अनुसार <math>z^{l-1}</math>,


:<math block="">
:<math block="">
Line 105: Line 104:
\end{align}
\end{align}
</math>
</math>
हमने यह पहले ही तय कर लिया है <math>z^{l-1} | K^{l-1}</math> गाऊसी प्रक्रिया है. इसका मतलब है कि योग परिभाषित <math>K^l</math> औसत ओवर है <math>n^l</math> गॉसियन प्रक्रिया से नमूने जो कि कार्य है <math>K^{l-1}</math>,
हमने यह पहले ही तय कर लिया है <math>z^{l-1} | K^{l-1}</math> गाऊसी प्रक्रिया है। इसका अर्थ है कि योग परिभाषित <math>K^l</math> औसत ओवर है <math>n^l</math> गॉसियन प्रक्रिया से नमूने जो कि कार्य है <math>K^{l-1}</math>,


<math block="">
<math block="">
Line 113: Line 112:
\end{align}
\end{align}
</math>
</math>
परत की चौड़ाई के रूप में <math>n^l</math> अनंत तक जाता है, यह औसत खत्म हो गया <math>n^l</math> गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के अभिन्न अंग से बदला जा सकता है:
 
लेयर की चौड़ाई के रूप में <math>n^l</math> अनंत तक जाता है, यह औसत खत्म हो गया <math>n^l</math> गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के अभिन्न अंग से बदला जा सकता है:


:<math block="">
:<math block="">
Line 128: Line 128:
\end{align}
\end{align}
</math>
</math>
तो, अनंत चौड़ाई में दूसरे क्षण मैट्रिक्स को सीमित करें <math>K^l</math> इनपुट की प्रत्येक जोड़ी के लिए <math>x</math> और <math>x'</math> के उत्पाद के 2डी गॉसियन पर अभिन्न के रूप में व्यक्त किया जा सकता है <math>\phi(z)</math> और <math>\phi(z')</math>.
तब, अनंत चौड़ाई में दूसरे क्षण आव्युह को सीमित करें <math>K^l</math> इनपुट की प्रत्येक जोड़ी के लिए <math>x</math> और <math>x'</math> के उत्पाद के 2डी गॉसियन पर अभिन्न के रूप में व्यक्त किया जा सकता है <math>\phi(z)</math> और <math>\phi(z')</math>.
ऐसी कई स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि कब <math>\phi(\cdot)</math> रेक्टिफायर (तंत्रिका नेटवर्क) है,<ref>
ऐसी अनेक स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि जब <math>\phi(\cdot)</math> एक ''ReLU'',<ref>
{{cite journal|last1=Cho|first1=Youngmin|last2=Saul|first2=Lawrence K.|date=2009|title=Kernel Methods for Deep Learning|url=http://papers.nips.cc/paper/3628-kernel-methods-for-deep-|journal=Neural Information Processing Systems|volume=22|pages=342–350}} </ref>
{{cite journal|last1=Cho|first1=Youngmin|last2=Saul|first2=Lawrence K.|date=2009|title=Kernel Methods for Deep Learning|url=http://papers.nips.cc/paper/3628-kernel-methods-for-deep-|journal=Neural Information Processing Systems|volume=22|pages=342–350}} </ref> ''ELU'', ''GELU'',<ref>
अप अप अप<ref>
{{cite arXiv|eprint=2002.08517|class=cs.LG|first1=Russell|last1=Tsuchida|first2=Tim|last2=Pearce|title=Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks|date=2020|last3=van der Heide|first3=Christopher|last4=Roosta|first4=Fred|last5=Gallagher|first5=Marcus}}
{{cite arXiv|eprint=2002.08517|class=cs.LG|first1=Russell|last1=Tsuchida|first2=Tim|last2=Pearce|title=Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks|date=2020|last3=van der Heide|first3=Christopher|last4=Roosta|first4=Fred|last5=Gallagher|first5=Marcus}}
</ref> या [[त्रुटि फ़ंक्शन]]<ref name=":11" />अरेखीयता
</ref> या [[त्रुटि फ़ंक्शन|त्रुटि फलन]]<ref name=":11" /> अरैखिकता है। यहां तक कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह एक 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।, क्योंकि यह 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।<ref name=":0" /> यह अभिन्न अंग नियतिवादी है, इसलिए <math>K^l | K^{l-1}</math> नियतिवादी है।
यहां तक ​​कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।<ref name=":0" />यह अभिन्न अंग नियतिवादी है, इसलिए <math>K^l | K^{l-1}</math> नियतिवादी है.


आशुलिपि के लिए, हम कार्यात्मक को परिभाषित करते हैं <math>F</math>, जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मैप करता है <math>K^{l-1}</math> में <math>K^l</math>,
आशुलिपि के लिए, हम कार्यात्मक को परिभाषित करते हैं <math>F</math>, जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मानचित्र <math>K^{l-1}</math> में <math>K^l</math> करता है,


:<math block="">
:<math block="">
Line 148: Line 146:
</math>
</math>


'''<br /><math>z^L \mid x</math> एनएनजीपी हैं'''


<nowiki>===</nowiki> <math>z^L \mid x</math> एनएनजीपी === है
उस अवलोकन को पुनरावर्ती रूप से प्रयुक्त करके <math>K^l \mid K^{l-1}</math> के रूप में नियतिवादी है <math>n^l \rightarrow \infty</math>, <math>K^L</math> के नियतात्मक कार्य <math>K^0</math> के रूप में लिखा जा सकता है,
 
उस अवलोकन को पुनरावर्ती रूप से लागू करके <math>K^l \mid K^{l-1}</math> के रूप में नियतिवादी है <math>n^l \rightarrow \infty</math>, <math>K^L</math> के नियतात्मक कार्य के रूप में लिखा जा सकता है <math>K^0</math>,


:<math block="">
:<math block="">
Line 164: Line 161:
\end{align}
\end{align}
</math>
</math>
कहाँ <math>F^L</math> कार्यात्मकता लागू करने का संकेत देता है <math>F</math> क्रमिक रूप से <math>L</math> बार.
जहां <math>F^L</math> कार्यात्मक <math>F</math> को क्रमिक रूप से <math>L</math> बार प्रयुक्त करने का संकेत देता है। इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण आव्युह <math>K^0(x,x')=\frac{1}{n^0} \sum_i x_i x'_i</math> इनपुट का नियतात्मक कार्य <math>x</math> है, ओर वो <math>z^L | K^L</math> गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,
इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण मैट्रिक्स <math>K^0(x,x')=\frac{1}{n^0} \sum_i x_i x'_i</math> इनपुट का नियतात्मक कार्य है <math>x</math>, ओर वो <math>z^L | K^L</math> गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,


:<math block="">
:<math block="">
Line 180: Line 176:


== संदर्भ ==
== संदर्भ ==
<!-- Inline citations added to your article will automatically display here. See en.wikipedia.org/wiki/WP:REFB for instructions on how to add citations. -->
{{reflist}}
{{reflist}}
[[Category: बायेसियन नेटवर्क]] [[Category: ध्यान लगा के पढ़ना या सीखना]] [[Category: बायेसियन आँकड़े]] [[Category: कृत्रिम तंत्रिका प्रसार]] [[Category: मशीन लर्निंग के लिए कर्नेल तरीके]]


[[Category: Machine Translated Page]]
[[Category:CS1 errors]]
[[Category:Created On 25/07/2023]]
[[Category:Created On 25/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:कृत्रिम तंत्रिका प्रसार]]
[[Category:ध्यान लगा के पढ़ना या सीखना]]
[[Category:बायेसियन आँकड़े]]
[[Category:बायेसियन नेटवर्क]]
[[Category:मशीन लर्निंग के लिए कर्नेल तरीके]]

Latest revision as of 10:21, 12 August 2023

बाएं: दो छिपी हुई लेयर्स वाला बायेसियन नेटवर्क, 3-आयामी इनपुट (नीचे) को दो-आयामी आउटपुट में परिवर्तित करता है (ऊपर)। दाएं: आउटपुट संभाव्यता घनत्व फलन नेटवर्क के यादृच्छिक भार से प्रेरित। वीडियो: जैसे-जैसे नेटवर्क की चौड़ाई बढ़ती है, आउटपुट वितरण सरल हो जाता है, अंततः अनंत चौड़ाई सीमा में बहुभिन्नरूपी सामान्य वितरण में परिवर्तित हो जाता है।

बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए मॉडलिंग उपकरण है, और इस प्रकार मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। डीप लर्निंग और कृत्रिम तंत्रिका नेटवर्क ऐसे दृष्टिकोण हैं जिनका उपयोग यंत्र अधिगम में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके सांख्यिकीय पैरामीटर और पूर्वानुमान दोनों संभाव्य हैं।[1][2] जबकि मानक कृत्रिम तंत्रिका नेटवर्क अधिकांश गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं,[3] बायेसियन तंत्रिका नेटवर्क अधिक त्रुटिहीन रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।

तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं (एनएनजीपी) विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के सामान्तर हैं,[4][5][6][7][8][9][10][11][12] और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए बंद-रूप अभिव्यक्ति विधि प्रदान करें। वे गाऊसी प्रक्रिया संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना सामान्यतः कृत्रिम न्यूरॉन्स की अनुक्रमिक लेयर्स में व्यवस्थित की जाती है। लेयर में न्यूरॉन्स की संख्या को लेयर की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के मध्य समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में लेयरें अनन्तित रूप से चौड़ी (आंकड़ा देखें) हो जाती हैं। यह बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि लेयर की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क सामान्यतः उत्तम प्रदर्शन करते हैं।[13][14][8][15]

एनएनजीपी अनेक अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के पश्चात्, किन्तु प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह तंत्रिका स्पर्शरेखा कर्नेल भविष्यवाणी समीकरणों में शब्द के रूप में प्रकट होता है; इसका उपयोग डीप सूचना प्रसार में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं।[16] यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।

कार्टून चित्रण

जब अनंत चौड़ाई वाले नेटवर्क के पैरामीटर को उनके पिछले से बार-बार नमूना लिया जाता है, तब नेटवर्क आउटपुट पर परिणामी वितरण को गॉसियन प्रक्रिया द्वारा वर्णित किया जाता है।

तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग तंत्रिका नेटवर्क द्वारा गणना किए गए विशिष्ट फलन से मेल खाता है। पूर्व वितरण इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को अनन्त रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण अनेक आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।

दाईं ओर का चित्र दो इनपुट और के लिए एक तंत्रिका नेटवर्क के एक-आयामी आउटपुट को एक-दूसरे के विरुद्ध प्लॉट करता है। काले बिंदु से पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फलन को दिखाते हैं। लाल रेखाएं नेटवर्क आउटपुट और पर द्वारा प्रेरित संयुक्त वितरण के लिए आइसो-संभाव्यता रूपरेखा हैं। यह पैरामीटर स्पेस में वितरण के अनुरूप फलन स्पेस में वितरण है, और काले बिंदु इस वितरण से नमूने हैं। अनन्तित व्यापक तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण एक गाऊसी प्रक्रिया है नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित समुच्चय के लिए एक बहुभिन्नरूपी गाऊसी है।

इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के मध्य पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।

आर्किटेक्चर जो एनएनजीपी के अनुरूप है

अनन्त रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के मध्य समानता को निम्न के लिए दिखाया गया है: एकल छिपी हुई लेयर[4] और गहरी[6][7] पूरी तरह से दृढ़ तंत्रिका नेटवर्क[8][9][10] क्योंकि प्रति लेयर इकाइयों की संख्या अनंत तक ले जाती है; चैनलों की संख्या के रूप में कन्वेन्शनल न्यूरल नेटवर्क को अनंत तक ले जाया जाता है; [8] [9] [10] ट्रांसफॉर्मर नेटवर्क को ध्यान प्रमुखों की संख्या के रूप में अनंत तक ले जाया जाता है;[17] आवर्तक तंत्रिका नेटवर्क को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है।[12] वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी वास्तुकला के लिए प्रयुक्त होता है: सामान्यतः, यदि एक वास्तुकला को केवल आव्युह गुणन और समन्वयात्मक गैर-रैखिकता (अर्थात एक टेंसर प्रोग्राम) के माध्यम से व्यक्त किया जा सकता है, तब इसमें एक अनंत-चौड़ाई वाला जीपी होता है।[12]

इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे एलएसटीएम, जीआरयू), (एनडी या ग्राफ) कनवल्शन, पूलिंग, स्किप कनेक्शन, ध्यान, बैच सामान्यीकरण, और/या लेयर सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क सम्मिलित हैं।

अनन्त रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और गाऊसी प्रक्रिया के मध्य पत्राचार

यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट स्थितियों के लिए अनन्त रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के मध्य पत्राचार पर विस्तार करता है। यह प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।[8]


नेटवर्क आर्किटेक्चर विनिर्देश

फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के सामान्तर है।

इनपुट के साथ एक पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें, पैरामीटर जिसमें नेटवर्क में प्रत्येक लेयर के लिए वजन और पूर्वाग्रह , पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) , सक्रियण (पोस्ट-नॉनलाइनरिटी) , बिंदुवार नॉनलाइनरिटी , और लेयर चौड़ाई सम्मिलित हैं। सरलता के लिए, रीडआउट सदिश की चौड़ाई को 1 माना जाता है। इस नेटवर्क के मापदंडों में एक पूर्व वितरण होता है, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन सम्मिलित होता है, जिसमें लेयर की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित समुच्चय द्वारा वर्णित किया गया है:


गाऊसी प्रक्रिया है

हम पहले देखते हैं कि पूर्व-सक्रियण का वर्णन पूर्ववर्ती सक्रियण पर वातानुकूलित गाऊसी प्रक्रिया द्वारा किया जाता है। यह परिणाम सीमित चौड़ाई पर भी स्थिर रहता है।

प्रत्येक पूर्व-सक्रियण गॉसियन यादृच्छिक चर का एक भारित योग है, जो भार और पूर्वाग्रह के अनुरूप है, जहां गुणांक उनमें से प्रत्येक गाऊसी चर के लिए पूर्ववर्ती सक्रियण हैं। चूँकि वे शून्य-माध्य गाऊसी का एक भारित योग हैं, स्वयं शून्य-माध्य गाऊसी (गुणांक y पर आधारित) हैं। चूँकि के किसी भी समुच्चय के लिए संयुक्त रूप से गॉसियन हैं, इसलिए उन्हें पूर्ववर्ती सक्रियण पर वातानुकूलित गॉसियन प्रक्रिया द्वारा वर्णित किया गया है। इस गॉसियन प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण और पर निर्भर करता है, साथ ही दूसरे क्षण आव्युह पर भी निर्भर करता है। पूर्ववर्ती सक्रियण ,

वजन पैमाने का प्रभाव सहप्रसरण आव्युह में योगदान को पुनः स्केल करना है, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि इसे बनाएं विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण आव्युह को स्थिर आव्युह की तरह बनाता है।

गाऊसी प्रक्रिया है

पूर्व-सक्रियण केवल इसके दूसरे क्षण आव्युह के माध्यम से पर निर्भर करता है। इस कारण से, हम कह सकते हैं कि एक गाऊसी प्रक्रिया है जो पर आधारित होने के अतिरिक्त पर आधारित है।


लेयर की चौड़ाई के रूप में , नियतिवादी हो जाता है

जैसा कि पहले परिभाषित किया गया था, का दूसरा क्षण आव्युह है। तब से गैर-रैखिकता प्रयुक्त करने के पश्चात् सक्रियण सदिश है, इसे से प्रतिस्थापित किया जा सकता है, जिसके परिणामस्वरूप संशोधित समीकरण व्यक्त होता है के लिए के अनुसार ,

हमने यह पहले ही तय कर लिया है गाऊसी प्रक्रिया है। इसका अर्थ है कि योग परिभाषित औसत ओवर है गॉसियन प्रक्रिया से नमूने जो कि कार्य है ,

लेयर की चौड़ाई के रूप में अनंत तक जाता है, यह औसत खत्म हो गया गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के अभिन्न अंग से बदला जा सकता है:

तब, अनंत चौड़ाई में दूसरे क्षण आव्युह को सीमित करें इनपुट की प्रत्येक जोड़ी के लिए और के उत्पाद के 2डी गॉसियन पर अभिन्न के रूप में व्यक्त किया जा सकता है और . ऐसी अनेक स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि जब एक ReLU,[18] ELU, GELU,[19] या त्रुटि फलन[5] अरैखिकता है। यहां तक कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह एक 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।, क्योंकि यह 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।[6] यह अभिन्न अंग नियतिवादी है, इसलिए नियतिवादी है।

आशुलिपि के लिए, हम कार्यात्मक को परिभाषित करते हैं , जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मानचित्र में करता है,


एनएनजीपी हैं

उस अवलोकन को पुनरावर्ती रूप से प्रयुक्त करके के रूप में नियतिवादी है , के नियतात्मक कार्य के रूप में लिखा जा सकता है,

जहां कार्यात्मक को क्रमिक रूप से बार प्रयुक्त करने का संकेत देता है। इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण आव्युह इनपुट का नियतात्मक कार्य है, ओर वो गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,


सॉफ्टवेयर लाइब्रेरी

न्यूरल टैंगेंट्स स्वतंत्र और ओपन-सोर्स पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है जिसका उपयोग विभिन्न सामान्य एएनएन आर्किटेक्चर के अनुरूप एनएनजीपी और न्यूरल टैंगेंट कर्नेल के साथ कंप्यूटिंग और अनुमान लगाने के लिए किया जाता है।[20]


संदर्भ

  1. MacKay, David J. C. (1992). "बैकप्रॉपैगेशन नेटवर्क के लिए एक व्यावहारिक बायेसियन फ्रेमवर्क". Neural Computation. 4 (3): 448–472. doi:10.1162/neco.1992.4.3.448. ISSN 0899-7667. S2CID 16543854.
  2. Neal, Radford M. (2012). तंत्रिका नेटवर्क के लिए बायेसियन लर्निंग. Springer Science and Business Media.
  3. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "On calibration of modern neural networks". Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599.
  4. 4.0 4.1 Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
  5. 5.0 5.1 Williams, Christopher K. I. (1997). "Computing with infinite networks". Neural Information Processing Systems.
  6. 6.0 6.1 6.2 Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "गॉसियन प्रक्रियाओं के रूप में डीप न्यूरल नेटवर्क". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
  7. 7.0 7.1 G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
  8. 8.0 8.1 8.2 8.3 Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
  9. 9.0 9.1 Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Deep Convolutional Networks as shallow Gaussian Processes". International Conference on Learning Representations. arXiv:1808.05587. Bibcode:2018arXiv180805587G.
  10. 10.0 10.1 Borovykh, Anastasia (2018). "A Gaussian Process perspective on Convolutional Neural Networks". arXiv:1810.10798 [stat.ML].
  11. Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
  12. 12.0 12.1 12.2 Yang, Greg (2019). "Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes" (PDF). Advances in Neural Information Processing Systems. arXiv:1910.12478. Bibcode:2019arXiv191012478Y.
  13. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
  14. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C. {{cite journal}}: Cite journal requires |journal= (help)
  15. Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
  16. Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
  17. Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). "Infinite attention: NNGP and NTK for deep attention networks". International Conference on Machine Learning. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
  18. Cho, Youngmin; Saul, Lawrence K. (2009). "Kernel Methods for Deep Learning". Neural Information Processing Systems. 22: 342–350.
  19. Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
  20. Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR), vol. 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N