तंत्रिका नेटवर्क गाऊसी प्रक्रिया: Difference between revisions
No edit summary |
No edit summary |
||
Line 48: | Line 48: | ||
फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है। | फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है। | ||
इनपुट के साथ पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें <math> | इनपुट <math>x</math> के साथ एक पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें, पैरामीटर <math>\theta</math> जिसमें नेटवर्क में प्रत्येक परत <math>l</math> के लिए वजन <math>W^l</math> और पूर्वाग्रह <math>b^l</math>, पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) <math>z^l</math>, सक्रियण (पोस्ट-नॉनलाइनरिटी) <math>y^l</math>, बिंदुवार नॉनलाइनरिटी <math>\phi(\cdot)</math>, और परत चौड़ाई <math>n^l</math> सम्मिलित हैं। सरलता के लिए, रीडआउट वेक्टर <math>z^L</math> की चौड़ाई <math>n^{L+1}</math> को 1 माना जाता है। इस नेटवर्क के मापदंडों में एक पूर्व वितरण <math>p(\theta)</math> होता है, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन सम्मिलित होता है, जिसमें परत की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित सेट द्वारा वर्णित किया गया है: | ||
:<math block=""> | :<math block=""> | ||
Line 70: | Line 70: | ||
=== <math>z^l | y^l</math> गाऊसी प्रक्रिया है === | === <math>z^l | y^l</math> गाऊसी प्रक्रिया है === | ||
हम | हम पहले देखते हैं कि पूर्व-सक्रियण <math>z^l</math> का वर्णन पूर्ववर्ती सक्रियण <math>y^l</math> पर वातानुकूलित गाऊसी प्रक्रिया द्वारा किया जाता है। यह परिणाम सीमित चौड़ाई पर भी स्थिर रहता है। | ||
प्रत्येक पूर्व-सक्रियण <math>z^l_i</math> | |||
प्रत्येक पूर्व-सक्रियण <math>z^l_i</math> गॉसियन यादृच्छिक चर का एक भारित योग है, जो भार <math>W^l_{ij}</math> और पूर्वाग्रह <math>b^l_i</math> के अनुरूप है, जहां गुणांक उनमें से प्रत्येक गाऊसी चर के लिए पूर्ववर्ती सक्रियण <math>y^l_j</math> हैं। चूँकि वे शून्य-माध्य गाऊसी का एक भारित योग हैं, <math>z^l_i</math> स्वयं शून्य-माध्य गाऊसी (गुणांक y<math>y^l_j</math> पर आधारित) हैं। चूँकि <math>z^l</math> <math>y^l</math> के किसी भी सेट के लिए संयुक्त रूप से गॉसियन हैं, इसलिए उन्हें पूर्ववर्ती सक्रियण <math>y^l</math> पर वातानुकूलित गॉसियन प्रक्रिया द्वारा वर्णित किया गया है। इस गॉसियन प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण <math>\sigma_w^2</math> और <math>\sigma_b^2</math> पर निर्भर करता है, साथ ही दूसरे क्षण मैट्रिक्स <math>K^l</math> पर भी निर्भर करता है। पूर्ववर्ती सक्रियण <math>y^l</math>, | |||
इस | |||
:<math block=""> | :<math block=""> | ||
Line 82: | Line 80: | ||
\end{align} | \end{align} | ||
</math> | </math> | ||
वजन पैमाने का प्रभाव <math>\sigma^2_w</math> सहप्रसरण मैट्रिक्स | वजन पैमाने का प्रभाव <math>\sigma^2_w</math> सहप्रसरण मैट्रिक्स <math>K^l</math> में योगदान को पुनः स्केल करना है, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि <math>\sigma_b^2</math> इसे बनाएं <math>z^l_i</math> विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण मैट्रिक्स को स्थिर मैट्रिक्स की तरह बनाता है। | ||
=== <math>z^l | K^l</math> गाऊसी प्रक्रिया है === | === <math>z^l | K^l</math> गाऊसी प्रक्रिया है === | ||
पूर्व-सक्रियण <math>z^l</math> केवल | पूर्व-सक्रियण <math>z^l</math> केवल इसके दूसरे क्षण मैट्रिक्स <math>K^l</math> के माध्यम से <math>y^l</math> पर निर्भर करता है। इस कारण से, हम कह सकते हैं कि <math>z^l</math> एक गाऊसी प्रक्रिया है जो <math>y^l</math> पर आधारित होने के बजाय <math>K^l</math> पर आधारित है। | ||
:<math block=""> | :<math block=""> |
Revision as of 06:49, 4 August 2023
बायेसियन नेटवर्क घटनाओं की संभावनाओं को निर्दिष्ट करने के लिए मॉडलिंग उपकरण है, और इस प्रकार मॉडल की भविष्यवाणियों में अनिश्चितता को चिह्नित करता है। डीप लर्निंग और कृत्रिम तंत्रिका नेटवर्क ऐसे दृष्टिकोण हैं जिनका उपयोग यंत्र अधिगम में कम्प्यूटेशनल मॉडल बनाने के लिए किया जाता है जो प्रशिक्षण उदाहरणों से सीखते हैं। बायेसियन तंत्रिका नेटवर्क इन क्षेत्रों का विलय करते हैं। वे प्रकार के कृत्रिम तंत्रिका नेटवर्क हैं जिनके सांख्यिकीय पैरामीटर और पूर्वानुमान दोनों संभाव्य हैं।[1][2] जबकि मानक कृत्रिम तंत्रिका नेटवर्क अधिकांश गलत भविष्यवाणियों पर भी उच्च विश्वास प्रदान करते हैं,[3] बायेसियन तंत्रिका नेटवर्क अधिक त्रुटिहीन रूप से मूल्यांकन कर सकते हैं कि उनकी भविष्यवाणियां सही होने की कितनी संभावना है।
तंत्रिका नेटवर्क गाऊसी प्रक्रियाएं (एनएनजीपी) विशेष सीमा में बायेसियन तंत्रिका नेटवर्क के बराबर हैं,[4][5][6][7][8][9][10][11][12] और बायेसियन तंत्रिका नेटवर्क का मूल्यांकन करने के लिए बंद-रूप अभिव्यक्ति तरीका प्रदान करें। वे गाऊसी प्रक्रिया संभाव्यता वितरण हैं जो संबंधित बायेसियन तंत्रिका नेटवर्क द्वारा की गई भविष्यवाणियों पर वितरण का वर्णन करता है। कृत्रिम तंत्रिका नेटवर्क में गणना सामान्यतः कृत्रिम न्यूरॉन्स की अनुक्रमिक परतों में व्यवस्थित की जाती है। परत में न्यूरॉन्स की संख्या को परत की चौड़ाई कहा जाता है। एनएनजीपी और बायेसियन तंत्रिका नेटवर्क के बीच समानता तब होती है जब बायेसियन तंत्रिका नेटवर्क में परतें असीमित रूप से चौड़ी (आंकड़ा देखें) हो जाती हैं। यह बड़ी चौड़ाई सीमा व्यावहारिक रुचि की है, क्योंकि परत की चौड़ाई बढ़ने पर परिमित चौड़ाई वाले तंत्रिका नेटवर्क सामान्यतः बेहतर प्रदर्शन करते हैं।[13][14][8][15]
एनएनजीपी कई अन्य संदर्भों में भी दिखाई देता है: यह व्यापक गैर-बायेसियन कृत्रिम तंत्रिका नेटवर्क द्वारा उनके मापदंडों के यादृच्छिक आरंभीकरण के बाद, किन्तु प्रशिक्षण से पहले की गई भविष्यवाणियों पर वितरण का वर्णन करता है; यह तंत्रिका स्पर्शरेखा कर्नेल भविष्यवाणी समीकरणों में शब्द के रूप में प्रकट होता है; इसका उपयोग डीप सूचना प्रसार में यह बताने के लिए किया जाता है कि हाइपरपैरामीटर और आर्किटेक्चर प्रशिक्षित करने योग्य होंगे या नहीं।[16] यह तंत्रिका नेटवर्क की अन्य बड़ी चौड़ाई सीमाओं से संबंधित है।
कार्टून चित्रण
तंत्रिका नेटवर्क के मापदंडों की प्रत्येक सेटिंग तंत्रिका नेटवर्क द्वारा गणना किए गए विशिष्ट फ़ंक्शन से मेल खाता है। पूर्व वितरण इसलिए तंत्रिका नेटवर्क मापदंडों पर नेटवर्क द्वारा गणना किए गए कार्यों पर पूर्व वितरण से मेल खाता है। जैसे-जैसे तंत्रिका नेटवर्क को असीम रूप से व्यापक बनाया जाता है, कार्यों पर यह वितरण कई आर्किटेक्चर के लिए गॉसियन प्रक्रिया में परिवर्तित हो जाता है।
दाईं ओर का चित्र दो इनपुट और के लिए एक तंत्रिका नेटवर्क के एक-आयामी आउटपुट को एक-दूसरे के विरुद्ध प्लॉट करता है। काले बिंदु से पैरामीटर के यादृच्छिक ड्रॉ के लिए इन इनपुट पर तंत्रिका नेटवर्क द्वारा गणना किए गए फ़ंक्शन को दिखाते हैं। लाल रेखाएं नेटवर्क आउटपुट और पर द्वारा प्रेरित संयुक्त वितरण के लिए आइसो-संभाव्यता रूपरेखा हैं। यह पैरामीटर स्पेस में वितरण के अनुरूप फ़ंक्शन स्पेस में वितरण है, और काले बिंदु इस वितरण से नमूने हैं। असीमित व्यापक तंत्रिका नेटवर्क के लिए, चूंकि तंत्रिका नेटवर्क द्वारा गणना किए गए कार्यों पर वितरण एक गाऊसी प्रक्रिया है नेटवर्क आउटपुट पर संयुक्त वितरण नेटवर्क इनपुट के किसी भी सीमित सेट के लिए एक बहुभिन्नरूपी गाऊसी है।
इस अनुभाग में उपयोग किया गया नोटेशन एनएनजीपी और पूरी तरह से जुड़े नेटवर्क के बीच पत्राचार प्राप्त करने के लिए नीचे उपयोग किए गए नोटेशन के समान है, और अधिक विवरण वहां पाया जा सकता है।
आर्किटेक्चर जो एनएनजीपी के अनुरूप है
असीम रूप से विस्तृत बायेसियन तंत्रिका नेटवर्क और एनएनजीपी के बीच समानता को निम्न के लिए दिखाया गया है: एकल छिपी हुई परत[4] और गहरी[6][7] पूरी तरह से दृढ़ तंत्रिका नेटवर्क[8][9][10] क्योंकि प्रति परत इकाइयों की संख्या अनंत तक ले जाती है; चैनलों की संख्या के रूप में कन्वेन्शनल न्यूरल नेटवर्क को अनंत तक ले जाया जाता है; [8] [9] [10] ट्रांसफॉर्मर नेटवर्क को ध्यान प्रमुखों की संख्या के रूप में अनंत तक ले जाया जाता है;[17] आवर्तक तंत्रिका नेटवर्क को इकाइयों की संख्या के रूप में अनंत तक ले जाया जाता है।[12] वास्तव में, यह एनएनजीपी पत्राचार लगभग किसी भी वास्तुकला के लिए लागू होता है: सामान्यतः, यदि एक वास्तुकला को केवल मैट्रिक्स गुणन और समन्वयात्मक गैर-रैखिकता (यानी एक टेंसर प्रोग्राम) के माध्यम से व्यक्त किया जा सकता है, तो इसमें एक अनंत-चौड़ाई वाला जीपी होता है।[12]
इसमें विशेष रूप से मल्टीलेयर परसेप्ट्रॉन, आवर्ती तंत्रिका नेटवर्क (जैसे एलएसटीएम, जीआरयू), (एनडी या ग्राफ) कनवल्शन, पूलिंग, स्किप कनेक्शन, ध्यान, बैच सामान्यीकरण, और/या परत सामान्यीकरण से बने सभी फीडफॉरवर्ड या आवर्ती तंत्रिका नेटवर्क सम्मिलित हैं।
असीम रूप से व्यापक पूरी तरह से जुड़े नेटवर्क और गाऊसी प्रक्रिया के बीच पत्राचार
यह खंड पूरी तरह से जुड़े आर्किटेक्चर के विशिष्ट मामले के लिए असीम रूप से व्यापक तंत्रिका नेटवर्क और गॉसियन प्रक्रियाओं के बीच पत्राचार पर विस्तार करता है। यह प्रमाण स्केच प्रदान करता है जिसमें बताया गया है कि पत्राचार क्यों होता है, और पूरी तरह से जुड़े नेटवर्क के लिए एनएनजीपी के विशिष्ट कार्यात्मक रूप का परिचय देता है। प्रूफ़ स्केच नोवाक, एट अल., 2018 के दृष्टिकोण का बारीकी से अनुसरण करता है।[8]
नेटवर्क आर्किटेक्चर विनिर्देश
फ़ाइल: पूरी तरह से कनेक्टेड आर्किटेक्चर.पीडीएफ|थंब|एनएनजीपी प्राप्त किया गया है जो इस पूरी तरह से कनेक्टेड आर्किटेक्चर के साथ बायेसियन न्यूरल नेटवर्क के बराबर है।
इनपुट के साथ एक पूरी तरह से जुड़े कृत्रिम तंत्रिका नेटवर्क पर विचार करें, पैरामीटर जिसमें नेटवर्क में प्रत्येक परत के लिए वजन और पूर्वाग्रह , पूर्व-सक्रियण (पूर्व-गैर-रैखिकता) , सक्रियण (पोस्ट-नॉनलाइनरिटी) , बिंदुवार नॉनलाइनरिटी , और परत चौड़ाई सम्मिलित हैं। सरलता के लिए, रीडआउट वेक्टर की चौड़ाई को 1 माना जाता है। इस नेटवर्क के मापदंडों में एक पूर्व वितरण होता है, जिसमें प्रत्येक वजन और पूर्वाग्रह के लिए आइसोट्रोपिक गॉसियन सम्मिलित होता है, जिसमें परत की चौड़ाई के साथ वजन के विचरण को विपरीत रूप से मापा जाता है। इस नेटवर्क को दाईं ओर के चित्र में दर्शाया गया है, और समीकरणों के निम्नलिखित सेट द्वारा वर्णित किया गया है:
गाऊसी प्रक्रिया है
हम पहले देखते हैं कि पूर्व-सक्रियण का वर्णन पूर्ववर्ती सक्रियण पर वातानुकूलित गाऊसी प्रक्रिया द्वारा किया जाता है। यह परिणाम सीमित चौड़ाई पर भी स्थिर रहता है।
प्रत्येक पूर्व-सक्रियण गॉसियन यादृच्छिक चर का एक भारित योग है, जो भार और पूर्वाग्रह के अनुरूप है, जहां गुणांक उनमें से प्रत्येक गाऊसी चर के लिए पूर्ववर्ती सक्रियण हैं। चूँकि वे शून्य-माध्य गाऊसी का एक भारित योग हैं, स्वयं शून्य-माध्य गाऊसी (गुणांक y पर आधारित) हैं। चूँकि के किसी भी सेट के लिए संयुक्त रूप से गॉसियन हैं, इसलिए उन्हें पूर्ववर्ती सक्रियण पर वातानुकूलित गॉसियन प्रक्रिया द्वारा वर्णित किया गया है। इस गॉसियन प्रक्रिया का सहप्रसरण या कर्नेल वजन और पूर्वाग्रह प्रसरण और पर निर्भर करता है, साथ ही दूसरे क्षण मैट्रिक्स पर भी निर्भर करता है। पूर्ववर्ती सक्रियण ,
वजन पैमाने का प्रभाव सहप्रसरण मैट्रिक्स में योगदान को पुनः स्केल करना है, जबकि पूर्वाग्रह सभी इनपुटों के लिए साझा किया जाता है, इत्यादि इसे बनाएं विभिन्न डेटा बिंदुओं के लिए अधिक समान और सहप्रसरण मैट्रिक्स को स्थिर मैट्रिक्स की तरह बनाता है।
गाऊसी प्रक्रिया है
पूर्व-सक्रियण केवल इसके दूसरे क्षण मैट्रिक्स के माध्यम से पर निर्भर करता है। इस कारण से, हम कह सकते हैं कि एक गाऊसी प्रक्रिया है जो पर आधारित होने के बजाय पर आधारित है।
परत की चौड़ाई के रूप में , नियतिवादी हो जाता है
जैसा कि पहले परिभाषित किया गया था, का दूसरा क्षण मैट्रिक्स है . तब से गैर-रैखिकता लागू करने के बाद सक्रियण वेक्टर है , इसे प्रतिस्थापित किया जा सकता है , जिसके परिणामस्वरूप संशोधित समीकरण व्यक्त होता है के लिए के अनुसार ,
हमने यह पहले ही तय कर लिया है गाऊसी प्रक्रिया है. इसका मतलब है कि योग परिभाषित औसत ओवर है गॉसियन प्रक्रिया से नमूने जो कि कार्य है ,
परत की चौड़ाई के रूप में अनंत तक जाता है, यह औसत खत्म हो गया गाऊसी प्रक्रिया के नमूनों को गाऊसी प्रक्रिया के अभिन्न अंग से बदला जा सकता है:
तो, अनंत चौड़ाई में दूसरे क्षण मैट्रिक्स को सीमित करें इनपुट की प्रत्येक जोड़ी के लिए और के उत्पाद के 2डी गॉसियन पर अभिन्न के रूप में व्यक्त किया जा सकता है और . ऐसी कई स्थितियाँ हैं जहाँ इसे विश्लेषणात्मक रूप से हल किया गया है, जैसे कि कब रेक्टिफायर (तंत्रिका नेटवर्क) है,[18] अप अप अप[19] या त्रुटि फ़ंक्शन[5]अरेखीयता यहां तक कि जब इसे विश्लेषणात्मक रूप से हल नहीं किया जा सकता है, क्योंकि यह 2डी इंटीग्रल है, इसे सामान्यतः संख्यात्मक रूप से कुशलतापूर्वक गणना की जा सकती है।[6]यह अभिन्न अंग नियतिवादी है, इसलिए नियतिवादी है.
आशुलिपि के लिए, हम कार्यात्मक को परिभाषित करते हैं , जो इनपुट के सभी जोड़े के लिए इस 2d इंटीग्रल की गणना करने से मेल खाता है, और जो मैप करता है में ,
=== एनएनजीपी === है
उस अवलोकन को पुनरावर्ती रूप से लागू करके के रूप में नियतिवादी है , के नियतात्मक कार्य के रूप में लिखा जा सकता है ,
कहाँ कार्यात्मकता लागू करने का संकेत देता है क्रमिक रूप से बार. इस अभिव्यक्ति को आगे के अवलोकनों के साथ जोड़कर कि इनपुट परत दूसरा क्षण मैट्रिक्स इनपुट का नियतात्मक कार्य है , ओर वो गाऊसी प्रक्रिया है, तंत्रिका नेटवर्क के आउटपुट को इसके इनपुट के संदर्भ में गाऊसी प्रक्रिया के रूप में व्यक्त किया जा सकता है,
सॉफ्टवेयर लाइब्रेरी
न्यूरल टैंगेंट्स स्वतंत्र और ओपन-सोर्स पायथन (प्रोग्रामिंग भाषा) लाइब्रेरी है जिसका उपयोग विभिन्न सामान्य एएनएन आर्किटेक्चर के अनुरूप एनएनजीपी और न्यूरल टैंगेंट कर्नेल के साथ कंप्यूटिंग और अनुमान लगाने के लिए किया जाता है।[20]
संदर्भ
- ↑ MacKay, David J. C. (1992). "बैकप्रॉपैगेशन नेटवर्क के लिए एक व्यावहारिक बायेसियन फ्रेमवर्क". Neural Computation. 4 (3): 448–472. doi:10.1162/neco.1992.4.3.448. ISSN 0899-7667. S2CID 16543854.
- ↑ Neal, Radford M. (2012). तंत्रिका नेटवर्क के लिए बायेसियन लर्निंग. Springer Science and Business Media.
- ↑ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "On calibration of modern neural networks". Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599.
- ↑ 4.0 4.1 Neal, Radford M. (1996), "Priors for Infinite Networks", Bayesian Learning for Neural Networks, Lecture Notes in Statistics, vol. 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2, ISBN 978-0-387-94724-2
- ↑ 5.0 5.1 Williams, Christopher K. I. (1997). "Computing with infinite networks". Neural Information Processing Systems.
- ↑ 6.0 6.1 6.2 Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "गॉसियन प्रक्रियाओं के रूप में डीप न्यूरल नेटवर्क". International Conference on Learning Representations. arXiv:1711.00165. Bibcode:2017arXiv171100165L.
- ↑ 7.0 7.1 G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). "Gaussian Process Behaviour in Wide Deep Neural Networks". International Conference on Learning Representations. arXiv:1804.11271. Bibcode:2018arXiv180411271M.
- ↑ 8.0 8.1 8.2 8.3 Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes". International Conference on Learning Representations. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
- ↑ 9.0 9.1 Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Deep Convolutional Networks as shallow Gaussian Processes". International Conference on Learning Representations. arXiv:1808.05587. Bibcode:2018arXiv180805587G.
- ↑ 10.0 10.1 Borovykh, Anastasia (2018). "A Gaussian Process perspective on Convolutional Neural Networks". arXiv:1810.10798 [stat.ML].
- ↑ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
- ↑ 12.0 12.1 12.2 Yang, Greg (2019). "Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes" (PDF). Advances in Neural Information Processing Systems. arXiv:1910.12478. Bibcode:2019arXiv191012478Y.
- ↑ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). "Sensitivity and Generalization in Neural Networks: an Empirical Study". International Conference on Learning Representations. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
- ↑
Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (2016-11-04). "An Analysis of Deep Neural Network Models for Practical Applications". arXiv:1605.07678. Bibcode:2016arXiv160507678C.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Towards understanding the role of over-parametrization in generalization of neural networks". International Conference on Learning Representations. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
- ↑ Schoenholz, Samuel S.; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Deep information propagation". International Conference on Learning Representations. arXiv:1611.01232.
- ↑ Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). "Infinite attention: NNGP and NTK for deep attention networks". International Conference on Machine Learning. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
- ↑ Cho, Youngmin; Saul, Lawrence K. (2009). "Kernel Methods for Deep Learning". Neural Information Processing Systems. 22: 342–350.
- ↑ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks". arXiv:2002.08517 [cs.LG].
- ↑ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A.; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR), vol. 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N