सार्वभौमिक सन्निकटन प्रमेय: Difference between revisions

From Vigyanwiki
 
(14 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Feed-forward neural network with a 1 hidden layer can approximate continuous functions}}गणित के कृत्रिम तंत्रिका नेटवर्क सिद्धांत में, '''सार्वभौमिक सन्निकटन प्रमेय''' वे परिणाम हैं<ref name=MLP-UA>{{Cite conference|last1=Hornik|first1=Kurt|last2=Stinchcombe|first2=Maxwell|last3=White|first3=Halbert|date=1989|title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क यूनिवर्सल एप्रोक्सिमेटर्स हैं|url=http://cognitivemedium.com/magic_paper/assets/Hornik.pdf|publisher=Pergamon Press|journal=Neural Networks |volume=2 |pages=359–366}}</ref><ref>Balázs Csanád Csáji (2001) Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary</ref> जो सूचित करते हैं कि तंत्रिका नेटवर्क सैद्धान्तिक रूप से क्या सीख सकते हैं अर्थात ये प्रमेय उन एक दिए गए फलन समष्टि के भीतर एक विधिकलनात्मक रूप से उत्पन्न फलन वर्ग के [[सघन सेट|घन समुच्चय]] को स्थापित करते हैं। सामान्यतः, ये परिणाम दो [[यूक्लिडियन स्थान|यूक्लिडियन समष्टियों]] के बीच सतत फलनों के स्थान पर [[फीडफॉरवर्ड न्यूरल नेटवर्क]] की सन्निकटन क्षमताओं सन्निकटन सघन अभिसरण सांस्थिति से संबंधित हैं।
{{Short description|Feed-forward neural network with a 1 hidden layer can approximate continuous functions}}गणित के कृत्रिम तंत्रिका(न्यूरल) नेटवर्क सिद्धांत में, '''सार्वभौमिक सन्निकटन प्रमेय''' वे परिणाम हैं<ref name=MLP-UA>{{Cite conference|last1=Hornik|first1=Kurt|last2=Stinchcombe|first2=Maxwell|last3=White|first3=Halbert|date=1989|title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क यूनिवर्सल एप्रोक्सिमेटर्स हैं|url=http://cognitivemedium.com/magic_paper/assets/Hornik.pdf|publisher=Pergamon Press|journal=Neural Networks |volume=2 |pages=359–366}}</ref><ref>Balázs Csanád Csáji (2001) Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary</ref> जो सूचित करते हैं कि तंत्रिका नेटवर्क सैद्धान्तिक रूप से क्या सीख सकती हैं अर्थात ये प्रमेय किसी दिए गए फलन समष्टि के भीतर एक विधिकलनात्मक रूप से उत्पन्न फलन वर्ग के [[सघन सेट|घन समुच्चय]] को स्थापित करते हैं। सामान्यतः, ये परिणाम दो [[यूक्लिडियन स्थान|यूक्लिडियन समष्टियों]] के बीच सतत फलनों के स्थान पर [[फीडफॉरवर्ड न्यूरल नेटवर्क]] की सन्निकटन क्षमताओं तथा सन्निकटन सघन अभिसरण सांस्थिति से संबंधित हैं।


यद्यपि, [[गैर-यूक्लिडियन स्थान|गैर-यूक्लिडियन समष्टियों]] के बीच भी विभिन्न प्रकार के परिणाम हैं<ref name=NonEuclidean>{{Cite conference|last1=Kratsios|first1=Anastasis|last2=Bilokopytov|first2=Eugene|date=2020|title=गैर-यूक्लिडियन सार्वभौमिक सन्निकटन|url=https://papers.nips.cc/paper/2020/file/786ab8c4d7ee758f80d57e65582e609d-Paper.pdf|publisher=Curran Associates|journal=Advances in Neural Information Processing Systems |volume=33}}</ref> और अन्य सामान्यतः उपयोग किए जाने वाले संरचना और, अधिक सामान्यतः, विधिकलन द्वारा उत्पन्न फलनों के समुच्चय, जैसे  [[दृढ़ तंत्रिका नेटवर्क|संवलन तंत्रिका नेटवर्क]] (सीएनएन) संरचना,<ref>{{cite journal |doi=10.1016/j.acha.2019.06.004 |arxiv=1805.10769|title=गहरे दृढ़ तंत्रिका नेटवर्क की सार्वभौमिकता|year=2020|last1=Zhou|first1=Ding-Xuan|journal=[[Applied and Computational Harmonic Analysis]]|volume=48|issue=2|pages=787–794|s2cid=44113176}}</ref><ref>{{Cite journal|doi = 10.1109/LSP.2020.3005051|title = विरल रूप से जुड़े ReLU कन्वोल्यूशन नेट के माध्यम से शोधन और सार्वभौमिक अनुमोदन|year = 2020|last1 = Heinecke|first1 = Andreas|last2 = Ho|first2 = Jinn|last3 = Hwang|first3 = Wen-Liang|journal = IEEE Signal Processing Letters|volume = 27|pages = 1175–1179|bibcode = 2020ISPL...27.1175H|s2cid = 220669183}}</ref> [[रेडियल आधार कार्य|त्रिज्यीय आधार फलन]],<ref>{{Cite journal|doi=10.1162/neco.1991.3.2.246|title=रेडियल-बेस-फ़ंक्शन नेटवर्क का उपयोग करके सार्वभौमिक सन्निकटन|year=1991|last1=Park|first1=J.|last2=Sandberg|first2=I. W.|journal=Neural Computation|volume=3|issue=2|pages=246–257|pmid=31167308|s2cid=34868087}}</ref> या विशिष्ट गुणों वाले तंत्रिका नेटवर्क आदि।<ref>{{cite journal |doi=10.1007/s00365-021-09546-1|arxiv=1804.10306|title=तंत्रिका नेटवर्क द्वारा अपरिवर्तनीय मानचित्रों का सार्वभौमिक अनुमान|year=2021|last1=Yarotsky|first1=Dmitry|journal=Constructive Approximation|volume=55 |pages=407–474 |s2cid=13745401}}</ref><ref>{{Cite journal |last1=Zakwan |first1=Muhammad |last2=d’Angelo |first2=Massimiliano |last3=Ferrari-Trecate |first3=Giancarlo |date=2023 |title=हैमिल्टनियन डीप न्यूरल नेटवर्क्स की सार्वभौमिक सन्निकटन संपत्ति|url=https://ieeexplore.ieee.org/document/10159005 |journal=IEEE Control Systems Letters |volume=7 |pages=2689–2694 |arxiv=2303.12147 |doi=10.1109/LCSYS.2023.3288350 |s2cid=257663609 |issn=2475-1456}}</ref> अधिकांश सार्वभौमिक सन्निकटन प्रमेयों को दो वर्गों में विभाजित किया जा सकता है। पहला कृत्रिम तंत्रिकाओं की एक यादृच्छिक संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं को निर्धारित करता है और दूसरा छिपी हुई स्तरों की एक यादृच्छिक संख्या के साथ विषय पर ध्यान केंद्रित करता है, प्रत्येक वर्ग में सीमित संख्या में कृत्रिम तंत्रिकाएँ होती है। इन दो वर्गों के अतिरिक्त, तंत्रिका नेटवर्क के लिए छिपी हुई स्तरों की सीमित संख्या और प्रत्येक परत में सीमित संख्या में तंत्रिकाओं के साथ सार्वभौमिक सन्निकटन प्रमेय भी सम्मिलित हैं।
यद्यपि, [[गैर-यूक्लिडियन स्थान|गैर-यूक्लिडियन समष्टियों]] के बीच भी विभिन्न प्रकार के परिणाम हैं<ref name=NonEuclidean>{{Cite conference|last1=Kratsios|first1=Anastasis|last2=Bilokopytov|first2=Eugene|date=2020|title=गैर-यूक्लिडियन सार्वभौमिक सन्निकटन|url=https://papers.nips.cc/paper/2020/file/786ab8c4d7ee758f80d57e65582e609d-Paper.pdf|publisher=Curran Associates|journal=Advances in Neural Information Processing Systems |volume=33}}</ref> और अन्य सामान्यतः उपयोग किए जाने वाले संरचना और, अधिक सामान्यतः, विधिकलन द्वारा उत्पन्न फलनों के समुच्चय, जैसे  [[दृढ़ तंत्रिका नेटवर्क|संवलन तंत्रिका नेटवर्क]] (सीएनएन) संरचना,<ref>{{cite journal |doi=10.1016/j.acha.2019.06.004 |arxiv=1805.10769|title=गहरे दृढ़ तंत्रिका नेटवर्क की सार्वभौमिकता|year=2020|last1=Zhou|first1=Ding-Xuan|journal=[[Applied and Computational Harmonic Analysis]]|volume=48|issue=2|pages=787–794|s2cid=44113176}}</ref><ref>{{Cite journal|doi = 10.1109/LSP.2020.3005051|title = विरल रूप से जुड़े ReLU कन्वोल्यूशन नेट के माध्यम से शोधन और सार्वभौमिक अनुमोदन|year = 2020|last1 = Heinecke|first1 = Andreas|last2 = Ho|first2 = Jinn|last3 = Hwang|first3 = Wen-Liang|journal = IEEE Signal Processing Letters|volume = 27|pages = 1175–1179|bibcode = 2020ISPL...27.1175H|s2cid = 220669183}}</ref> [[रेडियल आधार कार्य|त्रिज्यीय आधार फलन]],<ref>{{Cite journal|doi=10.1162/neco.1991.3.2.246|title=रेडियल-बेस-फ़ंक्शन नेटवर्क का उपयोग करके सार्वभौमिक सन्निकटन|year=1991|last1=Park|first1=J.|last2=Sandberg|first2=I. W.|journal=Neural Computation|volume=3|issue=2|pages=246–257|pmid=31167308|s2cid=34868087}}</ref> या विशिष्ट गुणों वाले तंत्रिका नेटवर्क आदि पर आधारित हैं।<ref>{{cite journal |doi=10.1007/s00365-021-09546-1|arxiv=1804.10306|title=तंत्रिका नेटवर्क द्वारा अपरिवर्तनीय मानचित्रों का सार्वभौमिक अनुमान|year=2021|last1=Yarotsky|first1=Dmitry|journal=Constructive Approximation|volume=55 |pages=407–474 |s2cid=13745401}}</ref><ref>{{Cite journal |last1=Zakwan |first1=Muhammad |last2=d’Angelo |first2=Massimiliano |last3=Ferrari-Trecate |first3=Giancarlo |date=2023 |title=हैमिल्टनियन डीप न्यूरल नेटवर्क्स की सार्वभौमिक सन्निकटन संपत्ति|url=https://ieeexplore.ieee.org/document/10159005 |journal=IEEE Control Systems Letters |volume=7 |pages=2689–2694 |arxiv=2303.12147 |doi=10.1109/LCSYS.2023.3288350 |s2cid=257663609 |issn=2475-1456}}</ref> अधिकांश सार्वभौमिक सन्निकटन प्रमेयों को दो वर्गों में विभाजित किया जा सकता है। पहला कृत्रिम तंत्रिकाओं की एक यादृच्छिक संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं को निर्धारित करता है और दूसरा छिपे हुए स्तरों की एक यादृच्छिक संख्या के साथ विषय पर ध्यान केंद्रित करता है, प्रत्येक वर्ग में परिमित संख्या में कृत्रिम तंत्रिकाएँ होती है। इन दो वर्गों के अतिरिक्त, तंत्रिका नेटवर्क के लिए छिपी हुई स्तरों की परिमित संख्या और प्रत्येक परत में परिमित संख्या में तंत्रिकाओं के साथ सार्वभौमिक सन्निकटन प्रमेय भी सम्मिलित हैं।


सार्वभौमिक सन्निकटन प्रमेय का अर्थ है कि उचित भार दिए जाने पर तंत्रिका नेटवर्क विभिन्न प्रकार के रोचक कार्यों का प्रतिनिधित्व कर सकते हैं। दूसरी ओर, वे सामान्यतः भार के लिए कोई निर्माण प्रदान नहीं करते हैं, बल्कि केवल यह बताते हैं कि ऐसा निर्माण संभव है।
सार्वभौमिक सन्निकटन प्रमेय का अर्थ है कि उचित भार दिए जाने पर तंत्रिका नेटवर्क विभिन्न प्रकार के रोचक फलनों का प्रतिनिधित्व कर सकती हैं। दूसरी ओर, वे सामान्यतः भार के लिए कोई निर्माण प्रदान नहीं करते हैं, बल्कि केवल यह बताते हैं कि ऐसा निर्माण संभव है।


== इतिहास ==
== इतिहास ==
[[सिग्मॉइड फ़ंक्शन|सिग्मॉइड फलन,]] सक्रियण फलनों के लिए यादृच्छिक चौड़ाई परप्रेक्ष्य के पहले संस्करणों में से एक [[जॉर्ज साइबेंको]] द्वारा 1989 में सिद्ध किया गया था।<ref name=cyb>{{cite journal |citeseerx=10.1.1.441.7873 |doi=10.1007/BF02551274|title=सिग्मोइडल फ़ंक्शन के सुपरपोज़िशन द्वारा सन्निकटन|year=1989|last1=Cybenko|first1=G.|journal=Mathematics of Control, Signals, and Systems|volume=2|issue=4|pages=303–314|s2cid=3958369}}</ref> {{ill|कूरट हॉर्निक|डे}}, मैक्सवेल स्टिंचकॉम्ब और [[ हेल्बर्ट व्हाइट |हेल्बर्ट व्हाइट]] ने 1989 में प्रदर्शित किया कि कम से कम एक छिपी हुई परत वाले बहुपरत [[फ़ीड-फ़ॉरवर्ड नेटवर्क]] सार्वभौमिक सन्निकटन हैं।<ref name="MLP-UA" />हॉर्निक ने 1991 में भी प्रदर्शित किया था<ref name=horn>{{Cite journal|doi=10.1016/0893-6080(91)90009-T|title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क की अनुमानित क्षमताएं|year=1991|last1=Hornik|first1=Kurt|journal=Neural Networks|volume=4|issue=2|pages=251–257|s2cid=7343126 }}</ref> की यह सक्रियण फलन का विशिष्ट विकल्प नहीं है, बल्कि बहुपरत फ़ीड-फ़ॉरवर्ड संरचना ही है जो तंत्रिका नेटवर्क को सार्वभौमिक सन्निकटनकर्ता होने की क्षमता प्रदान करती है। 1993 में मोशे लेश्नो एट अल<ref name=leshno>{{Cite journal|last1=Leshno|first1=Moshe|last2=Lin|first2=Vladimir Ya.|last3=Pinkus|first3=Allan|last4=Schocken|first4=Shimon|date=January 1993|title=गैर-बहुपद सक्रियण फ़ंक्शन वाले बहुपरत फ़ीडफ़ॉरवर्ड नेटवर्क किसी भी फ़ंक्शन का अनुमान लगा सकते हैं|journal=Neural Networks|volume=6|issue=6|pages=861–867|doi=10.1016/S0893-6080(05)80131-5|s2cid=206089312|url=http://archive.nyu.edu/handle/2451/14329 }}</ref> और बाद में 1999 में एलन पिंकस<ref name=pinkus>{{Cite journal|last=Pinkus|first=Allan|date=January 1999|title=तंत्रिका नेटवर्क में एमएलपी मॉडल का सन्निकटन सिद्धांत|journal=Acta Numerica|volume=8|pages=143–195|doi=10.1017/S0962492900002919|bibcode=1999AcNum...8..143P|s2cid=16800260 }}</ref> द्वारा प्रदर्शित किया गया कि सार्वभौमिक सन्निकटन गुण एक गैर-बहुपद सक्रियण फलन के बराबर है। 2022 में, शेन ज़ुओवेई, हाइझाओ यांग और शिजुन झांग<ref>{{Cite journal |last1=Shen |first1=Zuowei |last2=Yang |first2=Haizhao |last3=Zhang |first3=Shijun |date=January 2022 |title=चौड़ाई और गहराई के संदर्भ में ReLU नेटवर्क की इष्टतम सन्निकटन दर|url=https://linkinghub.elsevier.com/retrieve/pii/S0021782421001124 |journal=Journal de Mathématiques Pures et Appliquées |language=en |volume=157 |pages=101–135 |doi=10.1016/j.matpur.2021.07.009|s2cid=232075797 }}</ref> गहरे और विस्तृत रीलू (ReLU) तंत्रिका नेटवर्क द्वारा लक्ष्य फलन का अनुमान लगाने के लिए आवश्यक गहराई और चौड़ाई पर सटीक मात्रात्मक जानकारी प्राप्त की गई।
[[सिग्मॉइड फ़ंक्शन|सिग्मॉइड फलन,]] सक्रियण फलनों के लिए यादृच्छिक विस्तार के पहले संस्करणों में से एक [[जॉर्ज साइबेंको]] द्वारा 1989 में सिद्ध किया गया था।<ref name=cyb>{{cite journal |citeseerx=10.1.1.441.7873 |doi=10.1007/BF02551274|title=सिग्मोइडल फ़ंक्शन के सुपरपोज़िशन द्वारा सन्निकटन|year=1989|last1=Cybenko|first1=G.|journal=Mathematics of Control, Signals, and Systems|volume=2|issue=4|pages=303–314|s2cid=3958369}}</ref> {{ill|कूरट हॉर्निक|डे}}, मैक्सवेल स्टिंचकॉम्ब और [[ हेल्बर्ट व्हाइट |हेल्बर्ट व्हाइट]] ने 1989 में प्रदर्शित किया कि कम से कम एक छिपी हुई परत वाले बहुपरत [[फ़ीड-फ़ॉरवर्ड नेटवर्क]] सार्वभौमिक सन्निकटन हैं।<ref name="MLP-UA" />हॉर्निक ने 1991 में भी प्रदर्शित किया था<ref name=horn>{{Cite journal|doi=10.1016/0893-6080(91)90009-T|title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क की अनुमानित क्षमताएं|year=1991|last1=Hornik|first1=Kurt|journal=Neural Networks|volume=4|issue=2|pages=251–257|s2cid=7343126 }}</ref> की यह सक्रियण फलन का विशिष्ट विकल्प नहीं है, बल्कि बहुपरत फ़ीड-फ़ॉरवर्ड संरचना ही है जो तंत्रिका नेटवर्क को सार्वभौमिक सन्निकटनकर्ता होने की क्षमता प्रदान करती है। 1993 में मोशे लेश्नो एट अल<ref name=leshno>{{Cite journal|last1=Leshno|first1=Moshe|last2=Lin|first2=Vladimir Ya.|last3=Pinkus|first3=Allan|last4=Schocken|first4=Shimon|date=January 1993|title=गैर-बहुपद सक्रियण फ़ंक्शन वाले बहुपरत फ़ीडफ़ॉरवर्ड नेटवर्क किसी भी फ़ंक्शन का अनुमान लगा सकते हैं|journal=Neural Networks|volume=6|issue=6|pages=861–867|doi=10.1016/S0893-6080(05)80131-5|s2cid=206089312|url=http://archive.nyu.edu/handle/2451/14329 }}</ref> और बाद में 1999 में एलन पिंकस<ref name=pinkus>{{Cite journal|last=Pinkus|first=Allan|date=January 1999|title=तंत्रिका नेटवर्क में एमएलपी मॉडल का सन्निकटन सिद्धांत|journal=Acta Numerica|volume=8|pages=143–195|doi=10.1017/S0962492900002919|bibcode=1999AcNum...8..143P|s2cid=16800260 }}</ref> द्वारा प्रदर्शित किया गया कि सार्वभौमिक सन्निकटन गुण एक गैर-बहुपद सक्रियण फलन के बराबर है। 2022 में, शेन ज़ुओवेई, हाइझाओ यांग और शिजुन झांग<ref>{{Cite journal |last1=Shen |first1=Zuowei |last2=Yang |first2=Haizhao |last3=Zhang |first3=Shijun |date=January 2022 |title=चौड़ाई और गहराई के संदर्भ में ReLU नेटवर्क की इष्टतम सन्निकटन दर|url=https://linkinghub.elsevier.com/retrieve/pii/S0021782421001124 |journal=Journal de Mathématiques Pures et Appliquées |language=en |volume=157 |pages=101–135 |doi=10.1016/j.matpur.2021.07.009|s2cid=232075797 }}</ref> गहरे और विस्तृत रीलू (ReLU) तंत्रिका नेटवर्क द्वारा लक्ष्य फलन का अनुमान लगाने के लिए आवश्यक डेप्थ और विस्तार पर सटीक मात्रात्मक जानकारी प्राप्त की गई।


''यादृच्छिक गहराई'' के परिप्रेक्ष्य का अध्ययन 2003 में गुस्ताफ ग्रिपेनबर्ग जैसे कई लेखकों द्वारा भी किया गया था,<ref name= gripenberg >{{Cite journal|last1=Gripenberg|first1=Gustaf|date=June 2003|title= प्रत्येक स्तर पर नोड्स की एक सीमित संख्या के साथ तंत्रिका नेटवर्क द्वारा अनुमान|journal= Journal of Approximation Theory |volume=122|issue=2|pages=260–266|doi= 10.1016/S0021-9045(03)00078-9 |doi-access=free}}</ref> दिमित्री यारोत्स्की,<ref>{{Cite book |first=Dmitry |last=Yarotsky |url=http://worldcat.org/oclc/1106247665 |title=गहरे ReLU नेटवर्क के साथ सन्निकटन के लिए त्रुटि सीमाएं|date=2016-10-03 |oclc=1106247665}}</ref> 2017 में झोउ लू एट अल,<ref name="ZhouLu">{{cite journal |last1=Lu |first1=Zhou |last2=Pu |first2=Homgming |last3=Wang |first3=Feicheng |last4=Hu |first4=Zhiqiang |last5=Wang |first5=Liwei |title=The Expressive Power of Neural Networks: A View from the Width |journal=Advances in Neural Information Processing Systems |volume=30 |year=2017 |pages=6231–6239 |url=http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width |publisher=Curran Associates |arxiv=1709.02540 }}</ref> 2018 में बोरिस हैनिन और मार्क सेल्के<ref name=hanin>{{cite arXiv |last1=Hanin|first1=Boris|last2=Sellke|first2=Mark|title=न्यूनतम चौड़ाई के ReLU नेट द्वारा सतत कार्यों का अनुमान लगाना|eprint=1710.11278|class=stat.ML|date=2018}}</ref> जिन्होंने रीलू सक्रियण फलन के साथ तंत्रिका नेटवर्क पर ध्यान केंद्रित किया। 2020 में, पैट्रिक किडगर और टेरी लियोन्स<ref name=kidger>{{Cite conference|last1=Kidger|first1=Patrick|last2=Lyons|first2=Terry|date=July 2020|title=गहरे संकीर्ण नेटवर्क के साथ सार्वभौमिक सन्निकटन|arxiv=1905.08539|conference=Conference on Learning Theory}}</ref> उन परिणामों को सामान्य सक्रियण कार्यों के साथ तंत्रिका नेटवर्क तक विस्तारित किया गया, जैसे टैन, जीएलयू, या स्विश, और 2022 में, उनके परिणाम को लियोनी पापोन और अनास्तासिस क्रैटसियोस द्वारा मात्रात्मक बनाया गया था<ref name="jmlr.org">{{Cite journal |last1=Kratsios |first1=Anastasis |last2=Papon |first2=Léonie |date=2022 |title=विभेदक ज्यामितीय गहन शिक्षण के लिए सार्वभौमिक सन्निकटन प्रमेय|url=http://jmlr.org/papers/v23/21-0716.html |journal=Journal of Machine Learning Research |volume=23 |issue=196 |pages=1–73 |arxiv=2101.05390 |issn=1533-7928}}</ref> जिन्होंने लक्ष्य फलन और सक्रियण फलन की नियमितता के आधार पर स्पष्ट गहराई का अनुमान लगाया।
''यादृच्छिक डेप्थ'' के परिप्रेक्ष्य का अध्ययन 2003 में गुस्ताफ ग्रिपेनबर्ग जैसे कई लेखकों द्वारा भी किया गया था,<ref name= gripenberg >{{Cite journal|last1=Gripenberg|first1=Gustaf|date=June 2003|title= प्रत्येक स्तर पर नोड्स की एक सीमित संख्या के साथ तंत्रिका नेटवर्क द्वारा अनुमान|journal= Journal of Approximation Theory |volume=122|issue=2|pages=260–266|doi= 10.1016/S0021-9045(03)00078-9 |doi-access=free}}</ref> दिमित्री यारोत्स्की,<ref>{{Cite book |first=Dmitry |last=Yarotsky |url=http://worldcat.org/oclc/1106247665 |title=गहरे ReLU नेटवर्क के साथ सन्निकटन के लिए त्रुटि सीमाएं|date=2016-10-03 |oclc=1106247665}}</ref> 2017 में झोउ लू एट अल,<ref name="ZhouLu">{{cite journal |last1=Lu |first1=Zhou |last2=Pu |first2=Homgming |last3=Wang |first3=Feicheng |last4=Hu |first4=Zhiqiang |last5=Wang |first5=Liwei |title=The Expressive Power of Neural Networks: A View from the Width |journal=Advances in Neural Information Processing Systems |volume=30 |year=2017 |pages=6231–6239 |url=http://papers.nips.cc/paper/7203-the-expressive-power-of-neural-networks-a-view-from-the-width |publisher=Curran Associates |arxiv=1709.02540 }}</ref> 2018 में बोरिस हैनिन और मार्क सेल्के<ref name=hanin>{{cite arXiv |last1=Hanin|first1=Boris|last2=Sellke|first2=Mark|title=न्यूनतम चौड़ाई के ReLU नेट द्वारा सतत कार्यों का अनुमान लगाना|eprint=1710.11278|class=stat.ML|date=2018}}</ref> जिन्होंने रीलू सक्रियण फलन के साथ तंत्रिका नेटवर्क पर ध्यान केंद्रित किया। 2020 में, पैट्रिक किडगर और टेरी लियोन्स<ref name=kidger>{{Cite conference|last1=Kidger|first1=Patrick|last2=Lyons|first2=Terry|date=July 2020|title=गहरे संकीर्ण नेटवर्क के साथ सार्वभौमिक सन्निकटन|arxiv=1905.08539|conference=Conference on Learning Theory}}</ref> उन परिणामों को सामान्य सक्रियण फलनों के साथ तंत्रिका नेटवर्क तक विस्तारित किया गया, जैसे टैन, जीएलयू, या स्विश, और 2022 में, उनके परिणाम को लियोनी पापोन और अनास्तासिस क्रैटसियोस द्वारा मात्रात्मक बनाया गया था<ref name="jmlr.org">{{Cite journal |last1=Kratsios |first1=Anastasis |last2=Papon |first2=Léonie |date=2022 |title=विभेदक ज्यामितीय गहन शिक्षण के लिए सार्वभौमिक सन्निकटन प्रमेय|url=http://jmlr.org/papers/v23/21-0716.html |journal=Journal of Machine Learning Research |volume=23 |issue=196 |pages=1–73 |arxiv=2101.05390 |issn=1533-7928}}</ref> जिन्होंने लक्ष्य फलन और सक्रियण फलन की नियमितता के आधार पर स्पष्ट डेप्थ का अनुमान लगाया।


सार्वभौमिकता के लिए न्यूनतम संभावित चौड़ाई के प्रश्न का पहली बार 2021 में अध्ययन किया गया था, पार्क एट अल ने एलपी स्पेस के सार्वभौमिक सन्निकटन के लिए आवश्यक न्यूनतम चौड़ाई ''L<sup>p</sup>'' प्राप्त की जो सक्रियण कार्यों के रूप में दिष्टकारी तंत्रिका नेटवर्क के साथ फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग करके कार्य करता है।<ref name="park">{{Cite conference |last1=Park |first1=Sejun |last2=Yun |first2=Chulhee |last3=Lee |first3=Jaeho |last4=Shin |first4=Jinwoo |date=2021 |title=सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई|conference=International Conference on Learning Representations |arxiv=2006.08859}}</ref> इसी तरह के परिणाम जो सीधे [[अवशिष्ट तंत्रिका नेटवर्क]] पर लागू किए जा सकते हैं, उसी वर्ष [[नियंत्रण सिद्धांत]] तर्कों का उपयोग करके पाउलो तबुआडा और बहमन घरेसिफ़र्ड द्वारा भी प्राप्त किए गए थे।<ref>{{Cite conference |last1=Tabuada |first1=Paulo |last2=Gharesifard |first2=Bahman |date=2021 |title=अरेखीय नियंत्रण सिद्धांत के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक सन्निकटन शक्ति|conference=International Conference on Learning Representations |arxiv=2007.06007}}</ref><ref>{{Cite journal |last1=Tabuada |first1=Paulo |last2=Gharesifard |first2=Bahman |date=2023 |title=नियंत्रण के लेंस के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक अनुमान शक्ति|url=https://ieeexplore.ieee.org/document/9827563 |journal=IEEE Transactions on Automatic Control |volume=68 |issue=5 |pages=2715–2728 |doi=10.1109/TAC.2022.3190051 |s2cid=250512115 |issn=1558-2523}}</ref> 2023 में, सी.ए.आई <ref name=":1">{{Cite journal |last=Cai |first=Yongqiang |date=2023-02-01 |title=सार्वभौमिक सन्निकटन के लिए तंत्रिका नेटवर्क की न्यूनतम चौड़ाई प्राप्त करें|url=https://openreview.net/forum?id=hfUJ4ShyDEU |journal=ICLR |arxiv=2209.11395 |language=en}}</ref> सार्वभौमिक सन्निकटन के लिए बाध्य इष्टतम न्यूनतम चौड़ाई प्राप्त की गई।
सार्वभौमिकता के लिए न्यूनतम संभावित विस्तार के प्रश्न का पहली बार 2021 में अध्ययन किया गया था, पार्क एट अल ने एलपी स्पेस के सार्वभौमिक सन्निकटन के लिए आवश्यक न्यूनतम विस्तार ''L<sup>p</sup>'' प्राप्त की जो सक्रियण फलनों के रूप में दिष्टकारी तंत्रिका नेटवर्क के साथ फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग करके कार्य करता है।<ref name="park">{{Cite conference |last1=Park |first1=Sejun |last2=Yun |first2=Chulhee |last3=Lee |first3=Jaeho |last4=Shin |first4=Jinwoo |date=2021 |title=सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई|conference=International Conference on Learning Representations |arxiv=2006.08859}}</ref> इसी तरह के परिणाम जो सीधे [[अवशिष्ट तंत्रिका नेटवर्क]] पर लागू किए जा सकते हैं, उसी वर्ष [[नियंत्रण सिद्धांत]] तर्कों का उपयोग करके पाउलो तबुआडा और बहमन घरेसिफ़र्ड द्वारा भी प्राप्त किए गए थे।<ref>{{Cite conference |last1=Tabuada |first1=Paulo |last2=Gharesifard |first2=Bahman |date=2021 |title=अरेखीय नियंत्रण सिद्धांत के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक सन्निकटन शक्ति|conference=International Conference on Learning Representations |arxiv=2007.06007}}</ref><ref>{{Cite journal |last1=Tabuada |first1=Paulo |last2=Gharesifard |first2=Bahman |date=2023 |title=नियंत्रण के लेंस के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक अनुमान शक्ति|url=https://ieeexplore.ieee.org/document/9827563 |journal=IEEE Transactions on Automatic Control |volume=68 |issue=5 |pages=2715–2728 |doi=10.1109/TAC.2022.3190051 |s2cid=250512115 |issn=1558-2523}}</ref> 2023 में, सी.ए.आई <ref name=":1">{{Cite journal |last=Cai |first=Yongqiang |date=2023-02-01 |title=सार्वभौमिक सन्निकटन के लिए तंत्रिका नेटवर्क की न्यूनतम चौड़ाई प्राप्त करें|url=https://openreview.net/forum?id=hfUJ4ShyDEU |journal=ICLR |arxiv=2209.11395 |language=en}}</ref> सार्वभौमिक सन्निकटन के लिए बाध्य इष्टतम न्यूनतम विस्तार प्राप्त की गई।


परिबद्ध गहराई तथा परिबद्ध चौड़ाई के परिप्रेक्ष्य का अध्ययन पहली बार 1999 में मायोरोव और पिंकस द्वारा किया गया था।<ref name=maiorov>{{Cite journal|last1=Maiorov|first1=Vitaly|last2=Pinkus|first2=Allan|date=April 1999|title=एमएलपी तंत्रिका नेटवर्क द्वारा सन्निकटन के लिए निचली सीमाएं|journal=Neurocomputing|volume=25|issue=1–3|pages=81–91|doi=10.1016/S0925-2312(98)00111-8}}</ref> उन्होंने प्रदर्शित किया कि ऐसा एक विश्लेषणात्मक सिग्मोइडल सक्रियण फलन उपलब्ध है जिसके द्वारा दो छिपी हुई स्तर के कृत्रिम तंत्रिका नेटवर्क्स जिनमें छिपे हुए स्तरों में सीमित संख्या की इकाइयाँ होती हैं, वे एक सार्वभौमिक अद्यापक होते हैं। विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने एक स्मूद सिग्मॉइडल सक्रियण फलन का निर्माण किया, जो छिपी हुई स्तरों में कम इकाइयों के साथ दो छिपी हुई परत फीडफॉरवर्ड न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करता है।<ref name=guliyev1>{{Cite journal|last1=Guliyev|first1=Namig|last2=Ismailov|first2=Vugar|date=November 2018|title=निश्चित भार के साथ दो छिपे हुए परत फीडफॉरवर्ड तंत्रिका नेटवर्क की अनुमानित क्षमता|journal=Neurocomputing|volume=316| pages=262–269|doi=10.1016/j.neucom.2018.07.075|arxiv=2101.09181 |s2cid=52285996 }}</ref> यह 2018 के लेख में रचनात्मक रूप से सिद्ध हुआ था<ref name=guliyev2>{{Cite journal|last1=Guliyev|first1=Namig|last2=Ismailov|first2=Vugar|date=February 2018|title=निश्चित भार के साथ एकल छिपी हुई परत फीडफॉरवर्ड तंत्रिका नेटवर्क द्वारा सन्निकटन पर|journal=Neural Networks|volume=98| pages=296–304|doi=10.1016/j.neunet.2017.12.007|pmid=29301110 |arxiv=1708.06219 |s2cid=4932839 }}</ref> परिमित चौड़ाई वाले एकल छिपे हुए परत नेटवर्क अभी भी अविभाज्य कार्यों के लिए सार्वभौमिक सन्निकटन हैं, परंतु यह गुण अब बहुपरिवर्तनीय कार्यों के लिए सत्य नहीं है।
परिबद्ध डेप्थ तथा परिबद्ध विस्तार के परिप्रेक्ष्य का अध्ययन पहली बार 1999 में मायोरोव और पिंकस द्वारा किया गया था।<ref name=maiorov>{{Cite journal|last1=Maiorov|first1=Vitaly|last2=Pinkus|first2=Allan|date=April 1999|title=एमएलपी तंत्रिका नेटवर्क द्वारा सन्निकटन के लिए निचली सीमाएं|journal=Neurocomputing|volume=25|issue=1–3|pages=81–91|doi=10.1016/S0925-2312(98)00111-8}}</ref> उन्होंने प्रदर्शित किया कि ऐसा एक विश्लेषणात्मक सिग्मोइडल सक्रियण फलन उपलब्ध है जिसके द्वारा दो छिपी हुई स्तर के कृत्रिम तंत्रिका नेटवर्क्स जिनमें छिपे हुए स्तरों में परिमित संख्या की इकाइयाँ होती हैं, वे एक सार्वभौमिक अद्यापक होते हैं। विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने एक स्मूद सिग्मॉइडल सक्रियण फलन का निर्माण किया, जो छिपी हुई स्तरों में कम इकाइयों के साथ दो छिपी हुई परत फीडफॉरवर्ड न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करता है।<ref name=guliyev1>{{Cite journal|last1=Guliyev|first1=Namig|last2=Ismailov|first2=Vugar|date=November 2018|title=निश्चित भार के साथ दो छिपे हुए परत फीडफॉरवर्ड तंत्रिका नेटवर्क की अनुमानित क्षमता|journal=Neurocomputing|volume=316| pages=262–269|doi=10.1016/j.neucom.2018.07.075|arxiv=2101.09181 |s2cid=52285996 }}</ref> यह 2018 के लेख में रचनात्मक रूप से सिद्ध हुआ था<ref name=guliyev2>{{Cite journal|last1=Guliyev|first1=Namig|last2=Ismailov|first2=Vugar|date=February 2018|title=निश्चित भार के साथ एकल छिपी हुई परत फीडफॉरवर्ड तंत्रिका नेटवर्क द्वारा सन्निकटन पर|journal=Neural Networks|volume=98| pages=296–304|doi=10.1016/j.neunet.2017.12.007|pmid=29301110 |arxiv=1708.06219 |s2cid=4932839 }}</ref> परिमित विस्तार वाले एकल छिपे हुए परत नेटवर्क अभी भी अविभाज्य फलनों के लिए सार्वभौमिक सन्निकटन हैं, परंतु यह गुण अब बहुपरिवर्तनीय फलनों के लिए सत्य नहीं है।


प्रमेय के कई विस्तार उपलब्ध हैं, जैसे असंतत सक्रियण फलन,<ref name=leshno /> अविस्तृत क्षेत्र,<ref name=kidger />प्रमाणित नेटवर्क,<ref>{{cite conference|last1=Baader|first1=Maximilian|last2=Mirman|first2=Matthew|last3=Vechev|first3=Martin|date=2020|title=प्रमाणित नेटवर्क के साथ सार्वभौमिक अनुमोदन|url=https://openreview.net/forum?id=B1gX8kBtPr|conference=ICLR}}</ref> यादृच्छिक तंत्रिका नेटवर्क,<ref>{{Cite journal|doi=10.1109/72.737488|title=नुकीले यादृच्छिक नेटवर्क के साथ फ़ंक्शन सन्निकटन|year=1999|last1=Gelenbe|first1=Erol|last2=Mao|first2= Zhi Hong|last3=Li|first3=Yan D.|journal=IEEE Transactions on Neural Networks|volume=10|issue=1|pages=3–9|pmid=18252498 |url=https://zenodo.org/record/6817275 }}</ref> और वैकल्पिक नेटवर्क संरचना तथा सांस्थिति आदि।<ref name="kidger" /><ref>{{Cite conference|last1=Lin|first1=Hongzhou|last2=Jegelka|first2=Stefanie|date=2018|title=एक-न्यूरॉन छुपी परतों वाला ResNet एक सार्वभौमिक अनुमानक है|url=https://papers.nips.cc/paper/7855-resnet-with-one-neuron-hidden-layers-is-a-universal-approximator|publisher=Curran Associates|pages=6169–6178|journal=Advances in Neural Information Processing Systems |volume=30}}</ref>
प्रमेय के कई विस्तार उपलब्ध हैं, जैसे असंतत सक्रियण फलन,<ref name=leshno /> अविस्तृत क्षेत्र,<ref name=kidger />प्रमाणित नेटवर्क,<ref>{{cite conference|last1=Baader|first1=Maximilian|last2=Mirman|first2=Matthew|last3=Vechev|first3=Martin|date=2020|title=प्रमाणित नेटवर्क के साथ सार्वभौमिक अनुमोदन|url=https://openreview.net/forum?id=B1gX8kBtPr|conference=ICLR}}</ref> यादृच्छिक तंत्रिका नेटवर्क,<ref>{{Cite journal|doi=10.1109/72.737488|title=नुकीले यादृच्छिक नेटवर्क के साथ फ़ंक्शन सन्निकटन|year=1999|last1=Gelenbe|first1=Erol|last2=Mao|first2= Zhi Hong|last3=Li|first3=Yan D.|journal=IEEE Transactions on Neural Networks|volume=10|issue=1|pages=3–9|pmid=18252498 |url=https://zenodo.org/record/6817275 }}</ref> और वैकल्पिक नेटवर्क संरचना तथा सांस्थिति आदि।<ref name="kidger" /><ref>{{Cite conference|last1=Lin|first1=Hongzhou|last2=Jegelka|first2=Stefanie|date=2018|title=एक-न्यूरॉन छुपी परतों वाला ResNet एक सार्वभौमिक अनुमानक है|url=https://papers.nips.cc/paper/7855-resnet-with-one-neuron-hidden-layers-is-a-universal-approximator|publisher=Curran Associates|pages=6169–6178|journal=Advances in Neural Information Processing Systems |volume=30}}</ref>




== यादृच्छिक-चौड़ाई प्रकर्ण ==
== यादृच्छिक-विस्तार प्रकर्ण ==
1980s-1990s में कई पेपर्स, जैसे कि [[जॉर्ज साइबेंको]] और {{ill|कुर्त हॉरनिक|de}} आदि, ने कुछ ऐसे सार्वभौमिक सन्निकटन प्रमेय स्थापित किए जो किसी भी चौड़ाई और सीमित गहराई के लिए सत्य थे।<ref>{{Cite journal |last=Funahashi |first=Ken-Ichi |date=1989-01-01 |title=तंत्रिका नेटवर्क द्वारा निरंतर मैपिंग की अनुमानित प्राप्ति पर|url=https://dx.doi.org/10.1016/0893-6080%2889%2990003-8 |journal=Neural Networks |language=en |volume=2 |issue=3 |pages=183–192 |doi=10.1016/0893-6080(89)90003-8 |issn=0893-6080}}</ref><ref name=cyb /><ref name=":0">{{Cite journal |last1=Hornik |first1=Kurt |last2=Stinchcombe |first2=Maxwell |last3=White |first3=Halbert |date=1989-01-01 |title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटनकर्ता हैं|url=https://dx.doi.org/10.1016/0893-6080%2889%2990020-8 |journal=Neural Networks |language=en |volume=2 |issue=5 |pages=359–366 |doi=10.1016/0893-6080(89)90020-8 |s2cid=2757547 |issn=0893-6080}}</ref><ref name=horn />समीक्षा के लिए <ref>Haykin, Simon (1998). ''Neural Networks: A Comprehensive Foundation'', Volume 2, Prentice Hall. {{isbn|0-13-273350-1}}.</ref><ref>Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48</ref><ref name="pinkus" /> को देखे। निम्नलिखित को सबसे अधिक बार उद्धृत किया गया है:{{math_theorem
1980s-1990s में कई पेपर्स, जैसे कि [[जॉर्ज साइबेंको]] और {{ill|कुर्त हॉरनिक|de}} आदि, ने कुछ ऐसे सार्वभौमिक सन्निकटन प्रमेय स्थापित किए जो किसी भी चौड़ाई और सीमित गहराई के लिए सत्य थे।<ref>{{Cite journal |last=Funahashi |first=Ken-Ichi |date=1989-01-01 |title=तंत्रिका नेटवर्क द्वारा निरंतर मैपिंग की अनुमानित प्राप्ति पर|url=https://dx.doi.org/10.1016/0893-6080%2889%2990003-8 |journal=Neural Networks |language=en |volume=2 |issue=3 |pages=183–192 |doi=10.1016/0893-6080(89)90003-8 |issn=0893-6080}}</ref><ref name=cyb /><ref name=":0">{{Cite journal |last1=Hornik |first1=Kurt |last2=Stinchcombe |first2=Maxwell |last3=White |first3=Halbert |date=1989-01-01 |title=मल्टीलेयर फीडफॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटनकर्ता हैं|url=https://dx.doi.org/10.1016/0893-6080%2889%2990020-8 |journal=Neural Networks |language=en |volume=2 |issue=5 |pages=359–366 |doi=10.1016/0893-6080(89)90020-8 |s2cid=2757547 |issn=0893-6080}}</ref><ref name=horn />समीक्षा के लिए <ref>Haykin, Simon (1998). ''Neural Networks: A Comprehensive Foundation'', Volume 2, Prentice Hall. {{isbn|0-13-273350-1}}.</ref><ref>Hassoun, M. (1995) ''Fundamentals of Artificial Neural Networks'' MIT Press, p.&nbsp;48</ref><ref name="pinkus" /> को देखे। निम्नलिखित को सबसे अधिक बार उद्धृत किया गया है:{{math_theorem
| name = Universal approximation theorem|यदि <math>C(X, \mathbb{R}^m)</math> को एक यूक्लिडीयन समष्टि <math>\mathbb{R}^n</math> से यूक्लिडीयन समष्टि <math>\mathbb{R}^m</math> के लिए एक उपसमूह के रूप में प्रकट किया जाए, तो <math>X</math> का एक उपसमूह होता है। <math>\sigma \in C(\mathbb{R}, \mathbb{R})</math> को C(R, R) में प्रकट करता है। ध्यान दें कि <math>(\sigma \circ x)_i = \sigma(x_i)</math> होता है, इसलिए <math>\sigma \circ x</math> का अर्थ <math>x</math> के प्रत्येक घटक पर <math>\sigma</math> का लागू किया जाता है।
| name = सार्वभौमिक सन्निकटन प्रमेय|यदि <math>C(X, \mathbb{R}^m)</math> को एक यूक्लिडीयन समष्टि <math>\mathbb{R}^n</math> से यूक्लिडीयन समष्टि <math>\mathbb{R}^m</math> के लिए एक उपसमूह के रूप में प्रकट किया जाए, तो <math>X</math> का एक उपसमूह होता है। <math>\sigma \in C(\mathbb{R}, \mathbb{R})</math> को C(R, R) में प्रकट करता है। ध्यान दें कि <math>(\sigma \circ x)_i = \sigma(x_i)</math> होता है, इसलिए <math>\sigma \circ x</math> का अर्थ <math>x</math> के प्रत्येक घटक पर <math>\sigma</math> का लागू किया जाता है।


पुनः, <math>\sigma</math> [[बहुपद]] नहीं होता है यदि और केवल यदि प्रत्येक <math>n \in \mathbb{N}</math>, <math>m \in \mathbb{N}</math>, [[संकुशल|संकुशल]] <math>K \subseteq \mathbb{R}^n</math>, <math>f \in C(K, \mathbb{R}^m), \varepsilon > 0</math> के लिए <math>k \in \mathbb{N}</math>, <math>A \in \mathbb{R}^{k \times n}</math>, <math>b \in \mathbb{R}^k</math>, <math>C \in \mathbb{R}^{m \times k}</math> उपलब्ध होते हैं जैसे कि
पुनः, <math>\sigma</math> [[बहुपद]] नहीं होता है यदि और केवल यदि प्रत्येक <math>n \in \mathbb{N}</math>, <math>m \in \mathbb{N}</math>, [[संकुशल|संकुशल]] <math>K \subseteq \mathbb{R}^n</math>, <math>f \in C(K, \mathbb{R}^m), \varepsilon > 0</math> के लिए <math>k \in \mathbb{N}</math>, <math>A \in \mathbb{R}^{k \times n}</math>, <math>b \in \mathbb{R}^k</math>, <math>C \in \mathbb{R}^{m \times k}</math> उपलब्ध होते हैं जैसे कि
Line 29: Line 29:
}}
}}


इस तरह के एक <math>f</math> पहली परत के लिए समान निर्माण का उपयोग करके और बाद की स्तरों के साथ इकाई फलन का अनुमान लगाकर अधिक गहराई के नेटवर्क द्वारा भी अनुमान लगाया जा सकता है।
इस तरह के एक <math>f</math> पहली परत के लिए समान निर्माण का उपयोग करके और बाद की स्तरों के साथ इकाई फलन का अनुमान लगाकर अधिक डेप्थ के नेटवर्क द्वारा भी अनुमान लगाया जा सकता है।


{{Math proof|title=प्रमाण आरेख|proof=यह उस परिप्रेक्ष्य को सिद्ध करने के लिए पर्याप्त है जहां <math>m = 1</math>, क्योंकि <math>\R^m</math> में समान अभिसरण प्रत्येक निर्देशांक में समान अभिसरण है।
{{Math proof|title=प्रमाण आरेख|proof=यह उस परिप्रेक्ष्य को सिद्ध करने के लिए पर्याप्त है जहां <math>m = 1</math>, क्योंकि <math>\R^m</math> में समान अभिसरण प्रत्येक निर्देशांक में समान अभिसरण है।
Line 67: Line 67:
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Template documentation pages|Documentation/doc]]


== यादृच्छिक-गहराई प्रकर्ण ==
== यादृच्छिक-डेप्थ प्रकर्ण ==
प्रमेय के 'दोहरे' संस्करण परिमित चौड़ाई और यादृच्छिक गहराई के नेटवर्क पर विचार करते हैं। झोउ लू एट अल द्वारा यादृच्छिक गहराई के प्रकर्ण के लिए सार्वभौमिक सन्निकटन प्रमेय का एक प्रकार सिद्ध किया गया था। 2017 में<ref name=ZhouLu />  उन्होंने प्रदर्शित किया कि [[ReLU|रिलू]] सक्रियण फलनों के साथ चौड़ाई n+4 के नेटवर्क L1 दूरी के संबंध में n-आयामी निविष्ट समष्टि पर किसी भी लेब्सग्यू एकीकरण <math>L^{1}</math> का अनुमान लगाया जा सकता है। यह भी प्रदर्शित किया गया कि यदि चौड़ाई n से कम या उसके बराबर थी, तो किसी भी लेबेस्ग एकीकरण फलन का अनुमान लगाने की यह सामान्य अभिव्यंजक क्षमता लुप्त हो गई थी। उसी समाचार पत्र में<ref name=ZhouLu />यह प्रदर्शित किया गया कि चौड़ाई n+1 वाले [[ReLU|रिलू]] नेटवर्क n-आयामी निविष्ट चर के किसी भी सतत फलन फलन को अनुमानित करने के लिए पर्याप्त थे।<ref>Hanin, B. (2018). [[arxiv:1710.11278|Approximating Continuous Functions by ReLU Nets of Minimal Width]]. arXiv preprint arXiv:1710.11278.</ref> निम्नलिखित परिशोधन, इष्टतम न्यूनतम चौड़ाई निर्दिष्ट करता है जिसके लिए ऐसा अनुमान संभव है।<ref>{{Cite journal|last=Park, Yun, Lee, Shin|first=Sejun, Chulhee, Jaeho, Jinwoo|date=2020-09-28|title=सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई|url=https://openreview.net/forum?id=O-XJwyoIF-k|journal=ICLR|arxiv=2006.08859|language=en}}</ref>
प्रमेय के 'दोहरे' संस्करण परिमित विस्तार और यादृच्छिक डेप्थ के नेटवर्क पर विचार करते हैं। झोउ लू एट अल द्वारा यादृच्छिक डेप्थ के प्रकर्ण के लिए सार्वभौमिक सन्निकटन प्रमेय का एक प्रकार सिद्ध किया गया था। 2017 में<ref name=ZhouLu />  उन्होंने प्रदर्शित किया कि [[ReLU|रिलू]] सक्रियण फलनों के साथ विस्तार n+4 के नेटवर्क L1 दूरी के संबंध में n-आयामी निविष्ट समष्टि पर किसी भी लेब्सग्यू एकीकरण <math>L^{1}</math> का अनुमान लगाया जा सकता है। यह भी प्रदर्शित किया गया कि यदि विस्तार n से कम या उसके बराबर थी, तो किसी भी लेबेस्ग एकीकरण फलन का अनुमान लगाने की यह सामान्य अभिव्यंजक क्षमता लुप्त हो गई थी। उसी समाचार पत्र में<ref name=ZhouLu />यह प्रदर्शित किया गया कि विस्तार n+1 वाले [[ReLU|रिलू]] नेटवर्क n-आयामी निविष्ट चर के किसी भी सतत फलन फलन को अनुमानित करने के लिए पर्याप्त थे।<ref>Hanin, B. (2018). [[arxiv:1710.11278|Approximating Continuous Functions by ReLU Nets of Minimal Width]]. arXiv preprint arXiv:1710.11278.</ref> निम्नलिखित परिशोधन, इष्टतम न्यूनतम विस्तार निर्दिष्ट करता है जिसके लिए ऐसा अनुमान संभव है।<ref>{{Cite journal|last=Park, Yun, Lee, Shin|first=Sejun, Chulhee, Jaeho, Jinwoo|date=2020-09-28|title=सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई|url=https://openreview.net/forum?id=O-XJwyoIF-k|journal=ICLR|arxiv=2006.08859|language=en}}</ref>


<blockquote>
<blockquote>
'''सार्वजनिक सन्निकटन सिद्धांत''' ''(L1 दूरी, रेलू सक्रियण, विविध गहराई, न्यूनतम चौड़ाई).'' किसी भी [[बोक्नर इंटीग्रल|बोक्नर–लेबेग p-अंशी]] फलन <math>f : \mathbb R^n \to \mathbb R^m</math> और किसी भी <math>\epsilon > 0</math> के लिए, एक [[पूर्ण जड़न संजाल|पूर्ण जड़न]] [[रेलू]] संजाल <math>F</math> का एक परिमित चौड़ाई <math>d_m = \max{n + 1, m}</math> के साथ उपलब्ध है, जिसमें निम्नलिखित प्रमेय लागू होता है
'''सार्वजनिक सन्निकटन सिद्धांत''' ''(L1 दूरी, रेलू सक्रियण, विविध डेप्थ, न्यूनतम विस्तार).'' किसी भी [[बोक्नर इंटीग्रल|बोक्नर–लेबेग p-अंशी]] फलन <math>f : \mathbb R^n \to \mathbb R^m</math> और किसी भी <math>\epsilon > 0</math> के लिए, एक [[पूर्ण जड़न संजाल|पूर्ण जड़न]] [[रेलू]] संजाल <math>F</math> का एक परिमित विस्तार <math>d_m = \max{n + 1, m}</math> के साथ उपलब्ध है, जिसमें निम्नलिखित प्रमेय लागू होता है
: <math>\int_{\mathbb R^n} |f(x) - F(x)|^p \mathrm{d}x < \epsilon.</math>
: <math>\int_{\mathbb R^n} |f(x) - F(x)|^p \mathrm{d}x < \epsilon.</math>


:<math> \int _ { \mathbb { R } ^ { n } } \left\| f ( x ) - F _ { } ( x ) \right\|^p \mathrm { d } x < \epsilon</math>.
:<math> \int _ { \mathbb { R } ^ { n } } \left\| f ( x ) - F _ { } ( x ) \right\|^p \mathrm { d } x < \epsilon</math>.
इसके अतिरिक्त एक ऐसा फलन <math>f \in L^p(\mathbb{R}^n, \mathbb{R}^m)</math> और कुछ <math>\epsilon > 0</math> उपलब्ध है, जिसके लिए उपर्युक्त सन्निकटन सीमा को संतुष्ट करने वाली किसी भी [[पूर्ण जड़न संजाल|पूर्ण जड़न]] [[रेलू]] संजाल की चौड़ाई <math>d_m = \max{n + 1 ,m}</math> से कम नहीं होती है।
इसके अतिरिक्त एक ऐसा फलन <math>f \in L^p(\mathbb{R}^n, \mathbb{R}^m)</math> और कुछ <math>\epsilon > 0</math> उपलब्ध है, जिसके लिए उपर्युक्त सन्निकटन सीमा को संतुष्ट करने वाली किसी भी [[पूर्ण जड़न संजाल|पूर्ण जड़न]] [[रेलू]] संजाल की विस्तार <math>d_m = \max{n + 1 ,m}</math> से कम नहीं होती है।


टिप्पणी: यदि सक्रियण को लीकी-रेएलयू द्वारा प्रतिस्थापित किया जाता है, और निविष्ट एक सघन क्षेत्र में प्रतिबंधित है, तो सटीक न्यूनतम चौड़ाई <ref name=":1" /> <math>d _ { m }=  \max\{n,m,2\}</math> है।  
टिप्पणी: यदि सक्रियण को लीकी-रेएलयू द्वारा प्रतिस्थापित किया जाता है, और निविष्ट एक सघन क्षेत्र में प्रतिबंधित है, तो सटीक न्यूनतम विस्तार <ref name=":1" /> <math>d _ { m }=  \max\{n,m,2\}</math> है।  


''मात्रात्मक सुधार'': उस मामले में, जब <math>\mathcal{X} = [0, 1]^d</math> और <math>D = 1</math> होता है और <math>\sigma</math> [[रीलू सक्रियण|रीलू सक्रियण फ़ंक्शन]] होता है, तो एक रीलू संजाल के लिए <math>\varepsilon</math> त्रुटि प्राप्त करने के लिए आवश्यक गहराई और चौड़ाई की निश्चित गहराई और चौड़ाई भी जानी जाती है।<ref>{{Cite journal |last1=Shen |first1=Zuowei |last2=Yang |first2=Haizhao |last3=Zhang |first3=Shijun |date=2022-01-01 |title=Optimal approximation rate of ReLU networks in terms of width and depth |url=https://www.sciencedirect.com/science/article/pii/S0021782421001124 |journal=Journal de Mathématiques Pures et Appliquées |language=en |volume=157 |pages=101–135 |doi=10.1016/j.matpur.2021.07.009 |arxiv=2103.00502 |s2cid=232075797 |issn=0021-7824}}</ref> और यदि उसले मल्ल फ़ंक्शन <math>f</math> होता है, तो आवश्यक स्तरों की संख्या और उनकी चौड़ाई आधारी हो सकती है।<ref>{{Cite journal |last1=Lu |first1=Jianfeng |last2=Shen |first2=Zuowei |last3=Yang |first3=Haizhao |last4=Zhang |first4=Shijun |date=2021-01-01 |title=Deep Network Approximation for Smooth Functions |url=https://epubs.siam.org/doi/abs/10.1137/20M134695X |journal=SIAM Journal on Mathematical Analysis |volume=53 |issue=5 |pages=5465–5506 |doi=10.1137/20M134695X |arxiv=2001.03040 |s2cid=210116459 |issn=0036-1410}}</ref> यदि <math>f</math> मल्ल नहीं है, तो यदि <math>f</math> अतिरिक्त "संरचना" स्वीकार करता है, तो आयाम का बन्ध तोड़ा जा सकता है।<ref>{{Cite journal |last1=Juditsky |first1=Anatoli B. |last2=Lepski |first2=Oleg V. |last3=Tsybakov |first3=Alexandre B. |date=2009-06-01 |title=Nonparametric estimation of composite functions |journal=The Annals of Statistics |volume=37 |issue=3 |doi=10.1214/08-aos611 |s2cid=2471890 |issn=0090-5364|doi-access=free }}</ref><ref>{{Cite journal |last1=Poggio |first1=Tomaso |last2=Mhaskar |first2=Hrushikesh |last3=Rosasco |first3=Lorenzo |last4=Miranda |first4=Brando |last5=Liao |first5=Qianli |date=2017-03-14 |title=Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review |journal=International Journal of Automation and Computing |volume=14 |issue=5 |pages=503–519 |doi=10.1007/s11633-017-1054-2 |s2cid=15562587 |issn=1476-8186|doi-access=free }}</ref>
''मात्रात्मक सुधार'': उस मामले में, जब <math>\mathcal{X} = [0, 1]^d</math> और <math>D = 1</math> होता है और <math>\sigma</math> [[रीलू सक्रियण|रीलू सक्रियण फलन]] होता है, तो एक रीलू संजाल के लिए <math>\varepsilon</math> त्रुटि प्राप्त करने के लिए आवश्यक डेप्थ और विस्तार की निश्चित डेप्थ और विस्तार भी जानी जाती है।<ref>{{Cite journal |last1=Shen |first1=Zuowei |last2=Yang |first2=Haizhao |last3=Zhang |first3=Shijun |date=2022-01-01 |title=Optimal approximation rate of ReLU networks in terms of width and depth |url=https://www.sciencedirect.com/science/article/pii/S0021782421001124 |journal=Journal de Mathématiques Pures et Appliquées |language=en |volume=157 |pages=101–135 |doi=10.1016/j.matpur.2021.07.009 |arxiv=2103.00502 |s2cid=232075797 |issn=0021-7824}}</ref> और यदि उसले मल्ल फलन <math>f</math> होता है, तो आवश्यक स्तरों की संख्या और उनकी विस्तार आधारी हो सकती है।<ref>{{Cite journal |last1=Lu |first1=Jianfeng |last2=Shen |first2=Zuowei |last3=Yang |first3=Haizhao |last4=Zhang |first4=Shijun |date=2021-01-01 |title=Deep Network Approximation for Smooth Functions |url=https://epubs.siam.org/doi/abs/10.1137/20M134695X |journal=SIAM Journal on Mathematical Analysis |volume=53 |issue=5 |pages=5465–5506 |doi=10.1137/20M134695X |arxiv=2001.03040 |s2cid=210116459 |issn=0036-1410}}</ref> यदि <math>f</math> मल्ल नहीं है, तो यदि <math>f</math> अतिरिक्त "संरचना" स्वीकार करता है, तो आयाम का बन्ध तोड़ा जा सकता है।<ref>{{Cite journal |last1=Juditsky |first1=Anatoli B. |last2=Lepski |first2=Oleg V. |last3=Tsybakov |first3=Alexandre B. |date=2009-06-01 |title=Nonparametric estimation of composite functions |journal=The Annals of Statistics |volume=37 |issue=3 |doi=10.1214/08-aos611 |s2cid=2471890 |issn=0090-5364|doi-access=free }}</ref><ref>{{Cite journal |last1=Poggio |first1=Tomaso |last2=Mhaskar |first2=Hrushikesh |last3=Rosasco |first3=Lorenzo |last4=Miranda |first4=Brando |last5=Liao |first5=Qianli |date=2017-03-14 |title=Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review |journal=International Journal of Automation and Computing |volume=14 |issue=5 |pages=503–519 |doi=10.1007/s11633-017-1054-2 |s2cid=15562587 |issn=1476-8186|doi-access=free }}</ref>
</blockquote>
</blockquote>


साथ ही, <ref name=kidger /> के मुख्य परिणाम से निम्नलिखित सीमांत चौड़ाई वाले संजालों के लिए निम्नलिखित सार्वजनिक सन्निकटन सिद्धांत देता है (इसके लिए पहले प्रकार के इस परिणाम के लिए देखें<ref name=gripenberg />)।
साथ ही, <ref name=kidger /> के मुख्य परिणाम से निम्नलिखित सीमांत विस्तार वाले संजालों के लिए निम्नलिखित सार्वजनिक सन्निकटन सिद्धांत देता है (इसके लिए पहले प्रकार के इस परिणाम के लिए देखें<ref name=gripenberg />)।


<blockquote>
<blockquote>
'''सार्वजनिक सन्निकटन सिद्धांत''' (समान गैर-[[एफ़ाइन स्थिति|एफ़ाइन]] सक्रियण, विविध [[गहराई अध्ययन|गहराई]], परिसीमित चौड़ाई). <math>\mathcal{X}</math> को <math>\mathbb{R}^d</math> के एक [[संकुचित समुच्चय|संकुचित उपसमुच्चय]] माना जाता है। <math>\sigma:\mathbb{R} \to \mathbb{R}</math> कोई ऐसा गैर-[[एफ़ाइन स्थिति|एफ़ाइन]] [[सतत फ़ंक्शन|सतत]] फ़ंक्शन है जो कम से कम एक बिंदु पर [[विभिन्नित फ़ंक्शन#विभिन्नता वर्ग|सतत विभिन्नता]] वाला है, उस बिंदु पर उसका विभिन्नता शून्य नहीं है। <math>\mathcal{N}{d,D:d+D+2}^\sigma</math> को <math>d</math> इनपुट न्यूरॉन, <math>D</math> आउटपुट न्यूरॉन, और हर एक छुपे हुए न्यूरॉन के साथ <math>d + D + 2</math> न्यूरॉन होने वाले हर सामान्य छुपे हुए न्यूरॉन को सक्रियण <math>\sigma</math> और प्रत्येक आउटपुट न्यूरॉन को उसके सक्रियण के रूप में [[पहचानकारी फ़ंक्शन|पहचानकारी फ़ंक्शन]] रखकर पूर्ण फ़ीड-फ़ॉरवर्ड न्यूरल संजाल की जगह है, जिसमें इनपुट श्रेणी <math>\phi</math> और आउटपुट श्रेणी <math>\rho</math> होती है। तो किसी भी <math>\varepsilon > 0</math> और किसी भी <math>f \in C(\mathcal{X}, \mathbb{R}^D)</math> के लिए, ऐसा <math>\hat{f} \in \mathcal{N}{d,D:d+D+2}^\sigma</math> मौजूद होता है जिसके लिए
'''सार्वजनिक सन्निकटन सिद्धांत''' (समान गैर-[[एफ़ाइन स्थिति|एफ़ाइन]] सक्रियण, विविध [[गहराई अध्ययन|डेप्थ]], परिपरिमित विस्तार). <math>\mathcal{X}</math> को <math>\mathbb{R}^d</math> के एक [[संकुचित समुच्चय|संकुचित उपसमुच्चय]] माना जाता है। <math>\sigma:\mathbb{R} \to \mathbb{R}</math> कोई ऐसा गैर-[[एफ़ाइन स्थिति|एफ़ाइन]] [[सतत फ़ंक्शन|सतत]] फलन है जो कम से कम एक बिंदु पर [[विभिन्नित फ़ंक्शन#विभिन्नता वर्ग|सतत विभिन्नता]] वाला है, उस बिंदु पर उसका विभिन्नता शून्य नहीं है। <math>\mathcal{N}{d,D:d+D+2}^\sigma</math> को <math>d</math> निविष्ट न्यूरॉन, <math>D</math> आउटपुट न्यूरॉन, और हर एक छुपे हुए न्यूरॉन के साथ <math>d + D + 2</math> न्यूरॉन होने वाले हर सामान्य छुपे हुए न्यूरॉन को सक्रियण <math>\sigma</math> और प्रत्येक आउटपुट न्यूरॉन को उसके सक्रियण के रूप में [[पहचानकारी फ़ंक्शन|पहचानकारी फलन]] रखकर पूर्ण फ़ीड-फ़ॉरवर्ड न्यूरल संजाल की जगह है, जिसमें निविष्ट श्रेणी <math>\phi</math> और आउटपुट श्रेणी <math>\rho</math> होती है। तो किसी भी <math>\varepsilon > 0</math> और किसी भी <math>f \in C(\mathcal{X}, \mathbb{R}^D)</math> के लिए, ऐसा <math>\hat{f} \in \mathcal{N}{d,D:d+D+2}^\sigma</math> मौजूद होता है जिसके लिए


: <math>
: <math>
Line 93: Line 93:
दूसरे शब्दों में, <math>\mathcal{N}</math> एकार्थिक संघटन की [[एकार्थिक गैर-संघटन|एकार्थिक गैर-संघटन]] की श्रेणी के आगामी में [[घने समूह|घने समूह]] में है <math>C(\mathcal{X}; \mathbb{R}^D)</math> के संदर्भ में, [[समरूप संघटन]] की श्रेणी के साथ।
दूसरे शब्दों में, <math>\mathcal{N}</math> एकार्थिक संघटन की [[एकार्थिक गैर-संघटन|एकार्थिक गैर-संघटन]] की श्रेणी के आगामी में [[घने समूह|घने समूह]] में है <math>C(\mathcal{X}; \mathbb{R}^D)</math> के संदर्भ में, [[समरूप संघटन]] की श्रेणी के साथ।


''मात्रात्मक सुधार:'' <math>f</math> को <math>\varepsilon</math> सटीकता के लिए आवश्यक परिमाण की श्रेणी और प्रत्येक श्रेणी की चौड़ाई प्राप्त होती है;<ref name="jmlr.org"/> और, परिणाम <math>\mathcal{X}</math> और <math>\mathbb{R}^D</math> को किसी भी नॉन-सकारात्मक [[रिमानियन मैनिफ़ोल्ड]] के साथ परिवर्तन पर भी सत्य है।
''मात्रात्मक सुधार:'' <math>f</math> को <math>\varepsilon</math> सटीकता के लिए आवश्यक परिमाण की श्रेणी और प्रत्येक श्रेणी की विस्तार प्राप्त होती है;<ref name="jmlr.org"/> और, परिणाम <math>\mathcal{X}</math> और <math>\mathbb{R}^D</math> को किसी भी नॉन-सकारात्मक [[रिमानियन मैनिफ़ोल्ड]] के साथ परिवर्तन पर भी सत्य है।
</blockquote>
</blockquote>


विविध गहराई प्रकरण के लिए कुछ आवश्यक उपबंध प्रस्तावित किए गए हैं, परंतु ज्ञात प्रस्तावित और आवश्यक उपबंधों के बीच अब भी एक अंतर है।<ref name="ZhouLu" /><ref name=hanin /><ref name=johnson>{{cite conference |last=Johnson |first=Jesse |conference=International Conference on Learning Representations |date=2019 |url=https://openreview.net/forum?id=ryGgSsAcFQ |title=Deep, Skinny Neural Networks are not Universal Approximators}}</ref>
विविध डेप्थ प्रकरण के लिए कुछ आवश्यक उपबंध प्रस्तावित किए गए हैं, परंतु ज्ञात प्रस्तावित और आवश्यक उपबंधों के बीच अब भी एक अंतर है।<ref name="ZhouLu" /><ref name=hanin /><ref name=johnson>{{cite conference |last=Johnson |first=Jesse |conference=International Conference on Learning Representations |date=2019 |url=https://openreview.net/forum?id=ryGgSsAcFQ |title=Deep, Skinny Neural Networks are not Universal Approximators}}</ref>


[[Category:CS1 maint]]
[[Category:CS1 maint]]
Line 108: Line 108:
[[Category:Sidebars with styles needing conversion]]
[[Category:Sidebars with styles needing conversion]]


== परिबद्ध गहराई और परिबद्ध चौड़ाई प्रकर्ण ==
== परिबद्ध डेप्थ और परिबद्ध विस्तार प्रकर्ण ==


मैयोरोव और पिंकस द्वारा किये गए एक सन्निकटन में पहली बार ऐसे परिणामों को प्राप्त किया गया जिसमे परिमित स्तरों के साथ साथ न्यूरल नेटवर्क के प्राकृतिक न्यूरॉनों की सीमा के सापेक्ष, न्यूरल नेटवर्क के अनुमान की क्षमता भी थी।<ref name=maiorov />उनके उल्लेखनीय परिणाम से पता चला कि ऐसे नेटवर्क सार्वभौमिक अनुमानक हो सकते हैं और इस गुण को प्राप्त करने के लिए दो छिपे हुए स्तर पर्याप्त हैं।
मैयोरोव और पिंकस द्वारा किये गए एक सन्निकटन में पहली बार ऐसे परिणामों को प्राप्त किया गया जिसमे परिमित स्तरों के साथ साथ न्यूरल नेटवर्क के प्राकृतिक न्यूरॉनों की सीमा के सापेक्ष, न्यूरल नेटवर्क के अनुमान की क्षमता भी थी।<ref name=maiorov />उनके उल्लेखनीय परिणाम से पता चला कि ऐसे नेटवर्क सार्वभौमिक अनुमानक हो सकते हैं और इस गुण को प्राप्त करने के लिए दो छिपे हुए स्तर पर्याप्त हैं।


<ब्लॉककोट>
<blockquote>
सार्वभौमिक सन्निकटन प्रमेय:<ref name="maiorov" />एक सक्रियण फलन मौजूद है <math>\sigma</math> जो विश्लेषणात्मक है, सख्ती से बढ़ रहा है और
सार्वभौमिक सन्निकटन प्रमेय:<ref name=maiorov /> ऐसा एक सक्रियण फलन <math>\sigma</math> होता है जो विश्लेषणात्मक, वृद्धि करने वाला, और सिग्मॉयडल होता है, और उसके निम्नलिखित गुणधर्म होतें है: किसी भी <math> f\in C[0,1]^{d}</math> और <math>
सिग्मोइडल और निम्नलिखित संपत्ति है: किसी के लिए <math> f\in C[0,1]^{d}</math> और <math>
\varepsilon >0</math> के लिए ऐसे संख्याओं <math>d_{i}, c_{ij}, \theta _{ij}, \gamma _{i}</math>, और सदिश <math> \mathbf{w}^{ij}\in \mathbb{R}^{d}</math> होते हैं, जिनके लिए निम्नलिखित गुणधर्म होते हैं:
\varepsilon >0</math> वहाँ स्थिरांक मौजूद हैं <math>d_{i}, c_{ij}, \theta _{ij}, \gamma _{i}</math>, और वैक्टर <math> \mathbf{w}^{ij}\in \mathbb{R}^{d}</math> जिसके लिए


<गणित प्रदर्शन='ब्लॉक'> \left\vert f(\mathbf{x})-\sum_{i=1}^{6d+3}d_{i}\sigma\left(
<math display='block'> \left\vert f(\mathbf{x})-\sum_{i=1}^{6d+3}d_{i}\sigma \left(
\sum_{j=1}^{3d}c_{ij}\sigma(\mathbf{w}^{ij}\cdot \mathbf{x-}\theta
\sum_{j=1}^{3d}c_{ij}\sigma (\mathbf{w}^{ij}\cdot \mathbf{x-}\theta
_{ij})-\गामा _{i}\दाएं) \दाएं\vert <\varepsilon </math>
_{ij})-\gamma _{i}\right) \right\vert <\varepsilon </math>


सभी के लिए
सभी <math> \mathbf{x}=(x_{1},...,x_{d})\in [0,1]^{d}</math> के लिए उपयुक्त प्रमेय सत्य है।
गणित> \mathbf{x}=(x_{1},...,x_{d})\in [0,1]^{d}</math>.
</blockquote>
</ब्लॉककोट>


यह अस्तित्व का परिणाम है. इसमें कहा गया है कि सीमित गहराई और सीमित चौड़ाई वाले नेटवर्क के लिए सार्वभौमिक सन्निकटन संपत्ति प्रदान करने वाले सक्रियण फलन मौजूद हैं। कुछ विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने संख्यात्मक पैरामीटर के आधार पर कुशलतापूर्वक ऐसे सक्रियण कार्यों का निर्माण किया। विकसित एल्गोरिदम किसी को वास्तविक अक्ष के किसी भी बिंदु पर सक्रियण कार्यों की तुरंत गणना करने की अनुमति देता है। एल्गोरिदम और संबंधित कंप्यूटर कोड के लिए देखें।<ref name=guliyev1 />सैद्धांतिक परिणाम निम्नानुसार तैयार किया जा सकता है।
यह एक अस्तित्व परिणाम है। इसमें कहा गया है कि परिमित डेप्थ और परिमित विस्तार वाले नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करने वाले सक्रियण फलन उपलब्ध हैं। कुछ विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने संख्यात्मक मापदंड के आधार पर कुशलतापूर्वक ऐसे सक्रियण फलनों का निर्माण किया। विकसित विधिकलन किसी को वास्तविक अक्ष के किसी भी बिंदु पर सक्रियण फलनों की क्षणिक गणना करने की अनुमति देता है।<ref name=guliyev1 /> सैद्धांतिक परिणाम निम्नानुसार तैयार किया जा सकता है।
<ब्लॉककोट>
सार्वभौमिक सन्निकटन प्रमेय:<ref name=guliyev1 /><ref name=guliyev2 />होने देना  <math> [a,b]</math> वास्तविक रेखा का एक परिमित खंड बनें, <math> s=b-a</math> और <math> \lambda</math> कोई भी धनात्मक संख्या हो. फिर कोई एल्गोरिदमिक रूप से एक गणना योग्य सिग्मोइडल सक्रियण फलन का निर्माण कर सकता है <math> \sigma \colon \mathbb{R} \to \mathbb{R}</math>, जो असीम रूप से भिन्न है, सख्ती से बढ़ रहा है <math> (-\infty, s) </math>, <math> \lambda</math> -सख्ती से बढ़ रहा है <math> [s,+\infty) </math>, और निम्नलिखित गुणों को संतुष्ट करता है:


1) किसी के लिए <math> f \in C[a,b] </math> और <math> \varepsilon > 0</math> वहाँ संख्याएँ मौजूद हैं <math> c_1,c_2,\theta_1</math> और <math> \theta_2</math> ऐसा कि सभी के लिए <math>x \in [a,b] </math>
<blockquote>
<गणित डिस्प्ले='ब्लॉक'> |f(x) - c_1 \sigma(x - \theta_1) - c_2 \sigma(x - \theta_2)| < \varepsilon</math>
'''सार्वभौमिक सन्निकटन प्रमेय:<ref name=guliyev1 /><ref name=guliyev2 />''' मान लीजिए <math> [a,b]</math> वास्तविक रेखा का एक परिमित खंड है, <math> s =b-a</math> और <math> \lambda</math> कोई भी धनात्मक संख्या हो। फिर कोई विधिकलनात्मक रूप से एक गणना योग्य सिग्मोइडल सक्रियण फलन का निर्माण कर सकता है <math> \sigma \colon \mathbb{R} \to \mathbb{R}</math>, जो असीम रूप से भिन्न है, <math> (-\infty, s) </math>, <math> \lambda</math> - <math> [s,+\infty) </math> पर निरंतर वर्धमान है, तथा निम्नलिखित गुणों को संतुष्ट करता है:


2) किसी भी सतत कार्य के लिए
1) किसी भी <math> f \in C[a,b] </math> और <math> \varepsilon > 0</math> के लिए, ऐसे संख्याएँ <math> c_1, c_2, \theta_1</math>, और <math> \theta_2</math> उपलब्ध होती हैं कि सभी <math>x \in [a,b] </math> के लिए निम्नलिखित समीकरण पर लागू होता है:
गणित>एफ</गणित>पर  गणित>डी</गणित>-आयामी बॉक्स <math>[a,b]^{d}</math> और <math>\varepsilon >0</math>, वहाँ स्थिरांक मौजूद हैं <math>e_p</math>, <math>c_{pq}</math>, <math>\theta_{pq}</math> और <math>\zeta_p</math> ऐसी कि असमानता
<गणित प्रदर्शन='ब्लॉक'> \बाएँ| F(\mathbf{x}) - \sum_{p=1}^{2d+2} e_p \sigma \left( \sum_{q=1}^{d} c_{pq} \sigma(\mathbf{w }^{q} \cdot \mathbf{x} - \theta_{pq}) - \zeta_p \right) \right| < \varepsilon</math>
सभी के लिए धारण करता है
गणित>\mathbf{x} = (x_1, \ldots, x_d) \in [a, b]^{d}</math>. यहाँ वजन <math>\mathbf{w}^{q}</math>, <math>q = 1, \ldots, d</math>, निम्नानुसार तय किए गए हैं:
<गणित प्रदर्शन='ब्लॉक'> \mathbf{w}^{1} = (1, 0, \ldots, 0), \quad \mathbf{w}^{2} = (0, 1, \ldots, 0 ), \quad \ldots, \quad \mathbf{w}^{d} = (0, 0, \ldots, 1). </गणित>
इसके अलावा, सभी गुणांक
गणित>e_p</math>, एक को छोड़कर, बराबर हैं।
</ब्लॉककोट>


यहाँ "<math> \sigma \colon \mathbb{R} \to \mathbb{R}</math> है <math>\lambda</math>-कुछ सेट पर सख्ती से बढ़ोतरी हो रही है <math>X</math>” इसका मतलब है कि सख्ती से बढ़ता हुआ कार्य मौजूद है <math>u \colon X \to \mathbb{R}</math> ऐसा है कि <math>|\sigma(x) - u(x)| \le \lambda</math> सभी के लिए <math>x \in X</math>. जाहिर है, ए <math>\lambda</math>-बढ़ता हुआ फलन सामान्य बढ़ते हुए फलन की तरह व्यवहार करता है <math>\lambda</math> छोटा हो जाता है.
<math display='block'> |f(x) - c_1 \sigma(x - \theta_1) - c_2 \sigma(x - \theta_2)| < \varepsilon</math>
गहराई-चौड़ाई शब्दावली में, उपरोक्त प्रमेय कहता है कि कुछ सक्रियण कार्यों के लिए गहराई-<math>2</math> चौड़ाई-<math>2</math> नेटवर्क अविभाज्य कार्यों और गहराई के लिए सार्वभौमिक सन्निकटन हैं-<math>3</math> चौड़ाई-<math> (2d+2) </math> नेटवर्क सार्वभौमिक सन्निकटन हैं <math>d</math>-परिवर्तनीय कार्य (<math>d>1</math>).
 
2) <math>d</math>-आयामी संख्या पर किसी भी सतत फलन <math>F</math> के लिए <math>[a,b]^{d}</math> और <math>\varepsilon > 0</math>, <math>e_p</math>, <math>c_{pq}</math>, <math>\theta_{pq}</math> और <math>\zeta_p</math> स्थिरांक उपलब्ध हैं।
<math display='block'>  \left| F(\mathbf{x}) - \sum_{p=1}^{2d+2} e_p \sigma \left( \sum_{q=1}^{d} c_{pq} \sigma(\mathbf{w}^{q} \cdot \mathbf{x} - \theta_{pq}) - \zeta_p \right) \right| < \varepsilon</math>
सभी <math>\mathbf{x} = (x_1, \ldots, x_d) \in [a, b]^{d}</math> के लिए धारण करता है। यहां भार <math>\mathbf{w}^{q}</math>, <math>q = 1, \ldots, d</math>, इस प्रकार तय किए गए हैं:
<math display='block'>  \mathbf{w}^{1} = (1, 0, \ldots, 0), \quad \mathbf{w}^{2} = (0, 1, \ldots, 0), \quad \ldots, \quad \mathbf{w}^{d} = (0, 0, \ldots, 1). </math>
इसके अतिरिक्त, एक को छोड़कर सभी गुणांक <math>e_p</math> समान हैं।
</blockquote>
 
"''<math> \sigma \colon \mathbb{R} \to \mathbb{R}</math> is <math>\lambda</math>- किसी समुच्चय  <math>X</math>पर निरंतर वर्धमान है”'' का तात्पर्य है कि किसी समुच्चय <math>X</math> पर ऐसा कोई वृद्धि करने वाला सक्रियण फलन <math>u \colon X \to \mathbb{R}</math> है जिसके लिए सभी <math>x \in X</math> के लिए <math>|\sigma(x) - u(x)| \le \lambda</math> होता है। स्पष्ट है कि एक <math>\lambda</math>-वृद्धि करने वाला सक्रियण फलन छोटे होते हुए <math>\lambda</math> के साथ एक सामान्य रूप से वृद्धि फलन की तरह व्यवहार करता है।
 
"''डेप्थ-विस्तार'' शब्दों के संदर्भ में, उपर्युक्त सिद्धांत कहता है कि कुछ सक्रियण फलनों के लिए डेप्थ-<math>2</math> विस्तार-<math>2</math> नेटवर्क एक वारिमाणिक फलन के लिए सार्वभौमिक सन्निकटक होते हैं, और डेप्थ-<math>3</math> विस्तार-<math>(2d+2)</math> नेटवर्क <math>d</math>-परमीय फलनों के लिए (<math>d>1</math>) सार्वभौमिक सन्निकटक होते हैं।
 
[[Category:CS1 maint]]
[[Category:Collapse templates]]
[[Category:Created On 10/08/2023]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Sidebars with styles needing conversion]]


== ग्राफ़ इनपुट ==
== आरेख निविष्ट ==


ग्राफ़ पर (या ग्राफ़ समरूपता पर) उपयोगी सार्वभौमिक फलन सन्निकटन प्राप्त करना एक लंबे समय से चली आ रही समस्या रही है। लोकप्रिय ग्राफ कन्वोल्यूशनल न्यूरल नेटवर्क (जीसीएन या जीएनएन) को वेइस्फिलर-लेमन [[ ग्राफ समरूपता ]] परीक्षण के रूप में भेदभावपूर्ण बनाया जा सकता है।<ref name=PowerGNNs>{{Cite conference|last1=Xu|first1=Keyulu|last2=Hu|first2=Weihua|last3=Leskovec|first3=Jure|last4=Jegelka|first4=Stefanie|date=2019|title=How Powerful are Graph Neural Networks?|url=https://openreview.net/forum?id=ryGs6iA5Km|journal=International Conference on Learning Representations}}</ref> 2020 में,<ref name=UniversalGraphs>{{Cite conference|last1=Brüel-Gabrielsson|first1=Rickard|date=2020|title=ग्राफ़ पर सार्वभौमिक फ़ंक्शन सन्निकटन|url=https://proceedings.neurips.cc//paper/2020/hash/e4acb4c86de9d2d9a41364f93951028d-Abstract.html|publisher=Curran Associates|journal=Advances in Neural Information Processing Systems |volume=33}}</ref> एक सार्वभौमिक सन्निकटन प्रमेय परिणाम ब्रुएल-गेब्रियलसन द्वारा स्थापित किया गया था, जिसमें प्रदर्शित किया गया था कि कुछ विशेषण गुणों के साथ ग्राफ़ प्रतिनिधित्व, सीमित ग्राफ़ पर सार्वभौमिक फलन सन्निकटन और असीमित ग्राफ़ पर प्रतिबंधित सार्वभौमिक फलन सन्निकटन के लिए पर्याप्त है, साथ में <math>O(</math>#किनारे<math>\times</math>#नोड्स<math>)</math>-रनटाइम विधि जो बेंचमार्क के संग्रह पर अत्याधुनिक प्रदर्शन करती है।
आरेख पर (या आरेख समरूपता पर) उपयोगी सार्वभौमिक फलन सन्निकटन प्राप्त करना एक लंबे समय से चली आ रही समस्या रही है। लोकप्रिय आरेख संवलन न्यूरल नेटवर्क (जीसीएन या जीएनएन) को वेइस्फिलर-लेमन [[ ग्राफ समरूपता |आरेख समरूपता]] परीक्षण के रूप में विभेदक बनाया जा सकता है।<ref name=PowerGNNs>{{Cite conference|last1=Xu|first1=Keyulu|last2=Hu|first2=Weihua|last3=Leskovec|first3=Jure|last4=Jegelka|first4=Stefanie|date=2019|title=How Powerful are Graph Neural Networks?|url=https://openreview.net/forum?id=ryGs6iA5Km|journal=International Conference on Learning Representations}}</ref> 2020 में,<ref name=UniversalGraphs>{{Cite conference|last1=Brüel-Gabrielsson|first1=Rickard|date=2020|title=ग्राफ़ पर सार्वभौमिक फ़ंक्शन सन्निकटन|url=https://proceedings.neurips.cc//paper/2020/hash/e4acb4c86de9d2d9a41364f93951028d-Abstract.html|publisher=Curran Associates|journal=Advances in Neural Information Processing Systems |volume=33}}</ref> एक सार्वभौमिक सन्निकटन प्रमेय परिणाम ब्रुएल-गेब्रियलसन द्वारा स्थापित किया गया था, जिसमें प्रदर्शित किया गया था कि कुछ विशेषण गुणों के साथ आरेख प्रतिनिधित्व, परिमित आरेख पर सार्वभौमिक फलन सन्निकटन और अपरिमित आरेख पर प्रतिबंधित सार्वभौमिक फलन सन्निकटन के लिए पर्याप्त है, साथ में <math>O(</math>#भुजा<math>\times</math>#शीर्ष<math>)</math>-रनटाइम विधि जो मापदंड पर अत्याधुनिक प्रदर्शन करती है।


== यह भी देखें ==
== यह भी देखें ==
Line 164: Line 172:
[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 10/08/2023]]
[[Category:Created On 10/08/2023]]
[[Category:Vigyan Ready]]

Latest revision as of 23:06, 10 October 2023

गणित के कृत्रिम तंत्रिका(न्यूरल) नेटवर्क सिद्धांत में, सार्वभौमिक सन्निकटन प्रमेय वे परिणाम हैं[1][2] जो सूचित करते हैं कि तंत्रिका नेटवर्क सैद्धान्तिक रूप से क्या सीख सकती हैं अर्थात ये प्रमेय किसी दिए गए फलन समष्टि के भीतर एक विधिकलनात्मक रूप से उत्पन्न फलन वर्ग के घन समुच्चय को स्थापित करते हैं। सामान्यतः, ये परिणाम दो यूक्लिडियन समष्टियों के बीच सतत फलनों के स्थान पर फीडफॉरवर्ड न्यूरल नेटवर्क की सन्निकटन क्षमताओं तथा सन्निकटन सघन अभिसरण सांस्थिति से संबंधित हैं।

यद्यपि, गैर-यूक्लिडियन समष्टियों के बीच भी विभिन्न प्रकार के परिणाम हैं[3] और अन्य सामान्यतः उपयोग किए जाने वाले संरचना और, अधिक सामान्यतः, विधिकलन द्वारा उत्पन्न फलनों के समुच्चय, जैसे संवलन तंत्रिका नेटवर्क (सीएनएन) संरचना,[4][5] त्रिज्यीय आधार फलन,[6] या विशिष्ट गुणों वाले तंत्रिका नेटवर्क आदि पर आधारित हैं।[7][8] अधिकांश सार्वभौमिक सन्निकटन प्रमेयों को दो वर्गों में विभाजित किया जा सकता है। पहला कृत्रिम तंत्रिकाओं की एक यादृच्छिक संख्या के साथ तंत्रिका नेटवर्क की अनुमानित क्षमताओं को निर्धारित करता है और दूसरा छिपे हुए स्तरों की एक यादृच्छिक संख्या के साथ विषय पर ध्यान केंद्रित करता है, प्रत्येक वर्ग में परिमित संख्या में कृत्रिम तंत्रिकाएँ होती है। इन दो वर्गों के अतिरिक्त, तंत्रिका नेटवर्क के लिए छिपी हुई स्तरों की परिमित संख्या और प्रत्येक परत में परिमित संख्या में तंत्रिकाओं के साथ सार्वभौमिक सन्निकटन प्रमेय भी सम्मिलित हैं।

सार्वभौमिक सन्निकटन प्रमेय का अर्थ है कि उचित भार दिए जाने पर तंत्रिका नेटवर्क विभिन्न प्रकार के रोचक फलनों का प्रतिनिधित्व कर सकती हैं। दूसरी ओर, वे सामान्यतः भार के लिए कोई निर्माण प्रदान नहीं करते हैं, बल्कि केवल यह बताते हैं कि ऐसा निर्माण संभव है।

इतिहास

सिग्मॉइड फलन, सक्रियण फलनों के लिए यादृच्छिक विस्तार के पहले संस्करणों में से एक जॉर्ज साइबेंको द्वारा 1989 में सिद्ध किया गया था।[9] कूरट हॉर्निक [डे], मैक्सवेल स्टिंचकॉम्ब और हेल्बर्ट व्हाइट ने 1989 में प्रदर्शित किया कि कम से कम एक छिपी हुई परत वाले बहुपरत फ़ीड-फ़ॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटन हैं।[1]हॉर्निक ने 1991 में भी प्रदर्शित किया था[10] की यह सक्रियण फलन का विशिष्ट विकल्प नहीं है, बल्कि बहुपरत फ़ीड-फ़ॉरवर्ड संरचना ही है जो तंत्रिका नेटवर्क को सार्वभौमिक सन्निकटनकर्ता होने की क्षमता प्रदान करती है। 1993 में मोशे लेश्नो एट अल[11] और बाद में 1999 में एलन पिंकस[12] द्वारा प्रदर्शित किया गया कि सार्वभौमिक सन्निकटन गुण एक गैर-बहुपद सक्रियण फलन के बराबर है। 2022 में, शेन ज़ुओवेई, हाइझाओ यांग और शिजुन झांग[13] गहरे और विस्तृत रीलू (ReLU) तंत्रिका नेटवर्क द्वारा लक्ष्य फलन का अनुमान लगाने के लिए आवश्यक डेप्थ और विस्तार पर सटीक मात्रात्मक जानकारी प्राप्त की गई।

यादृच्छिक डेप्थ के परिप्रेक्ष्य का अध्ययन 2003 में गुस्ताफ ग्रिपेनबर्ग जैसे कई लेखकों द्वारा भी किया गया था,[14] दिमित्री यारोत्स्की,[15] 2017 में झोउ लू एट अल,[16] 2018 में बोरिस हैनिन और मार्क सेल्के[17] जिन्होंने रीलू सक्रियण फलन के साथ तंत्रिका नेटवर्क पर ध्यान केंद्रित किया। 2020 में, पैट्रिक किडगर और टेरी लियोन्स[18] उन परिणामों को सामान्य सक्रियण फलनों के साथ तंत्रिका नेटवर्क तक विस्तारित किया गया, जैसे टैन, जीएलयू, या स्विश, और 2022 में, उनके परिणाम को लियोनी पापोन और अनास्तासिस क्रैटसियोस द्वारा मात्रात्मक बनाया गया था[19] जिन्होंने लक्ष्य फलन और सक्रियण फलन की नियमितता के आधार पर स्पष्ट डेप्थ का अनुमान लगाया।

सार्वभौमिकता के लिए न्यूनतम संभावित विस्तार के प्रश्न का पहली बार 2021 में अध्ययन किया गया था, पार्क एट अल ने एलपी स्पेस के सार्वभौमिक सन्निकटन के लिए आवश्यक न्यूनतम विस्तार Lp प्राप्त की जो सक्रियण फलनों के रूप में दिष्टकारी तंत्रिका नेटवर्क के साथ फीडफॉरवर्ड न्यूरल नेटवर्क का उपयोग करके कार्य करता है।[20] इसी तरह के परिणाम जो सीधे अवशिष्ट तंत्रिका नेटवर्क पर लागू किए जा सकते हैं, उसी वर्ष नियंत्रण सिद्धांत तर्कों का उपयोग करके पाउलो तबुआडा और बहमन घरेसिफ़र्ड द्वारा भी प्राप्त किए गए थे।[21][22] 2023 में, सी.ए.आई [23] सार्वभौमिक सन्निकटन के लिए बाध्य इष्टतम न्यूनतम विस्तार प्राप्त की गई।

परिबद्ध डेप्थ तथा परिबद्ध विस्तार के परिप्रेक्ष्य का अध्ययन पहली बार 1999 में मायोरोव और पिंकस द्वारा किया गया था।[24] उन्होंने प्रदर्शित किया कि ऐसा एक विश्लेषणात्मक सिग्मोइडल सक्रियण फलन उपलब्ध है जिसके द्वारा दो छिपी हुई स्तर के कृत्रिम तंत्रिका नेटवर्क्स जिनमें छिपे हुए स्तरों में परिमित संख्या की इकाइयाँ होती हैं, वे एक सार्वभौमिक अद्यापक होते हैं। विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने एक स्मूद सिग्मॉइडल सक्रियण फलन का निर्माण किया, जो छिपी हुई स्तरों में कम इकाइयों के साथ दो छिपी हुई परत फीडफॉरवर्ड न्यूरल नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करता है।[25] यह 2018 के लेख में रचनात्मक रूप से सिद्ध हुआ था[26] परिमित विस्तार वाले एकल छिपे हुए परत नेटवर्क अभी भी अविभाज्य फलनों के लिए सार्वभौमिक सन्निकटन हैं, परंतु यह गुण अब बहुपरिवर्तनीय फलनों के लिए सत्य नहीं है।

प्रमेय के कई विस्तार उपलब्ध हैं, जैसे असंतत सक्रियण फलन,[11] अविस्तृत क्षेत्र,[18]प्रमाणित नेटवर्क,[27] यादृच्छिक तंत्रिका नेटवर्क,[28] और वैकल्पिक नेटवर्क संरचना तथा सांस्थिति आदि।[18][29]


यादृच्छिक-विस्तार प्रकर्ण

1980s-1990s में कई पेपर्स, जैसे कि जॉर्ज साइबेंको और कुर्त हॉरनिक [de] आदि, ने कुछ ऐसे सार्वभौमिक सन्निकटन प्रमेय स्थापित किए जो किसी भी चौड़ाई और सीमित गहराई के लिए सत्य थे।[30][9][31][10]समीक्षा के लिए [32][33][12] को देखे। निम्नलिखित को सबसे अधिक बार उद्धृत किया गया है:

सार्वभौमिक सन्निकटन प्रमेय — यदि को एक यूक्लिडीयन समष्टि से यूक्लिडीयन समष्टि के लिए एक उपसमूह के रूप में प्रकट किया जाए, तो का एक उपसमूह होता है। को C(R, R) में प्रकट करता है। ध्यान दें कि होता है, इसलिए का अर्थ के प्रत्येक घटक पर का लागू किया जाता है।

पुनः, बहुपद नहीं होता है यदि और केवल यदि प्रत्येक , , संकुशल , के लिए , , , उपलब्ध होते हैं जैसे कि

जहां होता है।

इस तरह के एक पहली परत के लिए समान निर्माण का उपयोग करके और बाद की स्तरों के साथ इकाई फलन का अनुमान लगाकर अधिक डेप्थ के नेटवर्क द्वारा भी अनुमान लगाया जा सकता है।

प्रमाण आरेख

यह उस परिप्रेक्ष्य को सिद्ध करने के लिए पर्याप्त है जहां , क्योंकि में समान अभिसरण प्रत्येक निर्देशांक में समान अभिसरण है।

मान लीजिए के साथ निर्मित सभी एक-छिपे हुए परत वाले तंत्रिका नेटवर्क का समुच्चय है। मान लीजिए कि सघन समर्थन के साथ सभी का समुच्चय है।

यदि फलन डिग्री का एक बहुपद है, तो डिग्री के सभी बहुपदों के संवृत्त उप-समष्टि में समाहित है, इसलिए इसका इसमें संवरक भी सम्मिलित है, जो का पूरा नहीं है। अन्यथा, हम प्रदर्शित करते हैं कि का समापन का है। मान लीजिए कि हम रैंप फलन का यादृच्छिक विधि से अच्छा अनुमान लगा सकते हैं फिर इसे यादृच्छिक विधि से सघन रूप से समर्थित सतत फलन को यादृच्छिक विधि से परिशुद्धता के निर्माण के लिए जोड़ा जा सकता है। यहाँ रैंप फलन का अनुमान लगाना शेष है।

मशीन लर्निंग में प्रयुक्त किसी भी सामान्य सक्रियण समीकरण का उपयोग स्पष्ट रूप से रैंप फलन को अप्रॉक्सिमेट करने के लिए किया जा सकता है, या पहले रिलू (ReLU) को सन्निकटित करने के उपरांत रैंप फलन को सन्निकटित किया जा सकता है।

यदि "स्क्वैशिंग" होता है, अर्थात इसकी सीमाएँ हैं, तो पहले आप इसके x-धुरी को ऐसे ढंग से एकत्र कर सकते हैं कि इसका आरेख एक "स्टेप-फलन" की तरह दिखता है जिसमें दो तेज "ओवरशूट्स" होते हैं, फिर इनमें से कुछ को क्रमिक रूप से जोड़कर एक "स्टेप" का सन्निकटन बना सकते हैं। और इस स्टेप के अधिक स्टेप्स के साथ, ओवरशूट्स को स्मूथ कर सकते हैं और हम रैंप फलन का अत्यधिक सुदृढ़ सन्निकटन प्राप्त कर सकते हैं।

जब एक सामान्य गैर-बहुपद फलन होता है, तो यह विषय कठिन होता है, और पाठक को जिस पुस्तक का संदर्भ दिया गया है, वहां जाने के लिए संकेत दिया गया है। ("[12]")

छिपी हुई स्तरों के निर्गत को एक साथ गुणा करने की अनुमति देकर बहुपद के साथ समस्या को दूर किया जा सकता है (पीआई-सिग्मा नेटवर्क), जिससे सामान्यीकरण प्राप्त होता है:[31]

पाई-सिग्मा नेटवर्क के लिए सार्वभौमिक सन्निकटन प्रमेय —  किसी भी गैर-स्थिर सक्रियण फलन के सापेक्ष, एक-छिपी-परत पाई-सिग्मा नेटवर्क एक सार्वभौमिक सन्निकटन है।

यादृच्छिक-डेप्थ प्रकर्ण

प्रमेय के 'दोहरे' संस्करण परिमित विस्तार और यादृच्छिक डेप्थ के नेटवर्क पर विचार करते हैं। झोउ लू एट अल द्वारा यादृच्छिक डेप्थ के प्रकर्ण के लिए सार्वभौमिक सन्निकटन प्रमेय का एक प्रकार सिद्ध किया गया था। 2017 में[16] उन्होंने प्रदर्शित किया कि रिलू सक्रियण फलनों के साथ विस्तार n+4 के नेटवर्क L1 दूरी के संबंध में n-आयामी निविष्ट समष्टि पर किसी भी लेब्सग्यू एकीकरण का अनुमान लगाया जा सकता है। यह भी प्रदर्शित किया गया कि यदि विस्तार n से कम या उसके बराबर थी, तो किसी भी लेबेस्ग एकीकरण फलन का अनुमान लगाने की यह सामान्य अभिव्यंजक क्षमता लुप्त हो गई थी। उसी समाचार पत्र में[16]यह प्रदर्शित किया गया कि विस्तार n+1 वाले रिलू नेटवर्क n-आयामी निविष्ट चर के किसी भी सतत फलन फलन को अनुमानित करने के लिए पर्याप्त थे।[34] निम्नलिखित परिशोधन, इष्टतम न्यूनतम विस्तार निर्दिष्ट करता है जिसके लिए ऐसा अनुमान संभव है।[35]

सार्वजनिक सन्निकटन सिद्धांत (L1 दूरी, रेलू सक्रियण, विविध डेप्थ, न्यूनतम विस्तार). किसी भी बोक्नर–लेबेग p-अंशी फलन और किसी भी के लिए, एक पूर्ण जड़न रेलू संजाल का एक परिमित विस्तार के साथ उपलब्ध है, जिसमें निम्नलिखित प्रमेय लागू होता है

.

इसके अतिरिक्त एक ऐसा फलन और कुछ उपलब्ध है, जिसके लिए उपर्युक्त सन्निकटन सीमा को संतुष्ट करने वाली किसी भी पूर्ण जड़न रेलू संजाल की विस्तार से कम नहीं होती है।

टिप्पणी: यदि सक्रियण को लीकी-रेएलयू द्वारा प्रतिस्थापित किया जाता है, और निविष्ट एक सघन क्षेत्र में प्रतिबंधित है, तो सटीक न्यूनतम विस्तार [23] है।

मात्रात्मक सुधार: उस मामले में, जब और होता है और रीलू सक्रियण फलन होता है, तो एक रीलू संजाल के लिए त्रुटि प्राप्त करने के लिए आवश्यक डेप्थ और विस्तार की निश्चित डेप्थ और विस्तार भी जानी जाती है।[36] और यदि उसले मल्ल फलन होता है, तो आवश्यक स्तरों की संख्या और उनकी विस्तार आधारी हो सकती है।[37] यदि मल्ल नहीं है, तो यदि अतिरिक्त "संरचना" स्वीकार करता है, तो आयाम का बन्ध तोड़ा जा सकता है।[38][39]

साथ ही, [18] के मुख्य परिणाम से निम्नलिखित सीमांत विस्तार वाले संजालों के लिए निम्नलिखित सार्वजनिक सन्निकटन सिद्धांत देता है (इसके लिए पहले प्रकार के इस परिणाम के लिए देखें[14])।

सार्वजनिक सन्निकटन सिद्धांत (समान गैर-एफ़ाइन सक्रियण, विविध डेप्थ, परिपरिमित विस्तार). को के एक संकुचित उपसमुच्चय माना जाता है। कोई ऐसा गैर-एफ़ाइन सतत फलन है जो कम से कम एक बिंदु पर सतत विभिन्नता वाला है, उस बिंदु पर उसका विभिन्नता शून्य नहीं है। को निविष्ट न्यूरॉन, आउटपुट न्यूरॉन, और हर एक छुपे हुए न्यूरॉन के साथ न्यूरॉन होने वाले हर सामान्य छुपे हुए न्यूरॉन को सक्रियण और प्रत्येक आउटपुट न्यूरॉन को उसके सक्रियण के रूप में पहचानकारी फलन रखकर पूर्ण फ़ीड-फ़ॉरवर्ड न्यूरल संजाल की जगह है, जिसमें निविष्ट श्रेणी और आउटपुट श्रेणी होती है। तो किसी भी और किसी भी के लिए, ऐसा मौजूद होता है जिसके लिए

दूसरे शब्दों में, एकार्थिक संघटन की एकार्थिक गैर-संघटन की श्रेणी के आगामी में घने समूह में है के संदर्भ में, समरूप संघटन की श्रेणी के साथ।

मात्रात्मक सुधार: को सटीकता के लिए आवश्यक परिमाण की श्रेणी और प्रत्येक श्रेणी की विस्तार प्राप्त होती है;[19] और, परिणाम और को किसी भी नॉन-सकारात्मक रिमानियन मैनिफ़ोल्ड के साथ परिवर्तन पर भी सत्य है।

विविध डेप्थ प्रकरण के लिए कुछ आवश्यक उपबंध प्रस्तावित किए गए हैं, परंतु ज्ञात प्रस्तावित और आवश्यक उपबंधों के बीच अब भी एक अंतर है।[16][17][40]

परिबद्ध डेप्थ और परिबद्ध विस्तार प्रकर्ण

मैयोरोव और पिंकस द्वारा किये गए एक सन्निकटन में पहली बार ऐसे परिणामों को प्राप्त किया गया जिसमे परिमित स्तरों के साथ साथ न्यूरल नेटवर्क के प्राकृतिक न्यूरॉनों की सीमा के सापेक्ष, न्यूरल नेटवर्क के अनुमान की क्षमता भी थी।[24]उनके उल्लेखनीय परिणाम से पता चला कि ऐसे नेटवर्क सार्वभौमिक अनुमानक हो सकते हैं और इस गुण को प्राप्त करने के लिए दो छिपे हुए स्तर पर्याप्त हैं।

सार्वभौमिक सन्निकटन प्रमेय:[24] ऐसा एक सक्रियण फलन होता है जो विश्लेषणात्मक, वृद्धि करने वाला, और सिग्मॉयडल होता है, और उसके निम्नलिखित गुणधर्म होतें है: किसी भी और के लिए ऐसे संख्याओं , और सदिश होते हैं, जिनके लिए निम्नलिखित गुणधर्म होते हैं:

सभी के लिए उपयुक्त प्रमेय सत्य है।

यह एक अस्तित्व परिणाम है। इसमें कहा गया है कि परिमित डेप्थ और परिमित विस्तार वाले नेटवर्क के लिए सार्वभौमिक सन्निकटन गुण प्रदान करने वाले सक्रियण फलन उपलब्ध हैं। कुछ विधिकलन और कंप्यूटर प्रोग्रामिंग तकनीकों का उपयोग करते हुए, गुलियेव और इस्माइलोव ने संख्यात्मक मापदंड के आधार पर कुशलतापूर्वक ऐसे सक्रियण फलनों का निर्माण किया। विकसित विधिकलन किसी को वास्तविक अक्ष के किसी भी बिंदु पर सक्रियण फलनों की क्षणिक गणना करने की अनुमति देता है।[25] सैद्धांतिक परिणाम निम्नानुसार तैयार किया जा सकता है।

सार्वभौमिक सन्निकटन प्रमेय:[25][26] मान लीजिए वास्तविक रेखा का एक परिमित खंड है, और कोई भी धनात्मक संख्या हो। फिर कोई विधिकलनात्मक रूप से एक गणना योग्य सिग्मोइडल सक्रियण फलन का निर्माण कर सकता है , जो असीम रूप से भिन्न है, , - पर निरंतर वर्धमान है, तथा निम्नलिखित गुणों को संतुष्ट करता है:

1) किसी भी और के लिए, ऐसे संख्याएँ , और उपलब्ध होती हैं कि सभी के लिए निम्नलिखित समीकरण पर लागू होता है:

2) -आयामी संख्या पर किसी भी सतत फलन के लिए और , , , और स्थिरांक उपलब्ध हैं।

सभी के लिए धारण करता है। यहां भार , , इस प्रकार तय किए गए हैं:
इसके अतिरिक्त, एक को छोड़कर सभी गुणांक समान हैं।

" is - किसी समुच्चय पर निरंतर वर्धमान है” का तात्पर्य है कि किसी समुच्चय पर ऐसा कोई वृद्धि करने वाला सक्रियण फलन है जिसके लिए सभी के लिए होता है। स्पष्ट है कि एक -वृद्धि करने वाला सक्रियण फलन छोटे होते हुए के साथ एक सामान्य रूप से वृद्धि फलन की तरह व्यवहार करता है।

"डेप्थ-विस्तार शब्दों के संदर्भ में, उपर्युक्त सिद्धांत कहता है कि कुछ सक्रियण फलनों के लिए डेप्थ- विस्तार- नेटवर्क एक वारिमाणिक फलन के लिए सार्वभौमिक सन्निकटक होते हैं, और डेप्थ- विस्तार- नेटवर्क -परमीय फलनों के लिए () सार्वभौमिक सन्निकटक होते हैं।

आरेख निविष्ट

आरेख पर (या आरेख समरूपता पर) उपयोगी सार्वभौमिक फलन सन्निकटन प्राप्त करना एक लंबे समय से चली आ रही समस्या रही है। लोकप्रिय आरेख संवलन न्यूरल नेटवर्क (जीसीएन या जीएनएन) को वेइस्फिलर-लेमन आरेख समरूपता परीक्षण के रूप में विभेदक बनाया जा सकता है।[41] 2020 में,[42] एक सार्वभौमिक सन्निकटन प्रमेय परिणाम ब्रुएल-गेब्रियलसन द्वारा स्थापित किया गया था, जिसमें प्रदर्शित किया गया था कि कुछ विशेषण गुणों के साथ आरेख प्रतिनिधित्व, परिमित आरेख पर सार्वभौमिक फलन सन्निकटन और अपरिमित आरेख पर प्रतिबंधित सार्वभौमिक फलन सन्निकटन के लिए पर्याप्त है, साथ में #भुजा#शीर्ष-रनटाइम विधि जो मापदंड पर अत्याधुनिक प्रदर्शन करती है।

यह भी देखें

  • कोलमोगोरोव-अर्नोल्ड प्रतिनिधित्व प्रमेय
  • प्रतिनिधि प्रमेय
  • कोई निःशुल्क लंच प्रमेय नहीं
  • स्टोन-वीयरस्ट्रैस प्रमेय
  • फोरियर श्रेणी

संदर्भ

  1. 1.0 1.1 Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (1989). मल्टीलेयर फीडफॉरवर्ड नेटवर्क यूनिवर्सल एप्रोक्सिमेटर्स हैं (PDF). Neural Networks. Vol. 2. Pergamon Press. pp. 359–366.
  2. Balázs Csanád Csáji (2001) Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  3. Kratsios, Anastasis; Bilokopytov, Eugene (2020). गैर-यूक्लिडियन सार्वभौमिक सन्निकटन (PDF). Advances in Neural Information Processing Systems. Vol. 33. Curran Associates.
  4. Zhou, Ding-Xuan (2020). "गहरे दृढ़ तंत्रिका नेटवर्क की सार्वभौमिकता". Applied and Computational Harmonic Analysis. 48 (2): 787–794. arXiv:1805.10769. doi:10.1016/j.acha.2019.06.004. S2CID 44113176.
  5. Heinecke, Andreas; Ho, Jinn; Hwang, Wen-Liang (2020). "विरल रूप से जुड़े ReLU कन्वोल्यूशन नेट के माध्यम से शोधन और सार्वभौमिक अनुमोदन". IEEE Signal Processing Letters. 27: 1175–1179. Bibcode:2020ISPL...27.1175H. doi:10.1109/LSP.2020.3005051. S2CID 220669183.
  6. Park, J.; Sandberg, I. W. (1991). "रेडियल-बेस-फ़ंक्शन नेटवर्क का उपयोग करके सार्वभौमिक सन्निकटन". Neural Computation. 3 (2): 246–257. doi:10.1162/neco.1991.3.2.246. PMID 31167308. S2CID 34868087.
  7. Yarotsky, Dmitry (2021). "तंत्रिका नेटवर्क द्वारा अपरिवर्तनीय मानचित्रों का सार्वभौमिक अनुमान". Constructive Approximation. 55: 407–474. arXiv:1804.10306. doi:10.1007/s00365-021-09546-1. S2CID 13745401.
  8. Zakwan, Muhammad; d’Angelo, Massimiliano; Ferrari-Trecate, Giancarlo (2023). "हैमिल्टनियन डीप न्यूरल नेटवर्क्स की सार्वभौमिक सन्निकटन संपत्ति". IEEE Control Systems Letters. 7: 2689–2694. arXiv:2303.12147. doi:10.1109/LCSYS.2023.3288350. ISSN 2475-1456. S2CID 257663609.
  9. 9.0 9.1 Cybenko, G. (1989). "सिग्मोइडल फ़ंक्शन के सुपरपोज़िशन द्वारा सन्निकटन". Mathematics of Control, Signals, and Systems. 2 (4): 303–314. CiteSeerX 10.1.1.441.7873. doi:10.1007/BF02551274. S2CID 3958369.
  10. 10.0 10.1 Hornik, Kurt (1991). "मल्टीलेयर फीडफॉरवर्ड नेटवर्क की अनुमानित क्षमताएं". Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-T. S2CID 7343126.
  11. 11.0 11.1 Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (January 1993). "गैर-बहुपद सक्रियण फ़ंक्शन वाले बहुपरत फ़ीडफ़ॉरवर्ड नेटवर्क किसी भी फ़ंक्शन का अनुमान लगा सकते हैं". Neural Networks. 6 (6): 861–867. doi:10.1016/S0893-6080(05)80131-5. S2CID 206089312.
  12. 12.0 12.1 12.2 Pinkus, Allan (January 1999). "तंत्रिका नेटवर्क में एमएलपी मॉडल का सन्निकटन सिद्धांत". Acta Numerica. 8: 143–195. Bibcode:1999AcNum...8..143P. doi:10.1017/S0962492900002919. S2CID 16800260.
  13. Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (January 2022). "चौड़ाई और गहराई के संदर्भ में ReLU नेटवर्क की इष्टतम सन्निकटन दर". Journal de Mathématiques Pures et Appliquées (in English). 157: 101–135. doi:10.1016/j.matpur.2021.07.009. S2CID 232075797.
  14. 14.0 14.1 Gripenberg, Gustaf (June 2003). "प्रत्येक स्तर पर नोड्स की एक सीमित संख्या के साथ तंत्रिका नेटवर्क द्वारा अनुमान". Journal of Approximation Theory. 122 (2): 260–266. doi:10.1016/S0021-9045(03)00078-9.
  15. Yarotsky, Dmitry (2016-10-03). गहरे ReLU नेटवर्क के साथ सन्निकटन के लिए त्रुटि सीमाएं. OCLC 1106247665.
  16. 16.0 16.1 16.2 16.3 Lu, Zhou; Pu, Homgming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "The Expressive Power of Neural Networks: A View from the Width". Advances in Neural Information Processing Systems. Curran Associates. 30: 6231–6239. arXiv:1709.02540.
  17. 17.0 17.1 Hanin, Boris; Sellke, Mark (2018). "न्यूनतम चौड़ाई के ReLU नेट द्वारा सतत कार्यों का अनुमान लगाना". arXiv:1710.11278 [stat.ML].
  18. 18.0 18.1 18.2 18.3 Kidger, Patrick; Lyons, Terry (July 2020). गहरे संकीर्ण नेटवर्क के साथ सार्वभौमिक सन्निकटन. Conference on Learning Theory. arXiv:1905.08539.
  19. 19.0 19.1 Kratsios, Anastasis; Papon, Léonie (2022). "विभेदक ज्यामितीय गहन शिक्षण के लिए सार्वभौमिक सन्निकटन प्रमेय". Journal of Machine Learning Research. 23 (196): 1–73. arXiv:2101.05390. ISSN 1533-7928.
  20. Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (2021). सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई. International Conference on Learning Representations. arXiv:2006.08859.
  21. Tabuada, Paulo; Gharesifard, Bahman (2021). अरेखीय नियंत्रण सिद्धांत के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक सन्निकटन शक्ति. International Conference on Learning Representations. arXiv:2007.06007.
  22. Tabuada, Paulo; Gharesifard, Bahman (2023). "नियंत्रण के लेंस के माध्यम से गहरे अवशिष्ट तंत्रिका नेटवर्क की सार्वभौमिक अनुमान शक्ति". IEEE Transactions on Automatic Control. 68 (5): 2715–2728. doi:10.1109/TAC.2022.3190051. ISSN 1558-2523. S2CID 250512115.
  23. 23.0 23.1 Cai, Yongqiang (2023-02-01). "सार्वभौमिक सन्निकटन के लिए तंत्रिका नेटवर्क की न्यूनतम चौड़ाई प्राप्त करें". ICLR (in English). arXiv:2209.11395.
  24. 24.0 24.1 24.2 Maiorov, Vitaly; Pinkus, Allan (April 1999). "एमएलपी तंत्रिका नेटवर्क द्वारा सन्निकटन के लिए निचली सीमाएं". Neurocomputing. 25 (1–3): 81–91. doi:10.1016/S0925-2312(98)00111-8.
  25. 25.0 25.1 25.2 Guliyev, Namig; Ismailov, Vugar (November 2018). "निश्चित भार के साथ दो छिपे हुए परत फीडफॉरवर्ड तंत्रिका नेटवर्क की अनुमानित क्षमता". Neurocomputing. 316: 262–269. arXiv:2101.09181. doi:10.1016/j.neucom.2018.07.075. S2CID 52285996.
  26. 26.0 26.1 Guliyev, Namig; Ismailov, Vugar (February 2018). "निश्चित भार के साथ एकल छिपी हुई परत फीडफॉरवर्ड तंत्रिका नेटवर्क द्वारा सन्निकटन पर". Neural Networks. 98: 296–304. arXiv:1708.06219. doi:10.1016/j.neunet.2017.12.007. PMID 29301110. S2CID 4932839.
  27. Baader, Maximilian; Mirman, Matthew; Vechev, Martin (2020). प्रमाणित नेटवर्क के साथ सार्वभौमिक अनुमोदन. ICLR.
  28. Gelenbe, Erol; Mao, Zhi Hong; Li, Yan D. (1999). "नुकीले यादृच्छिक नेटवर्क के साथ फ़ंक्शन सन्निकटन". IEEE Transactions on Neural Networks. 10 (1): 3–9. doi:10.1109/72.737488. PMID 18252498.
  29. Lin, Hongzhou; Jegelka, Stefanie (2018). एक-न्यूरॉन छुपी परतों वाला ResNet एक सार्वभौमिक अनुमानक है. Advances in Neural Information Processing Systems. Vol. 30. Curran Associates. pp. 6169–6178.
  30. Funahashi, Ken-Ichi (1989-01-01). "तंत्रिका नेटवर्क द्वारा निरंतर मैपिंग की अनुमानित प्राप्ति पर". Neural Networks (in English). 2 (3): 183–192. doi:10.1016/0893-6080(89)90003-8. ISSN 0893-6080.
  31. 31.0 31.1 Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (1989-01-01). "मल्टीलेयर फीडफॉरवर्ड नेटवर्क सार्वभौमिक सन्निकटनकर्ता हैं". Neural Networks (in English). 2 (5): 359–366. doi:10.1016/0893-6080(89)90020-8. ISSN 0893-6080. S2CID 2757547.
  32. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. ISBN 0-13-273350-1.
  33. Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  34. Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
  35. Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (2020-09-28). "सार्वभौमिक सन्निकटन के लिए न्यूनतम चौड़ाई". ICLR (in English). arXiv:2006.08859.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  36. Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (2022-01-01). "Optimal approximation rate of ReLU networks in terms of width and depth". Journal de Mathématiques Pures et Appliquées (in English). 157: 101–135. arXiv:2103.00502. doi:10.1016/j.matpur.2021.07.009. ISSN 0021-7824. S2CID 232075797.
  37. Lu, Jianfeng; Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (2021-01-01). "Deep Network Approximation for Smooth Functions". SIAM Journal on Mathematical Analysis. 53 (5): 5465–5506. arXiv:2001.03040. doi:10.1137/20M134695X. ISSN 0036-1410. S2CID 210116459.
  38. Juditsky, Anatoli B.; Lepski, Oleg V.; Tsybakov, Alexandre B. (2009-06-01). "Nonparametric estimation of composite functions". The Annals of Statistics. 37 (3). doi:10.1214/08-aos611. ISSN 0090-5364. S2CID 2471890.
  39. Poggio, Tomaso; Mhaskar, Hrushikesh; Rosasco, Lorenzo; Miranda, Brando; Liao, Qianli (2017-03-14). "Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review". International Journal of Automation and Computing. 14 (5): 503–519. doi:10.1007/s11633-017-1054-2. ISSN 1476-8186. S2CID 15562587.
  40. Johnson, Jesse (2019). Deep, Skinny Neural Networks are not Universal Approximators. International Conference on Learning Representations.
  41. Xu, Keyulu; Hu, Weihua; Leskovec, Jure; Jegelka, Stefanie (2019). How Powerful are Graph Neural Networks?. International Conference on Learning Representations.
  42. Brüel-Gabrielsson, Rickard (2020). ग्राफ़ पर सार्वभौमिक फ़ंक्शन सन्निकटन. Advances in Neural Information Processing Systems. Vol. 33. Curran Associates.