ज्ञान आसवन: Difference between revisions
(Created page with "{{Short description|Machine learning method to transfer knowledge from a large model to a smaller one}} यंत्र अधिगम में, नॉलेज डि...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Machine learning method to transfer knowledge from a large model to a smaller one}} | {{Short description|Machine learning method to transfer knowledge from a large model to a smaller one}} | ||
[[ यंत्र अधिगम ]] में, नॉलेज डिस्टिलेशन ज्ञान को बड़े [[सांख्यिकीय मॉडल]] से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के एनसेंबल औसत (मशीन लर्निंग)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से | [[ यंत्र अधिगम |यंत्र अधिगम]] में, नॉलेज डिस्टिलेशन ज्ञान को बड़े [[सांख्यिकीय मॉडल]] से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के एनसेंबल औसत (मशीन लर्निंग)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, भले ही वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। नॉलेज डिस्टिलेशन [[ सांख्यिकीय मॉडल सत्यापन ]] को खोए बिना नॉलेज को बड़े मॉडल से छोटे मॉडल में ट्रांसफर करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे [[मोबाइल डिवाइस]]) पर तैनात किया जा सकता है।<ref name="Hinton15">{{cite arXiv|title=एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना|year=2015|eprint=1503.02531|last1=Hinton|first1=Geoffrey|last2=Vinyals|first2=Oriol|last3=Dean|first3=Jeff|class=stat.ML}}</ref> | ||
मशीन लर्निंग के कई अनुप्रयोगों जैसे [[ वस्तु का पता लगाना ]] में नॉलेज डिस्टिलेशन का सफलतापूर्वक उपयोग किया गया है।<ref>{{cite journal|last1=Chen|first1=Guobin|first2=Wongun|last2=Choi|first3=Xiang|last3=Yu|first4=Tony|last4=Han|first5=Manmohan|last5=Chandraker|title=ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना|journal=Advances in Neural Information Processing Systems|pages=742–751|year=2017}}</ref> [[ध्वनिक मॉडल]],<ref>{{cite conference|last1=Asami|first1=Taichi|first2=Ryo|last2=Masumura|first3=Yoshikazu|last3=Yamaguchi|first4=Hirokazu|last4=Masataki|first5=Yushi|last5=Aono|title=ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=5185–5189|year=2017}}</ref> और [[प्राकृतिक भाषा प्रसंस्करण]]।<ref>{{cite conference|last1=Cui|first1=Jia|first2=Brian|last2=Kingsbury|first3=Bhuvana|last3=Ramabhadran|first4=George|last4=Saon|first5=Tom|last5=Sercu|first6=Kartik|last6=Audhkhasi|first7=Abhinav|last7=Sethy|first8=Markus|last8=Nussbaum-Thom|first9=Andrew|last9=Rosenberg|title=निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=4825–4829|year=2017}}}</ref> | मशीन लर्निंग के कई अनुप्रयोगों जैसे [[ वस्तु का पता लगाना ]] में नॉलेज डिस्टिलेशन का सफलतापूर्वक उपयोग किया गया है।<ref>{{cite journal|last1=Chen|first1=Guobin|first2=Wongun|last2=Choi|first3=Xiang|last3=Yu|first4=Tony|last4=Han|first5=Manmohan|last5=Chandraker|title=ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना|journal=Advances in Neural Information Processing Systems|pages=742–751|year=2017}}</ref> [[ध्वनिक मॉडल]],<ref>{{cite conference|last1=Asami|first1=Taichi|first2=Ryo|last2=Masumura|first3=Yoshikazu|last3=Yamaguchi|first4=Hirokazu|last4=Masataki|first5=Yushi|last5=Aono|title=ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=5185–5189|year=2017}}</ref> और [[प्राकृतिक भाषा प्रसंस्करण]]।<ref>{{cite conference|last1=Cui|first1=Jia|first2=Brian|last2=Kingsbury|first3=Bhuvana|last3=Ramabhadran|first4=George|last4=Saon|first5=Tom|last5=Sercu|first6=Kartik|last6=Audhkhasi|first7=Abhinav|last7=Sethy|first8=Markus|last8=Nussbaum-Thom|first9=Andrew|last9=Rosenberg|title=निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन|conference=IEEE International Conference on Acoustics, Speech and Signal Processing|pages=4825–4829|year=2017}}}</ref> | ||
हाल ही में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी पेश किया गया है।<ref>{{cite journal|last1=Yang|first1=Yiding|first2=Qiu|last2=Jiayan|first3=Song|last3=Mingli|first4=Tao|last4=Dacheng|first5=Wang|last5=Xinchao|title=ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज|journal=Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition|pages=7072–7081|year=2020|arxiv=2003.10477|bibcode=2020arXiv200310477Y|url=https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Distilling_Knowledge_From_Graph_Convolutional_Networks_CVPR_2020_paper.pdf}}</ref> | हाल ही में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी पेश किया गया है।<ref>{{cite journal|last1=Yang|first1=Yiding|first2=Qiu|last2=Jiayan|first3=Song|last3=Mingli|first4=Tao|last4=Dacheng|first5=Wang|last5=Xinchao|title=ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज|journal=Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition|pages=7072–7081|year=2020|arxiv=2003.10477|bibcode=2020arXiv200310477Y|url=https://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Distilling_Knowledge_From_Graph_Convolutional_Networks_CVPR_2020_paper.pdf}}</ref> | ||
Line 7: | Line 7: | ||
== आसवन की अवधारणा == | == आसवन की अवधारणा == | ||
ज्ञान को | ज्ञान को बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की जरूरत है। यदि दोनों मॉडलों को ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। हालाँकि, संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए [[छद्म पसंद]] में एन्कोड की गई है: जब कोई मॉडल सही ढंग से वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट चर के लिए बड़ा मान और अन्य आउटपुट चर के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मूल्यों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के [[सॉफ्ट-इन सॉफ्ट-आउट डिकोडर]] को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।<ref name="Hinton15" /> | ||
कृत्रिम न्यूरल नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब [[जुएरगेन श्मिटुबर]] ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में [[कृत्रिम तंत्रिका नेटवर्क]] (आरएनएन) के पदानुक्रम को संकुचित या ध्वस्त कर दिया था। .<ref name="schmidhuber1992">{{cite journal |last1=Schmidhuber |first1=Jürgen |year=1992 |title=इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना|url=ftp://ftp.idsia.ch/pub/juergen/chunker.pdf |journal=Neural Computation |volume=4 |issue=2 |pages=234–242 |doi=10.1162/neco.1992.4.2.234 |s2cid=18271205 }}</ref><ref name="DLhistory">{{cite arXiv|last=Schmidhuber|first=Juergen|author-link=Juergen Schmidhuber|date=2022|title=आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास|class=cs.NE|eprint=2212.11279}}</ref> इससे डाउनस्ट्रीम डीप लर्निंग में मदद मिली। | |||
एकल [[तंत्रिका नेटवर्क]] में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। उच्च प्रदर्शन वाले पहनावा द्वारा लेबल किए गए छद्म डेटा पर छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था, जो [[ log ]] से मिलान करने के लिए अनुकूलित था। कंप्रेस्ड मॉडल का पहनावा के लॉग में।<ref>{{cite conference|title=मॉडल संपीड़न|book-title=Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining|year=2006|last1=Buciluǎ|first1=Cristian|last2=Caruana|first2=Rich|last3=Niculescu-Mizil|first3=Alexandru}}</ref> नॉलेज डिस्टिलेशन इस तरह के दृष्टिकोण का सामान्यीकरण है, जिसे [[जेफ्री हिंटन]] एट अल द्वारा पेश किया गया है। 2015 में,<ref name="Hinton15" />[[प्रीप्रिंट]] में जिसने अवधारणा तैयार की और [[छवि वर्गीकरण]] के कार्य में प्राप्त कुछ परिणाम दिखाए। | |||
नॉलेज डिस्टिलेशन भी फ़राज़ तोराबी एट द्वारा चर्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है। अल।<ref>{{cite arXiv |eprint=1805.01954 |last1=Torabi |first1=Faraz |last2=Warnell |first2=Garrett |last3=Stone |first3=Peter |title=अवलोकन से व्यवहारिक क्लोनिंग|year=2018 |class=cs.AI }}</ref> | नॉलेज डिस्टिलेशन भी फ़राज़ तोराबी एट द्वारा चर्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है। अल।<ref>{{cite arXiv |eprint=1805.01954 |last1=Torabi |first1=Faraz |last2=Warnell |first2=Garrett |last3=Stone |first3=Peter |title=अवलोकन से व्यवहारिक क्लोनिंग|year=2018 |class=cs.AI }}</ref> | ||
Line 18: | Line 18: | ||
== सूत्रीकरण == | == सूत्रीकरण == | ||
सदिश चर के | सदिश चर के समारोह के रूप में बड़े मॉडल को देखते हुए <math>\mathbf{x}</math>, विशिष्ट [[सांख्यिकीय वर्गीकरण]] कार्य के लिए प्रशिक्षित, आमतौर पर नेटवर्क की अंतिम परत [[सॉफ्टमैक्स फ़ंक्शन]] के रूप में होती है | ||
:<math> | :<math> | ||
y_i(\mathbf{x}|t) = \frac{e^{\frac{z_i(\mathbf{x})}{t}}}{\sum_j e^{\frac{z_j(\mathbf{x})}{t}}} | y_i(\mathbf{x}|t) = \frac{e^{\frac{z_i(\mathbf{x})}{t}}}{\sum_j e^{\frac{z_j(\mathbf{x})}{t}}} | ||
</math> | </math> | ||
कहाँ <math>t</math> तापमान नामक | कहाँ <math>t</math> तापमान नामक पैरामीटर है, जो मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर सेट होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों को परिवर्तित करता है <math>z_i(\mathbf{x})</math> छद्म संभावनाओं के लिए, और तापमान के उच्च मूल्यों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के नरम वितरण को उत्पन्न करने पर पड़ता है। नॉलेज डिस्टिलेशन में छोटे नेटवर्क को प्रशिक्षित करना शामिल है, जिसे डिस्टिल्ड मॉडल कहा जाता है, डिस्टिल्ड मॉडल के आउटपुट के बीच [[क्रॉस एन्ट्रापी]] का उपयोग करके ट्रांसफर सेट (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले [[ डाटासेट ]] से अलग) नामक डेटासेट पर। <math>\mathbf{y}(\mathbf{x}|t)</math> और आउटपुट <math>\hat{\mathbf{y}}(\mathbf{x}|t)</math> ही रिकॉर्ड पर बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल पहनावा है), सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके <math>t</math> दोनों मॉडलों के लिए<ref name="Hinton15" />:<math> | ||
E(\mathbf{x}|t) = -\sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) . | E(\mathbf{x}|t) = -\sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) . | ||
</math> | </math> | ||
इस संदर्भ में, | इस संदर्भ में, उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच [[ ग्रेडियेंट ]] के अंतर को कम करता है और इसलिए उच्च [[सीखने की दर]] की अनुमति देता है।<ref name="Hinton15" /> | ||
यदि स्थानांतरण सेट के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के नुकसान को जोड़कर प्रक्रिया को मजबूत किया जा सकता है (के साथ गणना की गई) <math>t = 1</math>) और ज्ञात लेबल <math>\bar{y}</math> | यदि स्थानांतरण सेट के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के नुकसान को जोड़कर प्रक्रिया को मजबूत किया जा सकता है (के साथ गणना की गई) <math>t = 1</math>) और ज्ञात लेबल <math>\bar{y}</math> | ||
Line 31: | Line 31: | ||
E(\mathbf{x}|t) = -t^2 \sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) - \sum_i \bar{y}_i \log y_i(\mathbf{x}|1) | E(\mathbf{x}|t) = -t^2 \sum_i \hat{y}_i(\mathbf{x}|t) \log y_i(\mathbf{x}|t) - \sum_i \bar{y}_i \log y_i(\mathbf{x}|1) | ||
</math> | </math> | ||
जहां बड़े मॉडल के संबंध में हानि के घटक को | जहां बड़े मॉडल के संबंध में हानि के घटक को कारक द्वारा भारित किया जाता है <math>t^2</math> चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल वज़न के संबंध में नुकसान की प्रवणता कारक द्वारा मापी जाती है <math>\frac{1}{t^2}</math>.<ref name="Hinton15" /> | ||
== मॉडल संपीड़न के साथ संबंध == | == मॉडल संपीड़न के साथ संबंध == | ||
इस धारणा के तहत कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का | इस धारणा के तहत कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का विशेष मामला है। ज्ञान आसवन हानि की ढाल <math>E</math> डिस्टिल्ड मॉडल के लॉग के संबंध में <math>z_i</math> द्वारा दिया गया है | ||
:<math> | :<math> | ||
\begin{align} | \begin{align} |
Revision as of 12:34, 5 May 2023
यंत्र अधिगम में, नॉलेज डिस्टिलेशन ज्ञान को बड़े सांख्यिकीय मॉडल से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के एनसेंबल औसत (मशीन लर्निंग)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, भले ही वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। नॉलेज डिस्टिलेशन सांख्यिकीय मॉडल सत्यापन को खोए बिना नॉलेज को बड़े मॉडल से छोटे मॉडल में ट्रांसफर करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे मोबाइल डिवाइस) पर तैनात किया जा सकता है।[1] मशीन लर्निंग के कई अनुप्रयोगों जैसे वस्तु का पता लगाना में नॉलेज डिस्टिलेशन का सफलतापूर्वक उपयोग किया गया है।[2] ध्वनिक मॉडल,[3] और प्राकृतिक भाषा प्रसंस्करण।[4] हाल ही में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी पेश किया गया है।[5]
आसवन की अवधारणा
ज्ञान को बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की जरूरत है। यदि दोनों मॉडलों को ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। हालाँकि, संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए छद्म पसंद में एन्कोड की गई है: जब कोई मॉडल सही ढंग से वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट चर के लिए बड़ा मान और अन्य आउटपुट चर के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मूल्यों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के सॉफ्ट-इन सॉफ्ट-आउट डिकोडर को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।[1]
कृत्रिम न्यूरल नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब जुएरगेन श्मिटुबर ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में कृत्रिम तंत्रिका नेटवर्क (आरएनएन) के पदानुक्रम को संकुचित या ध्वस्त कर दिया था। .[6][7] इससे डाउनस्ट्रीम डीप लर्निंग में मदद मिली।
एकल तंत्रिका नेटवर्क में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। उच्च प्रदर्शन वाले पहनावा द्वारा लेबल किए गए छद्म डेटा पर छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था, जो log से मिलान करने के लिए अनुकूलित था। कंप्रेस्ड मॉडल का पहनावा के लॉग में।[8] नॉलेज डिस्टिलेशन इस तरह के दृष्टिकोण का सामान्यीकरण है, जिसे जेफ्री हिंटन एट अल द्वारा पेश किया गया है। 2015 में,[1]प्रीप्रिंट में जिसने अवधारणा तैयार की और छवि वर्गीकरण के कार्य में प्राप्त कुछ परिणाम दिखाए।
नॉलेज डिस्टिलेशन भी फ़राज़ तोराबी एट द्वारा चर्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है। अल।[9]
सूत्रीकरण
सदिश चर के समारोह के रूप में बड़े मॉडल को देखते हुए , विशिष्ट सांख्यिकीय वर्गीकरण कार्य के लिए प्रशिक्षित, आमतौर पर नेटवर्क की अंतिम परत सॉफ्टमैक्स फ़ंक्शन के रूप में होती है
कहाँ तापमान नामक पैरामीटर है, जो मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर सेट होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों को परिवर्तित करता है छद्म संभावनाओं के लिए, और तापमान के उच्च मूल्यों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के नरम वितरण को उत्पन्न करने पर पड़ता है। नॉलेज डिस्टिलेशन में छोटे नेटवर्क को प्रशिक्षित करना शामिल है, जिसे डिस्टिल्ड मॉडल कहा जाता है, डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस एन्ट्रापी का उपयोग करके ट्रांसफर सेट (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डाटासेट से अलग) नामक डेटासेट पर। और आउटपुट ही रिकॉर्ड पर बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल पहनावा है), सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके दोनों मॉडलों के लिए[1]: इस संदर्भ में, उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच ग्रेडियेंट के अंतर को कम करता है और इसलिए उच्च सीखने की दर की अनुमति देता है।[1]
यदि स्थानांतरण सेट के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के नुकसान को जोड़कर प्रक्रिया को मजबूत किया जा सकता है (के साथ गणना की गई) ) और ज्ञात लेबल
जहां बड़े मॉडल के संबंध में हानि के घटक को कारक द्वारा भारित किया जाता है चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल वज़न के संबंध में नुकसान की प्रवणता कारक द्वारा मापी जाती है .[1]
मॉडल संपीड़न के साथ संबंध
इस धारणा के तहत कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का विशेष मामला है। ज्ञान आसवन हानि की ढाल डिस्टिल्ड मॉडल के लॉग के संबंध में द्वारा दिया गया है
कहाँ बड़े मॉडल के लॉग हैं। के बड़े मूल्यों के लिए इसका अनुमान लगाया जा सकता है
और शून्य-मतलब परिकल्पना के तहत यह बनता है , जिसका व्युत्पन्न है , यानी नुकसान दो मॉडलों के लॉग्स के मिलान के बराबर है, जैसा कि मॉडल संपीड़न में किया गया है।[1]
संदर्भ
- ↑ 1.0 1.1 1.2 1.3 1.4 1.5 1.6 Hinton, Geoffrey; Vinyals, Oriol; Dean, Jeff (2015). "एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना". arXiv:1503.02531 [stat.ML].
- ↑ Chen, Guobin; Choi, Wongun; Yu, Xiang; Han, Tony; Chandraker, Manmohan (2017). "ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना". Advances in Neural Information Processing Systems: 742–751.
- ↑ Asami, Taichi; Masumura, Ryo; Yamaguchi, Yoshikazu; Masataki, Hirokazu; Aono, Yushi (2017). ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 5185–5189.
- ↑ Cui, Jia; Kingsbury, Brian; Ramabhadran, Bhuvana; Saon, George; Sercu, Tom; Audhkhasi, Kartik; Sethy, Abhinav; Nussbaum-Thom, Markus; Rosenberg, Andrew (2017). निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 4825–4829.}
- ↑ Yang, Yiding; Jiayan, Qiu; Mingli, Song; Dacheng, Tao; Xinchao, Wang (2020). "ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 7072–7081. arXiv:2003.10477. Bibcode:2020arXiv200310477Y.
- ↑ Schmidhuber, Jürgen (1992). "इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
- ↑ Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
- ↑ Buciluǎ, Cristian; Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "मॉडल संपीड़न". Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.
- ↑ Torabi, Faraz; Warnell, Garrett; Stone, Peter (2018). "अवलोकन से व्यवहारिक क्लोनिंग". arXiv:1805.01954 [cs.AI].