ज्ञान आसवन

यंत्र अधिगम में, नॉलेज डिस्टिलेशन ज्ञान को बड़े सांख्यिकीय मॉडल से छोटे मॉडल में स्थानांतरित करने की प्रक्रिया है। जबकि बड़े मॉडल (जैसे कि बहुत गहरे तंत्रिका नेटवर्क या कई मॉडलों के एनसेंबल औसत (मशीन लर्निंग)) में छोटे मॉडल की तुलना में उच्च ज्ञान क्षमता होती है, यह क्षमता पूरी तरह से उपयोग नहीं की जा सकती है। यह कम्प्यूटेशनल रूप से एक मॉडल का मूल्यांकन करने के लिए उतना ही महंगा हो सकता है, भले ही वह अपनी ज्ञान क्षमता का कम उपयोग करता हो। नॉलेज डिस्टिलेशन सांख्यिकीय मॉडल सत्यापन को खोए बिना नॉलेज को एक बड़े मॉडल से छोटे मॉडल में ट्रांसफर करता है। चूंकि छोटे मॉडल मूल्यांकन के लिए कम खर्चीले होते हैं, उन्हें कम शक्तिशाली हार्डवेयर (जैसे मोबाइल डिवाइस) पर तैनात किया जा सकता है।^[1] मशीन लर्निंग के कई अनुप्रयोगों जैसे वस्तु का पता लगाना में नॉलेज डिस्टिलेशन का सफलतापूर्वक उपयोग किया गया है।^[2] ध्वनिक मॉडल,^[3] और प्राकृतिक भाषा प्रसंस्करण।^[4] हाल ही में, इसे गैर-ग्रिड डेटा पर लागू तंत्रिका नेटवर्क को ग्राफ़ करने के लिए भी पेश किया गया है।^[5]

आसवन की अवधारणा

ज्ञान को एक बड़े से छोटे मॉडल में स्थानांतरित करने के लिए किसी तरह से बाद वाले को बिना वैधता खोए सिखाने की जरूरत है। यदि दोनों मॉडलों को एक ही डेटा पर प्रशिक्षित किया जाता है, तो छोटे मॉडल में समान कम्प्यूटेशनल संसाधन और बड़े मॉडल के समान डेटा दिए जाने पर निर्णय लेने की अपर्याप्त क्षमता हो सकती है। हालाँकि, एक संक्षिप्त ज्ञान प्रतिनिधित्व के बारे में कुछ जानकारी इसके आउटपुट को सौंपे गए छद्म पसंद में एन्कोड की गई है: जब कोई मॉडल सही ढंग से एक वर्ग की भविष्यवाणी करता है, तो यह ऐसे वर्ग के अनुरूप आउटपुट चर के लिए एक बड़ा मान और अन्य आउटपुट चर के लिए छोटे मान निर्दिष्ट करता है। रिकॉर्ड के लिए आउटपुट के बीच मूल्यों का वितरण इस बारे में जानकारी प्रदान करता है कि कैसे बड़ा मॉडल ज्ञान का प्रतिनिधित्व करता है। इसलिए, एक वैध मॉडल के किफायती परिनियोजन का लक्ष्य डेटा पर केवल बड़े मॉडल को प्रशिक्षित करके, संक्षिप्त ज्ञान प्रस्तुतियों को सीखने की इसकी बेहतर क्षमता का दोहन करके, और फिर ऐसे ज्ञान को छोटे मॉडल में आसवित करके प्राप्त किया जा सकता है, जो सक्षम नहीं होगा बड़े मॉडल के सॉफ्ट-इन सॉफ्ट-आउट डिकोडर को सीखने के लिए इसे प्रशिक्षित करके इसे अपने आप सीखें।^[1]

एक कृत्रिम न्यूरल नेटवर्क को दूसरे नेटवर्क में डिस्टिल करने का पहला उदाहरण 1992 का है, जब जुएरगेन श्मिटुबर ने उच्च स्तर के चंकर नेटवर्क को निचले स्तर के ऑटोमेटाइज़र नेटवर्क में डिस्टिल करके एकल आरएनएन में कृत्रिम तंत्रिका नेटवर्क (आरएनएन) के पदानुक्रम को संकुचित या ध्वस्त कर दिया था। .^[6]^[7] इससे डाउनस्ट्रीम डीप लर्निंग में मदद मिली।

एक एकल तंत्रिका नेटवर्क में कई मॉडलों के ज्ञान को संपीड़ित करने के लिए एक संबंधित पद्धति को 2006 में मॉडल संपीड़न कहा जाता था। उच्च प्रदर्शन वाले पहनावा द्वारा लेबल किए गए छद्म डेटा पर एक छोटे मॉडल को प्रशिक्षित करके संपीड़न प्राप्त किया गया था, जो log से मिलान करने के लिए अनुकूलित था। कंप्रेस्ड मॉडल का पहनावा के लॉग में।^[8] नॉलेज डिस्टिलेशन इस तरह के दृष्टिकोण का एक सामान्यीकरण है, जिसे जेफ्री हिंटन एट अल द्वारा पेश किया गया है। 2015 में,^[1]एक प्रीप्रिंट में जिसने अवधारणा तैयार की और छवि वर्गीकरण के कार्य में प्राप्त कुछ परिणाम दिखाए।

नॉलेज डिस्टिलेशन भी फ़राज़ तोराबी एट द्वारा चर्चा की गई व्यवहारिक क्लोनिंग की अवधारणा से संबंधित है। अल।^[9]

सूत्रीकरण

सदिश चर के एक समारोह के रूप में एक बड़े मॉडल को देखते हुए $\mathbf {x}$ , एक विशिष्ट सांख्यिकीय वर्गीकरण कार्य के लिए प्रशिक्षित, आमतौर पर नेटवर्क की अंतिम परत एक सॉफ्टमैक्स फ़ंक्शन के रूप में होती है

y_{i}(\mathbf {x} |t)={\frac {e^{\frac {z_{i}(\mathbf {x} )}{t}}}{\sum _{j}e^{\frac {z_{j}(\mathbf {x} )}{t}}}}

कहाँ $t$ तापमान नामक एक पैरामीटर है, जो एक मानक सॉफ्टमैक्स के लिए सामान्य रूप से 1 पर सेट होता है। सॉफ्टमैक्स ऑपरेटर लॉगिट मानों को परिवर्तित करता है $z_{i}(\mathbf {x} )$ छद्म संभावनाओं के लिए, और तापमान के उच्च मूल्यों का प्रभाव आउटपुट वर्गों के बीच छद्म संभावनाओं के एक नरम वितरण को उत्पन्न करने पर पड़ता है। नॉलेज डिस्टिलेशन में एक छोटे नेटवर्क को प्रशिक्षित करना शामिल है, जिसे डिस्टिल्ड मॉडल कहा जाता है, डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस एन्ट्रापी का उपयोग करके ट्रांसफर सेट (बड़े मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डाटासेट से अलग) नामक डेटासेट पर। $\mathbf {y} (\mathbf {x} |t)$ और आउटपुट ${\hat {\mathbf {y} }}(\mathbf {x} |t)$ एक ही रिकॉर्ड पर बड़े मॉडल द्वारा उत्पादित (या व्यक्तिगत आउटपुट का औसत, यदि बड़ा मॉडल एक पहनावा है), सॉफ्टमैक्स तापमान के उच्च मूल्य का उपयोग करके $t$ दोनों मॉडलों के लिए^[1]: $E(\mathbf {x} |t)=-\sum _{i}{\hat {y}}_{i}(\mathbf {x} |t)\log y_{i}(\mathbf {x} |t).$ इस संदर्भ में, एक उच्च तापमान आउटपुट की एन्ट्रापी को बढ़ाता है, और इसलिए कठिन लक्ष्यों की तुलना में डिस्टिल्ड मॉडल के लिए सीखने के लिए अधिक जानकारी प्रदान करता है, साथ ही विभिन्न रिकॉर्ड के बीच ग्रेडियेंट के अंतर को कम करता है और इसलिए उच्च सीखने की दर की अनुमति देता है।^[1]

यदि स्थानांतरण सेट के लिए जमीनी सच्चाई उपलब्ध है, तो डिस्टिल्ड मॉडल के आउटपुट के बीच क्रॉस-एन्ट्रॉपी के नुकसान को जोड़कर प्रक्रिया को मजबूत किया जा सकता है (के साथ गणना की गई) $t=1$ ) और ज्ञात लेबल ${\bar {y}}$

E(\mathbf {x} |t)=-t^{2}\sum _{i}{\hat {y}}_{i}(\mathbf {x} |t)\log y_{i}(\mathbf {x} |t)-\sum _{i}{\bar {y}}_{i}\log y_{i}(\mathbf {x} |1)

जहां बड़े मॉडल के संबंध में हानि के घटक को एक कारक द्वारा भारित किया जाता है $t^{2}$ चूंकि, जैसे-जैसे तापमान बढ़ता है, मॉडल वज़न के संबंध में नुकसान की प्रवणता एक कारक द्वारा मापी जाती है ${\frac {1}{t^{2}}}$ .^[1]

मॉडल संपीड़न के साथ संबंध

इस धारणा के तहत कि लॉग्स का माध्य शून्य है, यह दिखाना संभव है कि मॉडल संपीड़न ज्ञान आसवन का एक विशेष मामला है। ज्ञान आसवन हानि की ढाल $E$ डिस्टिल्ड मॉडल के लॉग के संबंध में $z_{i}$ द्वारा दिया गया है

{\begin{aligned}{\frac {\partial }{\partial z_{i}}}E&=-{\frac {\partial }{\partial z_{i}}}\sum _{j}{\hat {y}}_{j}\log y_{j}\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}y_{i}\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}{\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}}}}\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {{\frac {1}{t}}e^{\frac {z_{i}}{t}}\sum _{j}e^{\frac {z_{j}}{t}}-{\frac {1}{t}}\left(e^{\frac {z_{i}}{t}}\right)^{2}}{\left(\sum _{j}e^{\frac {z_{j}}{t}}\right)^{2}}}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {y_{i}}{t}}-{\frac {y_{i}^{2}}{t}}\right)\\&={\frac {1}{t}}\left(y_{i}-{\hat {y}}_{i}\right)\\&={\frac {1}{t}}\left({\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}

कहाँ

{\hat {z}}_{i}

बड़े मॉडल के लॉग हैं। के बड़े मूल्यों के लिए

t

इसका अनुमान लगाया जा सकता है

{\frac {1}{t}}\left({\frac {1+{\frac {z_{i}}{t}}}{N+\sum _{j}{\frac {z_{j}}{t}}}}-{\frac {1+{\frac {{\hat {z}}_{i}}{t}}}{N+\sum _{j}{\frac {{\hat {z}}_{j}}{t}}}}\right)

और शून्य-मतलब परिकल्पना के तहत $\sum _{j}z_{j}=\sum _{j}{\hat {z}}_{j}=0$ यह बनता है ${\frac {z_{i}-{\hat {z}}_{i}}{NT^{2}}}$ , जिसका व्युत्पन्न है ${\frac {1}{2}}\left(z_{i}-{\hat {z}}_{i}\right)^{2}$ , यानी नुकसान दो मॉडलों के लॉग्स के मिलान के बराबर है, जैसा कि मॉडल संपीड़न में किया गया है।^[1]

संदर्भ

↑ ^1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Hinton, Geoffrey; Vinyals, Oriol; Dean, Jeff (2015). "एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना". arXiv:1503.02531 [stat.ML].
↑ Chen, Guobin; Choi, Wongun; Yu, Xiang; Han, Tony; Chandraker, Manmohan (2017). "ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना". Advances in Neural Information Processing Systems: 742–751.
↑ Asami, Taichi; Masumura, Ryo; Yamaguchi, Yoshikazu; Masataki, Hirokazu; Aono, Yushi (2017). ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 5185–5189.
↑ Cui, Jia; Kingsbury, Brian; Ramabhadran, Bhuvana; Saon, George; Sercu, Tom; Audhkhasi, Kartik; Sethy, Abhinav; Nussbaum-Thom, Markus; Rosenberg, Andrew (2017). निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 4825–4829.}
↑ Yang, Yiding; Jiayan, Qiu; Mingli, Song; Dacheng, Tao; Xinchao, Wang (2020). "ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 7072–7081. arXiv:2003.10477. Bibcode:2020arXiv200310477Y.
↑ Schmidhuber, Jürgen (1992). "इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
↑ Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].
↑ Buciluǎ, Cristian; Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "मॉडल संपीड़न". Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.
↑ Torabi, Faraz; Warnell, Garrett; Stone, Peter (2018). "अवलोकन से व्यवहारिक क्लोनिंग". arXiv:1805.01954 [cs.AI].

बाहरी संबंध

Distilling the knowledge in a neural network – Google AI

[Hinton15-1] 1.0 ^1.1 ^1.2 ^1.3 ^1.4 ^1.5 ^1.6 Hinton, Geoffrey; Vinyals, Oriol; Dean, Jeff (2015). "एक तंत्रिका नेटवर्क में ज्ञान को आसवित करना". arXiv:1503.02531 [stat.ML].

[2] Chen, Guobin; Choi, Wongun; Yu, Xiang; Han, Tony; Chandraker, Manmohan (2017). "ज्ञान आसवन के साथ कुशल वस्तु पहचान मॉडल सीखना". Advances in Neural Information Processing Systems: 742–751.

[3] Asami, Taichi; Masumura, Ryo; Yamaguchi, Yoshikazu; Masataki, Hirokazu; Aono, Yushi (2017). ज्ञान आसवन का उपयोग करके DNN ध्वनिक मॉडल का डोमेन अनुकूलन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 5185–5189.

[4] Cui, Jia; Kingsbury, Brian; Ramabhadran, Bhuvana; Saon, George; Sercu, Tom; Audhkhasi, Kartik; Sethy, Abhinav; Nussbaum-Thom, Markus; Rosenberg, Andrew (2017). निम्न-संसाधन वाली भाषाओं के लिए बहुभाषी मॉडलों के समूह में ज्ञान आसवन. IEEE International Conference on Acoustics, Speech and Signal Processing. pp. 4825–4829.}

[5] Yang, Yiding; Jiayan, Qiu; Mingli, Song; Dacheng, Tao; Xinchao, Wang (2020). "ग्राफ कनवॉल्यूशनल नेटवर्क्स से डिस्टिलिंग नॉलेज" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition: 7072–7081. arXiv:2003.10477. Bibcode:2020arXiv200310477Y.

[schmidhuber1992-6] Schmidhuber, Jürgen (1992). "इतिहास संपीड़न के सिद्धांत का उपयोग करके जटिल, विस्तारित अनुक्रम सीखना" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.

[DLhistory-7] Schmidhuber, Juergen (2022). "आधुनिक एआई और डीप लर्निंग का एनोटेट इतिहास". arXiv:2212.11279 [cs.NE].

[8] Buciluǎ, Cristian; Caruana, Rich; Niculescu-Mizil, Alexandru (2006). "मॉडल संपीड़न". Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining.

[9] Torabi, Faraz; Warnell, Garrett; Stone, Peter (2018). "अवलोकन से व्यवहारिक क्लोनिंग". arXiv:1805.01954 [cs.AI].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Anonymous

Search

ज्ञान आसवन

Namespaces

More

Page actions

Contents

आसवन की अवधारणा

सूत्रीकरण

मॉडल संपीड़न के साथ संबंध

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

ज्ञान आसवन

आसवन की अवधारणा

सूत्रीकरण

मॉडल संपीड़न के साथ संबंध

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories