विरल शब्दकोश अधिगम: Difference between revisions
(Created page with "{{Short description|Representation learning method}} {{Machine learning bar}}स्पार्स डिक्शनरी लर्निंग (स्पार्स को...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Representation learning method}} | {{Short description|Representation learning method}} | ||
{{Machine learning bar}} | {{Machine learning bar}} | ||
विरल शब्दकोश सीखना (जिसे विरल संकेतन या एसडीएल के रूप में भी जाना जाता है) एक प्रतिनिधित्व सीखने की विधि है जिसका उद्देश्य बुनियादी तत्वों के साथ-साथ उन बुनियादी तत्वों के रैखिक संयोजन के रूप में निविष्ट आँकड़े का विरल प्रतिनिधित्व ढूंढना है। इन तत्वों को परमाणु कहा जाता है और ये एक शब्दकोष की रचना करते हैं। शब्दकोश में परमाणुओं को [[ऑर्थोगोनल आधार|लंबकोणीय आधार]] पर होना आवश्यक नहीं है, और वे एक अति-पूर्ण विस्तरित आकृति हो सकते हैं। यह समस्या व्यवस्था दर्शाए जा रहे संकेतों की आयामीता को देखे जा रहे संकेतों में से एक से अधिक होने की अनुमति भी देता है। उपरोक्त दो गुणों के कारण प्रतीत होता है कि निरर्थक परमाणु एक ही संकेत के कई प्रतिनिधित्व की अनुमति देते हैं, लेकिन प्रतिनिधित्व की विरलता और लचीलेपन में सुधार भी प्रदान करते हैं। | |||
विरल शब्दकोश सीखने के सबसे महत्वपूर्ण अनुप्रयोगों में से एक [[संपीड़ित संवेदन]] या | विरल शब्दकोश सीखने के सबसे महत्वपूर्ण अनुप्रयोगों में से एक [[संपीड़ित संवेदन]] या संकेत पुनर्प्राप्ति के क्षेत्र में है।संपीड़ित संवेदन में, एक उच्च-आयामी संकेत को केवल कुछ रैखिक मापों के साथ पुनर्प्राप्त किया जा सकता है, परंतु संकेत विरल या लगभग विरल हो। चूंकि सभी संकेत इस विरलता की स्थिति को संतुष्ट नहीं करते हैं, इसलिए उस संकेत का विरल प्रतिनिधित्व ढूंढना बहुत महत्वपूर्ण है जैसे [[तरंगिका परिवर्तन]] या रेखापुंज आव्यूह की दिशात्मक ढाल। एक बार जब आव्यूह या उच्च आयामी सदिश को एक विरल स्थान पर स्थानांतरित कर दिया जाता है, तो संकेत को पुनर्प्राप्त करने के लिए आधार खोज, कोसैंप<ref>{{Cite journal|last1=Needell|first1=D.|last2=Tropp|first2=J.A.|title=CoSaMP: Iterative signal recovery from incomplete and inaccurate samples|journal=Applied and Computational Harmonic Analysis|volume=26|issue=3|pages=301–321|doi=10.1016/j.acha.2008.07.002|year=2009|arxiv=0803.2392}}</ref> या तेज़ गैर-पुनरावृत्त कलन विधि<ref>Lotfi, M.; Vidyasagar, M."[[arxiv:1708.03608|A Fast Non-iterative Algorithm for Compressive Sensing Using Binary Measurement Matrices]]"</ref> जैसे विभिन्न पुनर्प्राप्ति कलन विधि का उपयोग किया जा सकता है। | ||
शब्दकोश सीखने का एक प्रमुख सिद्धांत यह है कि शब्दकोश का अनुमान | शब्दकोश सीखने का एक प्रमुख सिद्धांत यह है कि शब्दकोश का अनुमान निविष्ट आँकड़ा से लगाया जाना चाहिए। विरल शब्दकोश सीखने के तरीकों का उद्भव इस तथ्य से प्रेरित था कि [[ संकेत आगे बढ़ाना | संकेत संसाधन]] में कोई सामान्यता यथासंभव कम घटकों का उपयोग करके निविष्ट आँकड़ा का प्रतिनिधित्व करना चाहता है। इस दृष्टिकोण से पहले सामान्य अभ्यास पूर्वनिर्धारित शब्दकोशों (जैसे फूरियर या तरंगिका रूपांतरण ) का उपयोग करना था। हालाँकि, कुछ मामलों में एक शब्दकोश जिसे निविष्ट आँकड़ा को फिट करने के लिए प्रशिक्षित किया जाता है, विरलता में काफी सुधार कर सकता है, जिसमें डेटा अपघटन, संपीड़न और विश्लेषण में अनुप्रयोग होते हैं और इसका उपयोग छवि [[शोर में कमी]] और [[छवि वर्गीकरण]], वीडियो और [[ऑडियो सिग्नल प्रोसेसिंग|ऑडियो संकेत प्रोसेसिंग]] के क्षेत्र में किया गया है। विरलता और अतिपूर्ण शब्दकोशों का छवि संपीड़न, छवि संलयन और इनपेंटिंग में व्यापक अनुप्रयोग है। | ||
[[File:Dic_learning.jpg|thumb|डिक्शनरी लर्निंग द्वारा इमेज डीनोइज़िंग]] | [[File:Dic_learning.jpg|thumb|डिक्शनरी लर्निंग द्वारा इमेज डीनोइज़िंग]] | ||
== समस्या कथन == | == समस्या कथन == | ||
निविष्ट आँकड़ासेट दिया गया <math>X = [x_1, ..., x_K], x_i \in \mathbb{R}^d</math> हम एक शब्दकोश खोजना चाहते हैं <math>\mathbf{D} \in \mathbb{R}^{d \times n}: D = [d_1, ..., d_n]</math> और एक प्रतिनिधित्व <math>R = [r_1,...,r_K], r_i \in \mathbb{R}^n</math> ऐसे कि दोनों <math>\|X-\mathbf{D}R\|^2_F</math> कम से कम किया गया है और प्रतिनिधित्व <math>r_i</math> काफी विरल हैं. इसे निम्नलिखित [[अनुकूलन समस्या]] के रूप में तैयार किया जा सकता है: | |||
<math>\underset{\mathbf{D} \in \mathcal{C}, r_i \in \mathbb{R}^n}{\text{argmin}} \sum_{i=1}^K\|x_i-\mathbf{D}r_i\|_2^2+\lambda \|r_i\|_0</math>, कहाँ <math>\mathcal{C} \equiv \{\mathbf{D} \in \mathbb{R}^{d \times n}: \|d_i\|_2 \leq 1 \,\, \forall i =1,...,n \}</math>, <math>\lambda>0</math> | <math>\underset{\mathbf{D} \in \mathcal{C}, r_i \in \mathbb{R}^n}{\text{argmin}} \sum_{i=1}^K\|x_i-\mathbf{D}r_i\|_2^2+\lambda \|r_i\|_0</math>, कहाँ <math>\mathcal{C} \equiv \{\mathbf{D} \in \mathbb{R}^{d \times n}: \|d_i\|_2 \leq 1 \,\, \forall i =1,...,n \}</math>, <math>\lambda>0</math> | ||
Line 19: | Line 20: | ||
शब्दकोष <math>\mathbf{D}</math> यदि ऊपर परिभाषित किया गया है तो वह अपूर्ण हो सकता है <math>n < d</math> या मामले में अतिपूर्ण <math>n>d</math> उत्तरार्द्ध एक विरल शब्दकोश सीखने की समस्या के लिए एक विशिष्ट धारणा है। संपूर्ण शब्दकोश का मामला प्रतिनिधित्वात्मक दृष्टिकोण से कोई सुधार प्रदान नहीं करता है और इसलिए इस पर विचार नहीं किया जाता है। | शब्दकोष <math>\mathbf{D}</math> यदि ऊपर परिभाषित किया गया है तो वह अपूर्ण हो सकता है <math>n < d</math> या मामले में अतिपूर्ण <math>n>d</math> उत्तरार्द्ध एक विरल शब्दकोश सीखने की समस्या के लिए एक विशिष्ट धारणा है। संपूर्ण शब्दकोश का मामला प्रतिनिधित्वात्मक दृष्टिकोण से कोई सुधार प्रदान नहीं करता है और इसलिए इस पर विचार नहीं किया जाता है। | ||
अपूर्ण शब्दकोश उस सेटअप का प्रतिनिधित्व करते हैं जिसमें वास्तविक | अपूर्ण शब्दकोश उस सेटअप का प्रतिनिधित्व करते हैं जिसमें वास्तविक निविष्ट आँकड़ा निम्न-आयामी स्थान में होता है। यह मामला [[आयामीता में कमी]] और प्रमुख घटक विश्लेषण जैसी तकनीकों से दृढ़ता से संबंधित है जिसके लिए परमाणुओं की आवश्यकता होती है <math>d_1,...,d_n</math> ऑर्थोगोनल होना. कुशल आयामीता में कमी के लिए इन उप-स्थानों का चुनाव महत्वपूर्ण है, लेकिन यह मामूली नहीं है। और शब्दकोश प्रतिनिधित्व के आधार पर आयामीता में कमी को डेटा विश्लेषण या वर्गीकरण जैसे विशिष्ट कार्यों को संबोधित करने के लिए बढ़ाया जा सकता है। हालाँकि, उनका मुख्य नकारात्मक पक्ष परमाणुओं की पसंद को सीमित करना है। | ||
हालाँकि, अपूर्ण शब्दकोशों के लिए परमाणुओं को ऑर्थोगोनल होने की आवश्यकता नहीं होती है (उनके पास कभी भी [[आधार (रैखिक बीजगणित)]] नहीं होगा) इस प्रकार अधिक लचीले शब्दकोशों और समृद्ध डेटा प्रतिनिधित्व की अनुमति मिलती है। | हालाँकि, अपूर्ण शब्दकोशों के लिए परमाणुओं को ऑर्थोगोनल होने की आवश्यकता नहीं होती है (उनके पास कभी भी [[आधार (रैखिक बीजगणित)]] नहीं होगा) इस प्रकार अधिक लचीले शब्दकोशों और समृद्ध डेटा प्रतिनिधित्व की अनुमति मिलती है। | ||
एक पूर्ण शब्दकोश जो | एक पूर्ण शब्दकोश जो संकेत के विरल प्रतिनिधित्व की अनुमति देता है वह एक प्रसिद्ध ट्रांसफॉर्म मैट्रिक्स (वेवलेट्स ट्रांसफॉर्म, फूरियर ट्रांसफॉर्म) हो सकता है या इसे तैयार किया जा सकता है ताकि इसके तत्वों को इस तरह से बदला जा सके कि यह दिए गए संकेत को सबसे अच्छे तरीके से प्रस्तुत करता है। सीखे गए शब्दकोष पूर्वनिर्धारित परिवर्तन मैट्रिक्स की तुलना में विरल समाधान देने में सक्षम हैं। | ||
== | == कलन विधि == | ||
जैसा कि ऊपर वर्णित अनुकूलन समस्या को शब्दकोश या विरल कोडिंग के संबंध में उत्तल समस्या के रूप में हल किया जा सकता है, जबकि दोनों में से एक को ठीक किया गया है, अधिकांश | जैसा कि ऊपर वर्णित अनुकूलन समस्या को शब्दकोश या विरल कोडिंग के संबंध में उत्तल समस्या के रूप में हल किया जा सकता है, जबकि दोनों में से एक को ठीक किया गया है, अधिकांश कलन विधि एक और फिर दूसरे को पुनरावृत्त रूप से अपडेट करने के विचार पर आधारित हैं। | ||
इष्टतम विरल कोडिंग खोजने की समस्या <math>R</math> किसी दिए गए शब्दकोश के साथ <math>\mathbf{D}</math> [[विरल सन्निकटन]] (या कभी-कभी केवल विरल कोडिंग समस्या) के रूप में जाना जाता है। इसे हल करने के लिए कई | इष्टतम विरल कोडिंग खोजने की समस्या <math>R</math> किसी दिए गए शब्दकोश के साथ <math>\mathbf{D}</math> [[विरल सन्निकटन]] (या कभी-कभी केवल विरल कोडिंग समस्या) के रूप में जाना जाता है। इसे हल करने के लिए कई कलन विधि विकसित किए गए हैं (जैसे मिलान खोज और [[लैस्सो (सांख्यिकी)]]) और नीचे वर्णित कलन विधि में शामिल किए गए हैं। | ||
=== इष्टतम दिशाओं की विधि (एमओडी) === | === इष्टतम दिशाओं की विधि (एमओडी) === | ||
Line 36: | Line 37: | ||
यहाँ, <math>F</math> [[फ्रोबेनियस मानदंड]] को दर्शाता है। एमओडी मिलान खोज जैसी विधि का उपयोग करके विरल सन्निकटन प्राप्त करने और दी गई समस्या के विश्लेषणात्मक समाधान की गणना करके शब्दकोश को अद्यतन करने के बीच वैकल्पिक करता है। <math>\mathbf{D} = XR^+ </math> कहाँ <math>R^+ </math> एक मूर-पेनरोज़ छद्म व्युत्क्रम है|मूर-पेनरोज़ छद्म व्युत्क्रम। इस अपडेट के बाद <math>\mathbf{D} </math> बाधाओं को फिट करने के लिए पुनः सामान्यीकृत किया जाता है और नई विरल कोडिंग फिर से प्राप्त की जाती है। प्रक्रिया को अभिसरण तक (या पर्याप्त रूप से छोटे अवशेष तक) दोहराया जाता है। | यहाँ, <math>F</math> [[फ्रोबेनियस मानदंड]] को दर्शाता है। एमओडी मिलान खोज जैसी विधि का उपयोग करके विरल सन्निकटन प्राप्त करने और दी गई समस्या के विश्लेषणात्मक समाधान की गणना करके शब्दकोश को अद्यतन करने के बीच वैकल्पिक करता है। <math>\mathbf{D} = XR^+ </math> कहाँ <math>R^+ </math> एक मूर-पेनरोज़ छद्म व्युत्क्रम है|मूर-पेनरोज़ छद्म व्युत्क्रम। इस अपडेट के बाद <math>\mathbf{D} </math> बाधाओं को फिट करने के लिए पुनः सामान्यीकृत किया जाता है और नई विरल कोडिंग फिर से प्राप्त की जाती है। प्रक्रिया को अभिसरण तक (या पर्याप्त रूप से छोटे अवशेष तक) दोहराया जाता है। | ||
निम्न-आयामी | निम्न-आयामी निविष्ट आँकड़ा के लिए MOD एक बहुत ही कुशल तरीका साबित हुआ है <math>X </math> एकाग्र होने के लिए बस कुछ पुनरावृत्तियों की आवश्यकता है। हालाँकि, मैट्रिक्स-इनवर्जन ऑपरेशन की उच्च जटिलता के कारण, उच्च-आयामी मामलों में छद्म व्युत्क्रम की गणना करना कई मामलों में कठिन है। इस कमी ने अन्य शब्दकोश सीखने के तरीकों के विकास को प्रेरित किया है। | ||
=== के-एसवीडी === | === के-एसवीडी === | ||
{{main|K-SVD}}[[के-एसवीडी]] एक एल्गोरिथ्म है जो शब्दकोश के परमाणुओं को एक-एक करके अद्यतन करने के लिए इसके मूल में एकवचन मूल्य अपघटन करता है और मूल रूप से [[ K- का अर्थ है क्लस्टरिंग ]]|के-मीन्स का सामान्यीकरण है। यह लागू करता है कि | {{main|K-SVD}}[[के-एसवीडी]] एक एल्गोरिथ्म है जो शब्दकोश के परमाणुओं को एक-एक करके अद्यतन करने के लिए इसके मूल में एकवचन मूल्य अपघटन करता है और मूल रूप से [[ K- का अर्थ है क्लस्टरिंग ]]|के-मीन्स का सामान्यीकरण है। यह लागू करता है कि निविष्ट आँकड़ा का प्रत्येक तत्व <math>x_i</math> से अधिक नहीं के एक रैखिक संयोजन द्वारा एन्कोड किया गया है <math>T_0 </math> तत्व एक तरह से MOD दृष्टिकोण के समान हैं: | ||
<math>\min_{\mathbf{D}, R}\{\|X-\mathbf{D}R\|^2_F\} \,\, \text{s.t.}\,\, \forall i \,\,\|r_i\|_0 \leq T_0 </math> | <math>\min_{\mathbf{D}, R}\{\|X-\mathbf{D}R\|^2_F\} \,\, \text{s.t.}\,\, \forall i \,\,\|r_i\|_0 \leq T_0 </math> | ||
Line 53: | Line 54: | ||
</math> और विरलता को लागू करना <math> | </math> और विरलता को लागू करना <math> | ||
x_k | x_k | ||
</math> अद्यतन के बाद. इस | </math> अद्यतन के बाद. इस कलन विधि को शब्दकोश सीखने के लिए मानक माना जाता है और इसका उपयोग विभिन्न अनुप्रयोगों में किया जाता है। हालाँकि, यह कमजोरियों को साझा करता है क्योंकि एमओडी केवल अपेक्षाकृत कम आयामीता वाले संकेतों के लिए कुशल है और स्थानीय न्यूनतम पर अटके रहने की संभावना है। | ||
=== स्टोकेस्टिक ग्रेडिएंट डिसेंट === | === स्टोकेस्टिक ग्रेडिएंट डिसेंट === | ||
Line 61: | Line 62: | ||
=== लैग्रेंज दोहरी विधि === | === लैग्रेंज दोहरी विधि === | ||
द्वंद्व (अनुकूलन) को हल करने पर आधारित एक | द्वंद्व (अनुकूलन) को हल करने पर आधारित एक कलन विधि शब्दकोश को हल करने का एक कुशल तरीका प्रदान करता है जिसमें स्पार्सिटी फ़ंक्शन से प्रेरित कोई जटिलता नहीं होती है।<ref>Lee, Honglak, et al. "Efficient sparse coding algorithms." ''Advances in neural information processing systems''. 2006.</ref> निम्नलिखित लैग्रेंजियन पर विचार करें: | ||
<math>\mathcal{L}(\mathbf{D}, \Lambda) = \text{tr}\left((X-\mathbf{D}R)^T(X-\mathbf{D}R)\right) + \sum_{j=1}^n\lambda_j \left({\sum_{i=1}^d\mathbf{D}_{ij}^2-c} \right)</math>, कहाँ <math>c</math> परमाणुओं के मानदंड पर एक बाधा है और <math>\lambda_i</math> विकर्ण मैट्रिक्स बनाने वाले तथाकथित दोहरे चर हैं <math>\Lambda</math>. | <math>\mathcal{L}(\mathbf{D}, \Lambda) = \text{tr}\left((X-\mathbf{D}R)^T(X-\mathbf{D}R)\right) + \sum_{j=1}^n\lambda_j \left({\sum_{i=1}^d\mathbf{D}_{ij}^2-c} \right)</math>, कहाँ <math>c</math> परमाणुओं के मानदंड पर एक बाधा है और <math>\lambda_i</math> विकर्ण मैट्रिक्स बनाने वाले तथाकथित दोहरे चर हैं <math>\Lambda</math>. | ||
Line 86: | Line 87: | ||
=== पैरामीट्रिक प्रशिक्षण विधियाँ === | === पैरामीट्रिक प्रशिक्षण विधियाँ === | ||
पैरामीट्रिक प्रशिक्षण विधियों का उद्देश्य दोनों दुनियाओं के सर्वश्रेष्ठ को शामिल करना है - विश्लेषणात्मक रूप से निर्मित शब्दकोशों और सीखे गए शब्दकोशों का क्षेत्र।<ref>{{Cite journal|title = विरल प्रतिनिधित्व मॉडलिंग के लिए शब्दकोश|journal = Proceedings of the IEEE|date = 2010-06-01|issn = 0018-9219|pages = 1045–1057|volume = 98|issue = 6|doi = 10.1109/JPROC.2010.2040551|first1 = R.|last1 = Rubinstein|first2 = A.M.|last2 = Bruckstein|first3 = M.|last3 = Elad|citeseerx = 10.1.1.160.527|s2cid = 2176046}}</ref> यह अधिक शक्तिशाली सामान्यीकृत शब्दकोशों के निर्माण की अनुमति देता है जिन्हें संभावित रूप से मनमाने आकार के संकेतों के मामलों पर लागू किया जा सकता है। उल्लेखनीय दृष्टिकोणों में शामिल हैं: | पैरामीट्रिक प्रशिक्षण विधियों का उद्देश्य दोनों दुनियाओं के सर्वश्रेष्ठ को शामिल करना है - विश्लेषणात्मक रूप से निर्मित शब्दकोशों और सीखे गए शब्दकोशों का क्षेत्र।<ref>{{Cite journal|title = विरल प्रतिनिधित्व मॉडलिंग के लिए शब्दकोश|journal = Proceedings of the IEEE|date = 2010-06-01|issn = 0018-9219|pages = 1045–1057|volume = 98|issue = 6|doi = 10.1109/JPROC.2010.2040551|first1 = R.|last1 = Rubinstein|first2 = A.M.|last2 = Bruckstein|first3 = M.|last3 = Elad|citeseerx = 10.1.1.160.527|s2cid = 2176046}}</ref> यह अधिक शक्तिशाली सामान्यीकृत शब्दकोशों के निर्माण की अनुमति देता है जिन्हें संभावित रूप से मनमाने आकार के संकेतों के मामलों पर लागू किया जा सकता है। उल्लेखनीय दृष्टिकोणों में शामिल हैं: | ||
* अनुवाद-अपरिवर्तनीय शब्दकोश।<ref>{{Cite journal|title = विरल सिग्नल प्रतिनिधित्व के लिए इटरेटिव एलएस-आधारित डिक्शनरी लर्निंग एल्गोरिदम का परिवार, आईएलएस-डीएलए|journal = Digit. Signal Process.|date = 2007-01-01|issn = 1051-2004|pages = 32–49|volume = 17|issue = 1|doi = 10.1016/j.dsp.2006.02.002|first1 = Kjersti|last1 = Engan|author-link=Kjersti Engan|first2 = Karl|last2 = Skretting|first3 = John H\a akon|last3 = Husøy}}</ref> ये शब्दकोष परिमित आकार के | * अनुवाद-अपरिवर्तनीय शब्दकोश।<ref>{{Cite journal|title = विरल सिग्नल प्रतिनिधित्व के लिए इटरेटिव एलएस-आधारित डिक्शनरी लर्निंग एल्गोरिदम का परिवार, आईएलएस-डीएलए|journal = Digit. Signal Process.|date = 2007-01-01|issn = 1051-2004|pages = 32–49|volume = 17|issue = 1|doi = 10.1016/j.dsp.2006.02.002|first1 = Kjersti|last1 = Engan|author-link=Kjersti Engan|first2 = Karl|last2 = Skretting|first3 = John H\a akon|last3 = Husøy}}</ref> ये शब्दकोष परिमित आकार के संकेत पैच के लिए निर्मित शब्दकोष से उत्पन्न परमाणुओं के अनुवादों से बने हैं। यह परिणामी शब्दकोश को मनमाने आकार के संकेत के लिए एक प्रतिनिधित्व प्रदान करने की अनुमति देता है। | ||
* बहुस्तरीय शब्दकोश।<ref>{{Cite journal|title = छवि और वीडियो पुनर्स्थापन के लिए मल्टीस्केल विरल अभ्यावेदन सीखना|journal = Multiscale Modeling & Simulation|date = 2008-01-01|issn = 1540-3459|pages = 214–241|volume = 7|issue = 1|doi = 10.1137/070697653|first1 = J.|last1 = Mairal|first2 = G.|last2 = Sapiro|first3 = M.|last3 = Elad|citeseerx = 10.1.1.95.6239}}</ref> यह विधि एक ऐसे शब्दकोश के निर्माण पर केंद्रित है जो विरलता में सुधार के लिए अलग-अलग पैमाने के शब्दकोशों से बना है। | * बहुस्तरीय शब्दकोश।<ref>{{Cite journal|title = छवि और वीडियो पुनर्स्थापन के लिए मल्टीस्केल विरल अभ्यावेदन सीखना|journal = Multiscale Modeling & Simulation|date = 2008-01-01|issn = 1540-3459|pages = 214–241|volume = 7|issue = 1|doi = 10.1137/070697653|first1 = J.|last1 = Mairal|first2 = G.|last2 = Sapiro|first3 = M.|last3 = Elad|citeseerx = 10.1.1.95.6239}}</ref> यह विधि एक ऐसे शब्दकोश के निर्माण पर केंद्रित है जो विरलता में सुधार के लिए अलग-अलग पैमाने के शब्दकोशों से बना है। | ||
* विरल शब्दकोश।<ref>{{Cite journal|title = Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation|journal = IEEE Transactions on Signal Processing|date = 2010-03-01|issn = 1053-587X|pages = 1553–1564|volume = 58|issue = 3|doi = 10.1109/TSP.2009.2036477|first1 = R.|last1 = Rubinstein|first2 = M.|last2 = Zibulevsky|first3 = M.|last3 = Elad|citeseerx = 10.1.1.183.992|bibcode = 2010ITSP...58.1553R|s2cid = 7193037}}</ref> यह विधि न केवल विरल प्रतिनिधित्व प्रदान करने पर केंद्रित है बल्कि एक विरल शब्दकोश का निर्माण भी करती है जिसे अभिव्यक्ति द्वारा लागू किया जाता है <math>\mathbf{D} = \mathbf{B}\mathbf{A} </math> कहाँ <math>\mathbf{B}</math> यह कुछ पूर्व-परिभाषित विश्लेषणात्मक शब्दकोष है जिसमें तीव्र गणना जैसे वांछनीय गुण हैं <math>\mathbf{A}</math> एक विरल मैट्रिक्स है. इस तरह का सूत्रीकरण विरल दृष्टिकोणों के लचीलेपन के साथ विश्लेषणात्मक शब्दकोशों के तेजी से कार्यान्वयन को सीधे संयोजित करने की अनुमति देता है। | * विरल शब्दकोश।<ref>{{Cite journal|title = Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation|journal = IEEE Transactions on Signal Processing|date = 2010-03-01|issn = 1053-587X|pages = 1553–1564|volume = 58|issue = 3|doi = 10.1109/TSP.2009.2036477|first1 = R.|last1 = Rubinstein|first2 = M.|last2 = Zibulevsky|first3 = M.|last3 = Elad|citeseerx = 10.1.1.183.992|bibcode = 2010ITSP...58.1553R|s2cid = 7193037}}</ref> यह विधि न केवल विरल प्रतिनिधित्व प्रदान करने पर केंद्रित है बल्कि एक विरल शब्दकोश का निर्माण भी करती है जिसे अभिव्यक्ति द्वारा लागू किया जाता है <math>\mathbf{D} = \mathbf{B}\mathbf{A} </math> कहाँ <math>\mathbf{B}</math> यह कुछ पूर्व-परिभाषित विश्लेषणात्मक शब्दकोष है जिसमें तीव्र गणना जैसे वांछनीय गुण हैं <math>\mathbf{A}</math> एक विरल मैट्रिक्स है. इस तरह का सूत्रीकरण विरल दृष्टिकोणों के लचीलेपन के साथ विश्लेषणात्मक शब्दकोशों के तेजी से कार्यान्वयन को सीधे संयोजित करने की अनुमति देता है। | ||
=== ऑनलाइन शब्दकोश सीखना ([https://www.di.ens.fr/~fbach/mairal_icml09.pdf LASSO दृष्टिकोण]) === | === ऑनलाइन शब्दकोश सीखना ([https://www.di.ens.fr/~fbach/mairal_icml09.pdf LASSO दृष्टिकोण]) === | ||
विरल शब्दकोश सीखने के कई सामान्य दृष्टिकोण इस तथ्य पर निर्भर करते हैं कि संपूर्ण | विरल शब्दकोश सीखने के कई सामान्य दृष्टिकोण इस तथ्य पर निर्भर करते हैं कि संपूर्ण निविष्ट आँकड़ा <math>X</math> (या कम से कम एक बड़ा पर्याप्त प्रशिक्षण डेटासेट) एल्गोरिथम के लिए उपलब्ध है। हालाँकि, वास्तविक दुनिया के परिदृश्य में ऐसा नहीं हो सकता है क्योंकि निविष्ट आँकड़ा का आकार इसे मेमोरी में फिट करने के लिए बहुत बड़ा हो सकता है। दूसरा मामला जहां यह धारणा नहीं बनाई जा सकती वह तब है जब निविष्ट आँकड़ा [[स्ट्रीम (कंप्यूटिंग)]] के रूप में आता है। ऐसे मामले [[ऑनलाइन मशीन लर्निंग]] के अध्ययन के क्षेत्र में हैं जो अनिवार्य रूप से नए डेटा बिंदुओं पर मॉडल को पुनरावृत्त रूप से अपडेट करने का सुझाव देता है <math>x</math> उपलब्ध हो रहा है. | ||
एक शब्दकोश को ऑनलाइन तरीके से निम्नलिखित तरीके से सीखा जा सकता है:<ref>{{Cite journal|title = मैट्रिक्स फ़ैक्टराइज़ेशन और विरल कोडिंग के लिए ऑनलाइन शिक्षण|url = http://dl.acm.org/citation.cfm?id=1756006.1756008|journal = J. Mach. Learn. Res.|date = 2010-03-01|issn = 1532-4435|pages = 19–60|volume = 11|first1 = Julien|last1 = Mairal|first2 = Francis|last2 = Bach|first3 = Jean|last3 = Ponce|first4 = Guillermo|last4 = Sapiro|bibcode = 2009arXiv0908.0050M|arxiv = 0908.0050}}</ref> | एक शब्दकोश को ऑनलाइन तरीके से निम्नलिखित तरीके से सीखा जा सकता है:<ref>{{Cite journal|title = मैट्रिक्स फ़ैक्टराइज़ेशन और विरल कोडिंग के लिए ऑनलाइन शिक्षण|url = http://dl.acm.org/citation.cfm?id=1756006.1756008|journal = J. Mach. Learn. Res.|date = 2010-03-01|issn = 1532-4435|pages = 19–60|volume = 11|first1 = Julien|last1 = Mairal|first2 = Francis|last2 = Bach|first3 = Jean|last3 = Ponce|first4 = Guillermo|last4 = Sapiro|bibcode = 2009arXiv0908.0050M|arxiv = 0908.0050}}</ref> | ||
Line 101: | Line 102: | ||
== अनुप्रयोग == | == अनुप्रयोग == | ||
शब्दकोश सीखने की रूपरेखा, अर्थात् डेटा से सीखे गए कुछ आधार तत्वों का उपयोग करके इनपुट | शब्दकोश सीखने की रूपरेखा, अर्थात् डेटा से सीखे गए कुछ आधार तत्वों का उपयोग करके इनपुट संकेत का रैखिक अपघटन, ने विभिन्न छवि और वीडियो प्रसंस्करण कार्यों में अत्याधुनिक परिणाम प्राप्त किए हैं। इस तकनीक को वर्गीकरण समस्याओं पर इस तरह से लागू किया जा सकता है कि यदि हमने प्रत्येक वर्ग के लिए विशिष्ट शब्दकोश बनाए हैं, तो इनपुट संकेत को सबसे कम प्रतिनिधित्व के अनुरूप शब्दकोश ढूंढकर वर्गीकृत किया जा सकता है। | ||
इसमें ऐसे गुण भी हैं जो | इसमें ऐसे गुण भी हैं जो संकेत को दर्शाने के लिए उपयोगी हैं क्योंकि आम तौर पर कोई इनपुट संकेत के सार्थक भाग को विरल तरीके से प्रस्तुत करने के लिए एक शब्दकोश सीख सकता है लेकिन इनपुट में शोर का विरल प्रतिनिधित्व बहुत कम होगा।<ref>[[Michal Aharon|Aharon, M]], M Elad, and A Bruckstein. 2006. "[https://freddy.cs.technion.ac.il/wp-content/uploads/2017/12/K-SVD-An-Algorithm-for-Designing-Overcomplete.pdf K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation]." Signal Processing, IEEE Transactions on 54 (11): 4311-4322</ref> | ||
विरल शब्दकोश शिक्षण को विभिन्न छवि, वीडियो और ऑडियो प्रसंस्करण कार्यों के साथ-साथ बनावट संश्लेषण पर सफलतापूर्वक लागू किया गया है<ref>{{Cite journal|title = बनावट की विरल मॉडलिंग|journal = Journal of Mathematical Imaging and Vision|date = 2008-11-06|issn = 0924-9907|pages = 17–31|volume = 34|issue = 1|doi = 10.1007/s10851-008-0120-3|first = Gabriel|last = Peyré|s2cid = 15994546|url = https://hal.archives-ouvertes.fr/hal-00359747/file/08-JMIV-Peyre-SparseTextures.pdf}}</ref> और बिना पर्यवेक्षित क्लस्टरिंग।<ref>{{Cite book|url = http://www.computer.org/csdl/proceedings/cvpr/2010/6984/00/05539964-abs.html|publisher = IEEE Computer Society|date = 2010-01-01|location = Los Alamitos, CA, USA|isbn = 978-1-4244-6984-0|pages = 3501–3508|doi = 10.1109/CVPR.2010.5539964|first1 = Ignacio|last1 = Ramirez|first2 = Pablo|last2 = Sprechmann|first3 = Guillermo|last3 = Sapiro| title=2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition | chapter=Classification and clustering via dictionary learning with structured incoherence and shared features |s2cid = 206591234}}</ref> [[कंप्यूटर विज़न में बैग-ऑफ़-वर्ड्स मॉडल]] के साथ मूल्यांकन में|बैग-ऑफ़-वर्ड्स मॉडल,<ref>{{Cite journal|last1=Koniusz|first1=Piotr|last2=Yan|first2=Fei|last3=Mikolajczyk|first3=Krystian|date=2013-05-01|title=विज़ुअल कॉन्सेप्ट डिटेक्शन में मध्य-स्तरीय फीचर कोडिंग दृष्टिकोण और पूलिंग रणनीतियों की तुलना|journal=Computer Vision and Image Understanding|volume=117|issue=5|pages=479–492|doi=10.1016/j.cviu.2012.10.010|issn=1077-3142|citeseerx=10.1.1.377.3979}}</ref><ref>{{Cite journal|last1=Koniusz|first1=Piotr|last2=Yan|first2=Fei|last3=Gosselin|first3=Philippe Henri|last4=Mikolajczyk|first4=Krystian|date=2017-02-24|title=Higher-order occurrence pooling for bags-of-words: Visual concept detection|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=39|issue=2|pages=313–326|doi=10.1109/TPAMI.2016.2545667|pmid=27019477|issn=0162-8828|hdl=10044/1/39814|url=http://spiral.imperial.ac.uk/bitstream/10044/1/39814/2/pkpami2e-peter.pdf|hdl-access=free}}</ref> ऑब्जेक्ट श्रेणी पहचान कार्यों पर अन्य कोडिंग दृष्टिकोणों से बेहतर प्रदर्शन करने के लिए विरल कोडिंग को अनुभवजन्य रूप से पाया गया था। | विरल शब्दकोश शिक्षण को विभिन्न छवि, वीडियो और ऑडियो प्रसंस्करण कार्यों के साथ-साथ बनावट संश्लेषण पर सफलतापूर्वक लागू किया गया है<ref>{{Cite journal|title = बनावट की विरल मॉडलिंग|journal = Journal of Mathematical Imaging and Vision|date = 2008-11-06|issn = 0924-9907|pages = 17–31|volume = 34|issue = 1|doi = 10.1007/s10851-008-0120-3|first = Gabriel|last = Peyré|s2cid = 15994546|url = https://hal.archives-ouvertes.fr/hal-00359747/file/08-JMIV-Peyre-SparseTextures.pdf}}</ref> और बिना पर्यवेक्षित क्लस्टरिंग।<ref>{{Cite book|url = http://www.computer.org/csdl/proceedings/cvpr/2010/6984/00/05539964-abs.html|publisher = IEEE Computer Society|date = 2010-01-01|location = Los Alamitos, CA, USA|isbn = 978-1-4244-6984-0|pages = 3501–3508|doi = 10.1109/CVPR.2010.5539964|first1 = Ignacio|last1 = Ramirez|first2 = Pablo|last2 = Sprechmann|first3 = Guillermo|last3 = Sapiro| title=2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition | chapter=Classification and clustering via dictionary learning with structured incoherence and shared features |s2cid = 206591234}}</ref> [[कंप्यूटर विज़न में बैग-ऑफ़-वर्ड्स मॉडल]] के साथ मूल्यांकन में|बैग-ऑफ़-वर्ड्स मॉडल,<ref>{{Cite journal|last1=Koniusz|first1=Piotr|last2=Yan|first2=Fei|last3=Mikolajczyk|first3=Krystian|date=2013-05-01|title=विज़ुअल कॉन्सेप्ट डिटेक्शन में मध्य-स्तरीय फीचर कोडिंग दृष्टिकोण और पूलिंग रणनीतियों की तुलना|journal=Computer Vision and Image Understanding|volume=117|issue=5|pages=479–492|doi=10.1016/j.cviu.2012.10.010|issn=1077-3142|citeseerx=10.1.1.377.3979}}</ref><ref>{{Cite journal|last1=Koniusz|first1=Piotr|last2=Yan|first2=Fei|last3=Gosselin|first3=Philippe Henri|last4=Mikolajczyk|first4=Krystian|date=2017-02-24|title=Higher-order occurrence pooling for bags-of-words: Visual concept detection|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|volume=39|issue=2|pages=313–326|doi=10.1109/TPAMI.2016.2545667|pmid=27019477|issn=0162-8828|hdl=10044/1/39814|url=http://spiral.imperial.ac.uk/bitstream/10044/1/39814/2/pkpami2e-peter.pdf|hdl-access=free}}</ref> ऑब्जेक्ट श्रेणी पहचान कार्यों पर अन्य कोडिंग दृष्टिकोणों से बेहतर प्रदर्शन करने के लिए विरल कोडिंग को अनुभवजन्य रूप से पाया गया था। | ||
चिकित्सा संकेतों का विस्तार से विश्लेषण करने के लिए शब्दकोश सीखने का उपयोग किया जाता है। ऐसे चिकित्सा संकेतों में इलेक्ट्रोएन्सेफलोग्राफी (ईईजी), इलेक्ट्रोकार्डियोग्राफी (ईसीजी), चुंबकीय अनुनाद इमेजिंग (एमआरआई), कार्यात्मक एमआरआई (एफएमआरआई), निरंतर ग्लूकोज मॉनिटर शामिल हैं। <ref>{{Cite journal|last1=AlMatouq|first1=Ali|last2=LalegKirati|first2=TaousMeriem|last3=Novara|first3=Carlo|last4=Ivana|first4=Rabbone|last5=Vincent|first5=Tyrone|date=2019-03-15|title=सतत ग्लूकोज मॉनिटर्स का उपयोग करके ग्लूकोज फ्लक्स का विरल पुनर्निर्माण|journal=IEEE/ACM Transactions on Computational Biology and Bioinformatics|volume=17|issue=5|pages=1797–1809|doi=10.1109/TCBB.2019.2905198|pmid=30892232|issn=1545-5963|url=https://ieeexplore.ieee.org/document/8667648|hdl=10754/655914|s2cid=84185121|hdl-access=free}}</ref> और अल्ट्रासाउंड कंप्यूटर टोमोग्राफी (यूएससीटी), जहां प्रत्येक | चिकित्सा संकेतों का विस्तार से विश्लेषण करने के लिए शब्दकोश सीखने का उपयोग किया जाता है। ऐसे चिकित्सा संकेतों में इलेक्ट्रोएन्सेफलोग्राफी (ईईजी), इलेक्ट्रोकार्डियोग्राफी (ईसीजी), चुंबकीय अनुनाद इमेजिंग (एमआरआई), कार्यात्मक एमआरआई (एफएमआरआई), निरंतर ग्लूकोज मॉनिटर शामिल हैं। <ref>{{Cite journal|last1=AlMatouq|first1=Ali|last2=LalegKirati|first2=TaousMeriem|last3=Novara|first3=Carlo|last4=Ivana|first4=Rabbone|last5=Vincent|first5=Tyrone|date=2019-03-15|title=सतत ग्लूकोज मॉनिटर्स का उपयोग करके ग्लूकोज फ्लक्स का विरल पुनर्निर्माण|journal=IEEE/ACM Transactions on Computational Biology and Bioinformatics|volume=17|issue=5|pages=1797–1809|doi=10.1109/TCBB.2019.2905198|pmid=30892232|issn=1545-5963|url=https://ieeexplore.ieee.org/document/8667648|hdl=10754/655914|s2cid=84185121|hdl-access=free}}</ref> और अल्ट्रासाउंड कंप्यूटर टोमोग्राफी (यूएससीटी), जहां प्रत्येक संकेत का विश्लेषण करने के लिए विभिन्न मान्यताओं का उपयोग किया जाता है। | ||
== यह भी देखें == | == यह भी देखें == |
Revision as of 00:44, 5 August 2023
Part of a series on |
Machine learning and data mining |
---|
विरल शब्दकोश सीखना (जिसे विरल संकेतन या एसडीएल के रूप में भी जाना जाता है) एक प्रतिनिधित्व सीखने की विधि है जिसका उद्देश्य बुनियादी तत्वों के साथ-साथ उन बुनियादी तत्वों के रैखिक संयोजन के रूप में निविष्ट आँकड़े का विरल प्रतिनिधित्व ढूंढना है। इन तत्वों को परमाणु कहा जाता है और ये एक शब्दकोष की रचना करते हैं। शब्दकोश में परमाणुओं को लंबकोणीय आधार पर होना आवश्यक नहीं है, और वे एक अति-पूर्ण विस्तरित आकृति हो सकते हैं। यह समस्या व्यवस्था दर्शाए जा रहे संकेतों की आयामीता को देखे जा रहे संकेतों में से एक से अधिक होने की अनुमति भी देता है। उपरोक्त दो गुणों के कारण प्रतीत होता है कि निरर्थक परमाणु एक ही संकेत के कई प्रतिनिधित्व की अनुमति देते हैं, लेकिन प्रतिनिधित्व की विरलता और लचीलेपन में सुधार भी प्रदान करते हैं।
विरल शब्दकोश सीखने के सबसे महत्वपूर्ण अनुप्रयोगों में से एक संपीड़ित संवेदन या संकेत पुनर्प्राप्ति के क्षेत्र में है।संपीड़ित संवेदन में, एक उच्च-आयामी संकेत को केवल कुछ रैखिक मापों के साथ पुनर्प्राप्त किया जा सकता है, परंतु संकेत विरल या लगभग विरल हो। चूंकि सभी संकेत इस विरलता की स्थिति को संतुष्ट नहीं करते हैं, इसलिए उस संकेत का विरल प्रतिनिधित्व ढूंढना बहुत महत्वपूर्ण है जैसे तरंगिका परिवर्तन या रेखापुंज आव्यूह की दिशात्मक ढाल। एक बार जब आव्यूह या उच्च आयामी सदिश को एक विरल स्थान पर स्थानांतरित कर दिया जाता है, तो संकेत को पुनर्प्राप्त करने के लिए आधार खोज, कोसैंप[1] या तेज़ गैर-पुनरावृत्त कलन विधि[2] जैसे विभिन्न पुनर्प्राप्ति कलन विधि का उपयोग किया जा सकता है।
शब्दकोश सीखने का एक प्रमुख सिद्धांत यह है कि शब्दकोश का अनुमान निविष्ट आँकड़ा से लगाया जाना चाहिए। विरल शब्दकोश सीखने के तरीकों का उद्भव इस तथ्य से प्रेरित था कि संकेत संसाधन में कोई सामान्यता यथासंभव कम घटकों का उपयोग करके निविष्ट आँकड़ा का प्रतिनिधित्व करना चाहता है। इस दृष्टिकोण से पहले सामान्य अभ्यास पूर्वनिर्धारित शब्दकोशों (जैसे फूरियर या तरंगिका रूपांतरण ) का उपयोग करना था। हालाँकि, कुछ मामलों में एक शब्दकोश जिसे निविष्ट आँकड़ा को फिट करने के लिए प्रशिक्षित किया जाता है, विरलता में काफी सुधार कर सकता है, जिसमें डेटा अपघटन, संपीड़न और विश्लेषण में अनुप्रयोग होते हैं और इसका उपयोग छवि शोर में कमी और छवि वर्गीकरण, वीडियो और ऑडियो संकेत प्रोसेसिंग के क्षेत्र में किया गया है। विरलता और अतिपूर्ण शब्दकोशों का छवि संपीड़न, छवि संलयन और इनपेंटिंग में व्यापक अनुप्रयोग है।
समस्या कथन
निविष्ट आँकड़ासेट दिया गया हम एक शब्दकोश खोजना चाहते हैं और एक प्रतिनिधित्व ऐसे कि दोनों कम से कम किया गया है और प्रतिनिधित्व काफी विरल हैं. इसे निम्नलिखित अनुकूलन समस्या के रूप में तैयार किया जा सकता है:
, कहाँ ,
अंकुश लगाना आवश्यक है ताकि इसके परमाणु मनमाने ढंग से कम (लेकिन गैर-शून्य) मूल्यों की अनुमति देकर मनमाने ढंग से उच्च मूल्यों तक न पहुंचें . विरलता और न्यूनीकरण त्रुटि के बीच व्यापार को नियंत्रित करता है।
उपरोक्त न्यूनतमकरण समस्या L0 मानदंड|ℓ के कारण उत्तल नहीं है0- मानक और इस समस्या का समाधान एनपी-हार्ड है।[3] कुछ मामलों में L1-मानदंडL1-मानदंडL1-मानदंड|-मानदंड विरलता सुनिश्चित करने के लिए जाना जाता है[4] और इसलिए उपरोक्त प्रत्येक चर के संबंध में एक उत्तल अनुकूलन समस्या बन जाती है और जब दूसरा स्थिर हो, लेकिन वह संयुक्त रूप से उत्तल न हो .
शब्दकोश के गुण
शब्दकोष यदि ऊपर परिभाषित किया गया है तो वह अपूर्ण हो सकता है या मामले में अतिपूर्ण उत्तरार्द्ध एक विरल शब्दकोश सीखने की समस्या के लिए एक विशिष्ट धारणा है। संपूर्ण शब्दकोश का मामला प्रतिनिधित्वात्मक दृष्टिकोण से कोई सुधार प्रदान नहीं करता है और इसलिए इस पर विचार नहीं किया जाता है।
अपूर्ण शब्दकोश उस सेटअप का प्रतिनिधित्व करते हैं जिसमें वास्तविक निविष्ट आँकड़ा निम्न-आयामी स्थान में होता है। यह मामला आयामीता में कमी और प्रमुख घटक विश्लेषण जैसी तकनीकों से दृढ़ता से संबंधित है जिसके लिए परमाणुओं की आवश्यकता होती है ऑर्थोगोनल होना. कुशल आयामीता में कमी के लिए इन उप-स्थानों का चुनाव महत्वपूर्ण है, लेकिन यह मामूली नहीं है। और शब्दकोश प्रतिनिधित्व के आधार पर आयामीता में कमी को डेटा विश्लेषण या वर्गीकरण जैसे विशिष्ट कार्यों को संबोधित करने के लिए बढ़ाया जा सकता है। हालाँकि, उनका मुख्य नकारात्मक पक्ष परमाणुओं की पसंद को सीमित करना है।
हालाँकि, अपूर्ण शब्दकोशों के लिए परमाणुओं को ऑर्थोगोनल होने की आवश्यकता नहीं होती है (उनके पास कभी भी आधार (रैखिक बीजगणित) नहीं होगा) इस प्रकार अधिक लचीले शब्दकोशों और समृद्ध डेटा प्रतिनिधित्व की अनुमति मिलती है।
एक पूर्ण शब्दकोश जो संकेत के विरल प्रतिनिधित्व की अनुमति देता है वह एक प्रसिद्ध ट्रांसफॉर्म मैट्रिक्स (वेवलेट्स ट्रांसफॉर्म, फूरियर ट्रांसफॉर्म) हो सकता है या इसे तैयार किया जा सकता है ताकि इसके तत्वों को इस तरह से बदला जा सके कि यह दिए गए संकेत को सबसे अच्छे तरीके से प्रस्तुत करता है। सीखे गए शब्दकोष पूर्वनिर्धारित परिवर्तन मैट्रिक्स की तुलना में विरल समाधान देने में सक्षम हैं।
कलन विधि
जैसा कि ऊपर वर्णित अनुकूलन समस्या को शब्दकोश या विरल कोडिंग के संबंध में उत्तल समस्या के रूप में हल किया जा सकता है, जबकि दोनों में से एक को ठीक किया गया है, अधिकांश कलन विधि एक और फिर दूसरे को पुनरावृत्त रूप से अपडेट करने के विचार पर आधारित हैं।
इष्टतम विरल कोडिंग खोजने की समस्या किसी दिए गए शब्दकोश के साथ विरल सन्निकटन (या कभी-कभी केवल विरल कोडिंग समस्या) के रूप में जाना जाता है। इसे हल करने के लिए कई कलन विधि विकसित किए गए हैं (जैसे मिलान खोज और लैस्सो (सांख्यिकी)) और नीचे वर्णित कलन विधि में शामिल किए गए हैं।
इष्टतम दिशाओं की विधि (एमओडी)
इष्टतम दिशाओं की विधि (या एमओडी) विरल शब्दकोश सीखने की समस्या से निपटने के लिए शुरू की गई पहली विधियों में से एक थी।[5] इसका मूल विचार प्रतिनिधित्व वेक्टर के गैर-शून्य घटकों की सीमित संख्या के अधीन न्यूनतमकरण समस्या को हल करना है:
यहाँ, फ्रोबेनियस मानदंड को दर्शाता है। एमओडी मिलान खोज जैसी विधि का उपयोग करके विरल सन्निकटन प्राप्त करने और दी गई समस्या के विश्लेषणात्मक समाधान की गणना करके शब्दकोश को अद्यतन करने के बीच वैकल्पिक करता है। कहाँ एक मूर-पेनरोज़ छद्म व्युत्क्रम है|मूर-पेनरोज़ छद्म व्युत्क्रम। इस अपडेट के बाद बाधाओं को फिट करने के लिए पुनः सामान्यीकृत किया जाता है और नई विरल कोडिंग फिर से प्राप्त की जाती है। प्रक्रिया को अभिसरण तक (या पर्याप्त रूप से छोटे अवशेष तक) दोहराया जाता है।
निम्न-आयामी निविष्ट आँकड़ा के लिए MOD एक बहुत ही कुशल तरीका साबित हुआ है एकाग्र होने के लिए बस कुछ पुनरावृत्तियों की आवश्यकता है। हालाँकि, मैट्रिक्स-इनवर्जन ऑपरेशन की उच्च जटिलता के कारण, उच्च-आयामी मामलों में छद्म व्युत्क्रम की गणना करना कई मामलों में कठिन है। इस कमी ने अन्य शब्दकोश सीखने के तरीकों के विकास को प्रेरित किया है।
के-एसवीडी
के-एसवीडी एक एल्गोरिथ्म है जो शब्दकोश के परमाणुओं को एक-एक करके अद्यतन करने के लिए इसके मूल में एकवचन मूल्य अपघटन करता है और मूल रूप से K- का अर्थ है क्लस्टरिंग |के-मीन्स का सामान्यीकरण है। यह लागू करता है कि निविष्ट आँकड़ा का प्रत्येक तत्व से अधिक नहीं के एक रैखिक संयोजन द्वारा एन्कोड किया गया है तत्व एक तरह से MOD दृष्टिकोण के समान हैं:
इस एल्गोरिथम का सार सबसे पहले शब्दकोश को ठीक करना, सर्वोत्तम संभव खोजना है उपरोक्त बाधा के तहत (मिलान खोज#एक्सटेंशन का उपयोग करके) और फिर शब्दकोश के परमाणुओं को पुनरावृत्त रूप से अद्यतन करें निम्नलिखित तरीके से:
एल्गोरिथम के अगले चरणों में अवशिष्ट मैट्रिक्स का निम्न-रैंक सन्निकटन|रैंक-1 सन्निकटन शामिल है , अद्यतन कर रहा है और विरलता को लागू करना अद्यतन के बाद. इस कलन विधि को शब्दकोश सीखने के लिए मानक माना जाता है और इसका उपयोग विभिन्न अनुप्रयोगों में किया जाता है। हालाँकि, यह कमजोरियों को साझा करता है क्योंकि एमओडी केवल अपेक्षाकृत कम आयामीता वाले संकेतों के लिए कुशल है और स्थानीय न्यूनतम पर अटके रहने की संभावना है।
स्टोकेस्टिक ग्रेडिएंट डिसेंट
इस समस्या को हल करने के लिए कोई पुनरावृत्त प्रक्षेपण के साथ व्यापक स्टोकेस्टिक ग्रेडिएंट डीसेंट विधि भी लागू कर सकता है।[6][7] इस पद्धति का विचार पहले क्रम के स्टोकेस्टिक ग्रेडिएंट का उपयोग करके शब्दकोश को अद्यतन करना और इसे बाधा सेट पर प्रोजेक्ट करना है . i-वें पुनरावृत्ति पर होने वाला चरण इस अभिव्यक्ति द्वारा वर्णित है:
, कहाँ का एक यादृच्छिक उपसमुच्चय है और एक क्रमिक कदम है.
लैग्रेंज दोहरी विधि
द्वंद्व (अनुकूलन) को हल करने पर आधारित एक कलन विधि शब्दकोश को हल करने का एक कुशल तरीका प्रदान करता है जिसमें स्पार्सिटी फ़ंक्शन से प्रेरित कोई जटिलता नहीं होती है।[8] निम्नलिखित लैग्रेंजियन पर विचार करें:
, कहाँ परमाणुओं के मानदंड पर एक बाधा है और विकर्ण मैट्रिक्स बनाने वाले तथाकथित दोहरे चर हैं .
न्यूनतमकरण के बाद हम लैग्रेंज दोहरे के लिए एक विश्लेषणात्मक अभिव्यक्ति प्रदान कर सकते हैं :
.
अनुकूलन विधियों में से एक को दोहरे के मूल्य पर लागू करने के बाद (जैसे कि अनुकूलन में न्यूटन की विधि | न्यूटन की विधि या संयुग्मित ग्रेडिएंट विधि) हमें का मूल्य मिलता है :
दोहरे चर की मात्रा के कारण इस समस्या को हल करना कम कम्प्यूटेशनल कठिन है मूल समस्या में चरों की मात्रा से कई गुना कम है।
लैसो
इस दृष्टिकोण में, अनुकूलन समस्या इस प्रकार तैयार की गई है:
, कहाँ LASSO के पुनर्निर्माण में अनुमत त्रुटि है।
इसका एक अनुमान मिलता है L1-मानदंड के अधीन न्यूनतम वर्ग त्रुटि को न्यूनतम करकेL1-मानदंडL1-मानदंड|-समाधान वेक्टर में मानक बाधा, इस प्रकार तैयार की गई है:
, कहाँ विरलता और पुनर्निर्माण त्रुटि के बीच व्यापार-बंद को नियंत्रित करता है। यह वैश्विक इष्टतम समाधान देता है.[9] यह भी देखें स्पार्स कोडिंग के लिए ऑनलाइन शब्दकोश सीखना
पैरामीट्रिक प्रशिक्षण विधियाँ
पैरामीट्रिक प्रशिक्षण विधियों का उद्देश्य दोनों दुनियाओं के सर्वश्रेष्ठ को शामिल करना है - विश्लेषणात्मक रूप से निर्मित शब्दकोशों और सीखे गए शब्दकोशों का क्षेत्र।[10] यह अधिक शक्तिशाली सामान्यीकृत शब्दकोशों के निर्माण की अनुमति देता है जिन्हें संभावित रूप से मनमाने आकार के संकेतों के मामलों पर लागू किया जा सकता है। उल्लेखनीय दृष्टिकोणों में शामिल हैं:
- अनुवाद-अपरिवर्तनीय शब्दकोश।[11] ये शब्दकोष परिमित आकार के संकेत पैच के लिए निर्मित शब्दकोष से उत्पन्न परमाणुओं के अनुवादों से बने हैं। यह परिणामी शब्दकोश को मनमाने आकार के संकेत के लिए एक प्रतिनिधित्व प्रदान करने की अनुमति देता है।
- बहुस्तरीय शब्दकोश।[12] यह विधि एक ऐसे शब्दकोश के निर्माण पर केंद्रित है जो विरलता में सुधार के लिए अलग-अलग पैमाने के शब्दकोशों से बना है।
- विरल शब्दकोश।[13] यह विधि न केवल विरल प्रतिनिधित्व प्रदान करने पर केंद्रित है बल्कि एक विरल शब्दकोश का निर्माण भी करती है जिसे अभिव्यक्ति द्वारा लागू किया जाता है कहाँ यह कुछ पूर्व-परिभाषित विश्लेषणात्मक शब्दकोष है जिसमें तीव्र गणना जैसे वांछनीय गुण हैं एक विरल मैट्रिक्स है. इस तरह का सूत्रीकरण विरल दृष्टिकोणों के लचीलेपन के साथ विश्लेषणात्मक शब्दकोशों के तेजी से कार्यान्वयन को सीधे संयोजित करने की अनुमति देता है।
ऑनलाइन शब्दकोश सीखना (LASSO दृष्टिकोण)
विरल शब्दकोश सीखने के कई सामान्य दृष्टिकोण इस तथ्य पर निर्भर करते हैं कि संपूर्ण निविष्ट आँकड़ा (या कम से कम एक बड़ा पर्याप्त प्रशिक्षण डेटासेट) एल्गोरिथम के लिए उपलब्ध है। हालाँकि, वास्तविक दुनिया के परिदृश्य में ऐसा नहीं हो सकता है क्योंकि निविष्ट आँकड़ा का आकार इसे मेमोरी में फिट करने के लिए बहुत बड़ा हो सकता है। दूसरा मामला जहां यह धारणा नहीं बनाई जा सकती वह तब है जब निविष्ट आँकड़ा स्ट्रीम (कंप्यूटिंग) के रूप में आता है। ऐसे मामले ऑनलाइन मशीन लर्निंग के अध्ययन के क्षेत्र में हैं जो अनिवार्य रूप से नए डेटा बिंदुओं पर मॉडल को पुनरावृत्त रूप से अपडेट करने का सुझाव देता है उपलब्ध हो रहा है.
एक शब्दकोश को ऑनलाइन तरीके से निम्नलिखित तरीके से सीखा जा सकता है:[14]
- के लिए
- एक नया नमूना बनाएं
- न्यूनतम-कोण प्रतिगमन का उपयोग करके एक विरल कोडिंग ढूंढें:
- समन्वय वंश|ब्लॉक-कोऑर्डिनेट दृष्टिकोण का उपयोग करके शब्दकोश को अपडेट करें:
यह विधि हमें धीरे-धीरे शब्दकोश को अपडेट करने की अनुमति देती है क्योंकि नया डेटा विरल प्रतिनिधित्व सीखने के लिए उपलब्ध हो जाता है और डेटासेट (जिसका आकार अक्सर बड़ा होता है) को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा को काफी कम करने में मदद करता है।
अनुप्रयोग
शब्दकोश सीखने की रूपरेखा, अर्थात् डेटा से सीखे गए कुछ आधार तत्वों का उपयोग करके इनपुट संकेत का रैखिक अपघटन, ने विभिन्न छवि और वीडियो प्रसंस्करण कार्यों में अत्याधुनिक परिणाम प्राप्त किए हैं। इस तकनीक को वर्गीकरण समस्याओं पर इस तरह से लागू किया जा सकता है कि यदि हमने प्रत्येक वर्ग के लिए विशिष्ट शब्दकोश बनाए हैं, तो इनपुट संकेत को सबसे कम प्रतिनिधित्व के अनुरूप शब्दकोश ढूंढकर वर्गीकृत किया जा सकता है।
इसमें ऐसे गुण भी हैं जो संकेत को दर्शाने के लिए उपयोगी हैं क्योंकि आम तौर पर कोई इनपुट संकेत के सार्थक भाग को विरल तरीके से प्रस्तुत करने के लिए एक शब्दकोश सीख सकता है लेकिन इनपुट में शोर का विरल प्रतिनिधित्व बहुत कम होगा।[15] विरल शब्दकोश शिक्षण को विभिन्न छवि, वीडियो और ऑडियो प्रसंस्करण कार्यों के साथ-साथ बनावट संश्लेषण पर सफलतापूर्वक लागू किया गया है[16] और बिना पर्यवेक्षित क्लस्टरिंग।[17] कंप्यूटर विज़न में बैग-ऑफ़-वर्ड्स मॉडल के साथ मूल्यांकन में|बैग-ऑफ़-वर्ड्स मॉडल,[18][19] ऑब्जेक्ट श्रेणी पहचान कार्यों पर अन्य कोडिंग दृष्टिकोणों से बेहतर प्रदर्शन करने के लिए विरल कोडिंग को अनुभवजन्य रूप से पाया गया था।
चिकित्सा संकेतों का विस्तार से विश्लेषण करने के लिए शब्दकोश सीखने का उपयोग किया जाता है। ऐसे चिकित्सा संकेतों में इलेक्ट्रोएन्सेफलोग्राफी (ईईजी), इलेक्ट्रोकार्डियोग्राफी (ईसीजी), चुंबकीय अनुनाद इमेजिंग (एमआरआई), कार्यात्मक एमआरआई (एफएमआरआई), निरंतर ग्लूकोज मॉनिटर शामिल हैं। [20] और अल्ट्रासाउंड कंप्यूटर टोमोग्राफी (यूएससीटी), जहां प्रत्येक संकेत का विश्लेषण करने के लिए विभिन्न मान्यताओं का उपयोग किया जाता है।
यह भी देखें
- विरल सन्निकटन
- विरल पीसीए
- के-एसवीडी
- मैट्रिक्स गुणनखंडन
- विरल कोडिंग
संदर्भ
- ↑ Needell, D.; Tropp, J.A. (2009). "CoSaMP: Iterative signal recovery from incomplete and inaccurate samples". Applied and Computational Harmonic Analysis. 26 (3): 301–321. arXiv:0803.2392. doi:10.1016/j.acha.2008.07.002.
- ↑ Lotfi, M.; Vidyasagar, M."A Fast Non-iterative Algorithm for Compressive Sensing Using Binary Measurement Matrices"
- ↑ A. M. Tillmann, "On the Computational Intractability of Exact and Approximate Dictionary Learning", IEEE Signal Processing Letters 22(1), 2015: 45–49.
- ↑ Donoho, David L. (2006-06-01). "For most large underdetermined systems of linear equations the minimal 𝓁1-norm solution is also the sparsest solution". Communications on Pure and Applied Mathematics. 59 (6): 797–829. doi:10.1002/cpa.20132. ISSN 1097-0312. S2CID 8510060.
- ↑ Engan, K.; Aase, S.O.; Hakon Husoy, J. (1999-01-01). "Method of optimal directions for frame design". 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No.99CH36258). Vol. 5. pp. 2443–2446 vol.5. doi:10.1109/ICASSP.1999.760624. ISBN 978-0-7803-5041-0. S2CID 33097614.
- ↑ Aharon, Michal; Elad, Michael (2008). "छवि-हस्ताक्षर-शब्दकोश का उपयोग करके छवि सामग्री की विरल और निरर्थक मॉडलिंग". SIAM Journal on Imaging Sciences. 1 (3): 228–247. CiteSeerX 10.1.1.298.6982. doi:10.1137/07070156x.
- ↑ Pintér, János D. (2000-01-01). Yair Censor and Stavros A. Zenios, Parallel Optimization — Theory, Algorithms, and Applications. Oxford University Press, New York/Oxford, 1997, xxviii+539 pages. (US $ 85.00). pp. 107–108. doi:10.1023/A:1008311628080. ISBN 978-0-19-510062-4. ISSN 0925-5001. S2CID 22475558.
{{cite book}}
:|journal=
ignored (help) - ↑ Lee, Honglak, et al. "Efficient sparse coding algorithms." Advances in neural information processing systems. 2006.
- ↑ Kumar, Abhay; Kataria, Saurabh. "उत्तल अनुकूलन का उपयोग करके छवि प्रसंस्करण में शब्दकोश शिक्षण आधारित अनुप्रयोग" (PDF).
- ↑ Rubinstein, R.; Bruckstein, A.M.; Elad, M. (2010-06-01). "विरल प्रतिनिधित्व मॉडलिंग के लिए शब्दकोश". Proceedings of the IEEE. 98 (6): 1045–1057. CiteSeerX 10.1.1.160.527. doi:10.1109/JPROC.2010.2040551. ISSN 0018-9219. S2CID 2176046.
- ↑ Engan, Kjersti; Skretting, Karl; Husøy, John H\a akon (2007-01-01). "विरल सिग्नल प्रतिनिधित्व के लिए इटरेटिव एलएस-आधारित डिक्शनरी लर्निंग एल्गोरिदम का परिवार, आईएलएस-डीएलए". Digit. Signal Process. 17 (1): 32–49. doi:10.1016/j.dsp.2006.02.002. ISSN 1051-2004.
- ↑ Mairal, J.; Sapiro, G.; Elad, M. (2008-01-01). "छवि और वीडियो पुनर्स्थापन के लिए मल्टीस्केल विरल अभ्यावेदन सीखना". Multiscale Modeling & Simulation. 7 (1): 214–241. CiteSeerX 10.1.1.95.6239. doi:10.1137/070697653. ISSN 1540-3459.
- ↑ Rubinstein, R.; Zibulevsky, M.; Elad, M. (2010-03-01). "Double Sparsity: Learning Sparse Dictionaries for Sparse Signal Approximation". IEEE Transactions on Signal Processing. 58 (3): 1553–1564. Bibcode:2010ITSP...58.1553R. CiteSeerX 10.1.1.183.992. doi:10.1109/TSP.2009.2036477. ISSN 1053-587X. S2CID 7193037.
- ↑ Mairal, Julien; Bach, Francis; Ponce, Jean; Sapiro, Guillermo (2010-03-01). "मैट्रिक्स फ़ैक्टराइज़ेशन और विरल कोडिंग के लिए ऑनलाइन शिक्षण". J. Mach. Learn. Res. 11: 19–60. arXiv:0908.0050. Bibcode:2009arXiv0908.0050M. ISSN 1532-4435.
- ↑ Aharon, M, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation." Signal Processing, IEEE Transactions on 54 (11): 4311-4322
- ↑ Peyré, Gabriel (2008-11-06). "बनावट की विरल मॉडलिंग" (PDF). Journal of Mathematical Imaging and Vision. 34 (1): 17–31. doi:10.1007/s10851-008-0120-3. ISSN 0924-9907. S2CID 15994546.
- ↑ Ramirez, Ignacio; Sprechmann, Pablo; Sapiro, Guillermo (2010-01-01). "Classification and clustering via dictionary learning with structured incoherence and shared features". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Los Alamitos, CA, USA: IEEE Computer Society. pp. 3501–3508. doi:10.1109/CVPR.2010.5539964. ISBN 978-1-4244-6984-0. S2CID 206591234.
- ↑ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (2013-05-01). "विज़ुअल कॉन्सेप्ट डिटेक्शन में मध्य-स्तरीय फीचर कोडिंग दृष्टिकोण और पूलिंग रणनीतियों की तुलना". Computer Vision and Image Understanding. 117 (5): 479–492. CiteSeerX 10.1.1.377.3979. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
- ↑ Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017-02-24). "Higher-order occurrence pooling for bags-of-words: Visual concept detection" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313–326. doi:10.1109/TPAMI.2016.2545667. hdl:10044/1/39814. ISSN 0162-8828. PMID 27019477.
- ↑ AlMatouq, Ali; LalegKirati, TaousMeriem; Novara, Carlo; Ivana, Rabbone; Vincent, Tyrone (2019-03-15). "सतत ग्लूकोज मॉनिटर्स का उपयोग करके ग्लूकोज फ्लक्स का विरल पुनर्निर्माण". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 17 (5): 1797–1809. doi:10.1109/TCBB.2019.2905198. hdl:10754/655914. ISSN 1545-5963. PMID 30892232. S2CID 84185121.