क्रॉस एन्ट्रापी: Difference between revisions
(Created page with "{{Short description|Information theory measure}} {{Information theory}} सूचना सिद्धांत में, दो संभाव्यता वितर...") |
No edit summary |
||
Line 1: | Line 1: | ||
{{Short description|Information theory measure}} | {{Short description|Information theory measure}} | ||
{{Information theory}} | {{Information theory}} | ||
[[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों के | [[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों के मध्य तिर्यक्-एन्ट्रॉपी <math>p</math> और <math>q</math> यदि समुच्चय के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक [[ अंश ]]्स की औसत संख्या को मापता है। <math>q</math>, वास्तविक वितरण के बजाय <math>p</math>. | ||
== परिभाषा == | == परिभाषा == | ||
वितरण की | वितरण की तिर्यक्-एन्ट्रॉपी <math>q</math> वितरण के सापेक्ष <math>p</math> किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है: | ||
:<math>H(p, q) = -\operatorname{E}_p[\log q]</math>, | :<math>H(p, q) = -\operatorname{E}_p[\log q]</math>, | ||
जहाँ <math>E_p[\cdot]</math> वितरण के संबंध में [[अपेक्षित मूल्य|अपेक्षित मान]] ऑपरेटर है <math>p</math>. | |||
परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है <math>D_{\mathrm{KL}}(p \parallel q)</math>, का विचलन <math>p</math> से <math>q</math> (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है <math>p</math> इसके संबंध में <math>q</math>). | परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है <math>D_{\mathrm{KL}}(p \parallel q)</math>, का विचलन <math>p</math> से <math>q</math> (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है <math>p</math> इसके संबंध में <math>q</math>). | ||
:<math>H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),</math> | :<math>H(p, q) = H(p) + D_{\mathrm{KL}}(p \parallel q),</math> | ||
जहाँ <math>H(p)</math> की [[सूचना एन्ट्रापी]] है <math>p</math>. | |||
[[असतत यादृच्छिक चर]] संभाव्यता वितरण के लिए <math>p</math> और <math>q</math> उसी समर्थन के साथ (माप सिद्धांत) <math>\mathcal{X}</math> इसका | [[असतत यादृच्छिक चर]] संभाव्यता वितरण के लिए <math>p</math> और <math>q</math> उसी समर्थन के साथ (माप सिद्धांत) <math>\mathcal{X}</math> इसका अर्थ यह है | ||
{{Equation box 1 | {{Equation box 1 | ||
Line 26: | Line 26: | ||
|background colour=#F5FFFA}} | |background colour=#F5FFFA}} | ||
[[निरंतर यादृच्छिक चर]] वितरण की स्थिति अनुरूप है। हमें यह मानना होगा <math>p</math> और <math>q</math> कुछ संदर्भ [[माप (गणित)]] के संबंध में [[बिल्कुल निरंतर]] हैं <math>r</math> ( | [[निरंतर यादृच्छिक चर]] वितरण की स्थिति अनुरूप है। हमें यह मानना होगा <math>p</math> और <math>q</math> कुछ संदर्भ [[माप (गणित)]] के संबंध में [[बिल्कुल निरंतर]] हैं <math>r</math> (सामान्यतः <math>r</math> [[बोरेल सेट|बोरेल समुच्चय]] सिग्मा-बीजगणित|σ-बीजगणित) पर एक [[लेब्सेग माप]] है। मान लीजिए कि <math>P</math> और <math>Q</math> की संभाव्यता घनत्व फलन हो <math>p</math> और <math>q</math> इसके संबंध में <math>r</math>. तब | ||
:<math>-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]</math> | :<math>-\int_\mathcal{X} P(x)\, \log Q(x)\, dr(x) = \operatorname{E}_p[-\log Q]</math> | ||
Line 43: | Line 43: | ||
== प्रेरणा == | == प्रेरणा == | ||
सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक | सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना <math>x_i</math> संभावनाओं के एक समुच्चय से बाहर <math>\{x_1,\ldots,x_n\}</math> इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है <math>q(x_i) = \left(\frac{1}{2}\right)^{\ell_i}</math> ऊपर <math>\{x_1, \ldots, x_n\}</math>, जहाँ <math>\ell_i</math> के लिए कोड की लंबाई है <math>x_i</math> टुकड़ों में. इसलिए, गलत वितरण होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संदेश-लंबाई के रूप में की जा सकती है <math>q</math> मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण का अनुसरण करता है <math>p</math>. इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है <math>p</math> और नहीं <math>q</math>. वास्तव में वास्तविक वितरण के अंतर्गत अपेक्षित संदेश-लंबाई <math>p</math> है | ||
:<math> \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i) = -\sum_x p(x)\, \log_2 q(x) = H(p, q). </math> | :<math> \operatorname{E}_p[\ell] = - \operatorname{E}_p\left[\frac{\ln{q(x)}}{\ln(2)}\right] = - \operatorname{E}_p\left[\log_2 {q(x)}\right] = - \sum_{x_i} p(x_i)\, \log_2 q(x_i) = -\sum_x p(x)\, \log_2 q(x) = H(p, q). </math> | ||
Line 49: | Line 49: | ||
== अनुमान == | == अनुमान == | ||
ऐसी कई स्थितियाँ हैं जहाँ | ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण <math>p</math> अज्ञात है। एक उदाहरण [[भाषा मॉडल|भाषा निदर्श]]िंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श बनाया जाता है <math>T</math>, और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, <math>p</math> किसी भी कोष में शब्दों का वास्तविक वितरण है, और <math>q</math> निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है: | ||
:<math>H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)</math> | :<math>H(T,q) = -\sum_{i=1}^N \frac{1}{N} \log_2 q(x_i)</math> | ||
जहाँ <math>N</math> परीक्षण समुच्चय का आकार है, और <math>q(x)</math> घटना की संभावना है <math>x</math> प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, <math>q(x_i)</math> निदर्श का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है <math>x_i</math>. राशि का औसत निकाला जाता है <math>N</math> परीक्षण के शब्द. यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक [[मोंटे कार्लो विधि]] है, जहां परीक्षण समुच्चय को निदर्श के रूप में माना जाता है <math>p(x)</math>{{Citation needed|reason=Needs to be proved|date=May 2019}}. | |||
== अधिकतम संभावना से संबंध == | == अधिकतम संभावना से संबंध == | ||
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है <math>i</math> होना <math>q_{\theta}(X=i)</math> अनुकूलित मापदंडों के साथ <math>\theta</math> और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें <math>i</math> प्रशिक्षण | वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है <math>i</math> होना <math>q_{\theta}(X=i)</math> अनुकूलित मापदंडों के साथ <math>\theta</math> और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें <math>i</math> प्रशिक्षण समुच्चय में हो <math>p(X=i)</math>. | ||
प्रशिक्षण | प्रशिक्षण समुच्चय में एन [[सशर्त रूप से स्वतंत्र]] निदर्शो को देखते हुए, मापदंडों की [[संभावना]] <math>\theta</math> निदर्श का <math>q_{\theta}(X=x)</math> प्रशिक्षण समुच्चय पर है | ||
:<math>\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}</math> | :<math>\mathcal{L}(\theta)=\prod_{i \in X} (\mbox{est. probability of } i)^{\mbox{number of occurrences of } i} = \prod_i q_{\theta}(X=i)^{N p(X=i)}</math> | ||
Line 63: | Line 63: | ||
:<math>\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)</math> | :<math>\frac{1}{N}\log(\mathcal{L}(\theta))=\frac{1}{N} \log \prod_i q_{\theta}(X=i)^{N p(X=i)} = \sum_i p(X=i) \log q_{\theta}(X=i) = -H(p, q)</math> | ||
ताकि मापदंडों के संबंध में [[अधिकतम संभावना अनुमान]] लगाया जा सके <math>\theta</math> | ताकि मापदंडों के संबंध में [[अधिकतम संभावना अनुमान]] लगाया जा सके <math>\theta</math> तिर्यक्-एन्ट्रॉपी को कम करने के समान है।{{Citation needed|date=November 2022}} | ||
== | == तिर्यक्-एन्ट्रॉपी न्यूनतमकरण == | ||
{{Main| | {{Main|क्रॉस-एन्ट्रॉपी विधि}} | ||
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण <math>q</math> की तुलना करते समय एक निश्चित संदर्भ वितरण <math>p</math> के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि <math>p</math> निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए, और <math>\mathrm{H}(p)</math> तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान <math>p = q</math> लेते हैं, जो <math>0</math> है। इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है। | |||
हालाँकि, जैसा कि लेख | हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण <math>q</math> निश्चित पूर्व संदर्भ वितरण और वितरण <math>p</math> है। यथासंभव, <math>q</math> कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी <math>D_{\mathrm{KL}}(p \parallel q)</math> और इसके बजाय <math>H(p, q)</math> को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस <ref>Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80 </ref> और अच्छा देखें।<ref> I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963</ref> वहीं दूसरी ओर, <math>H(p, q)</math> साहित्य से सहमत नहीं है और भ्रामक हो सकता है। | ||
== | == तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण == | ||
[[ यंत्र अधिगम ]] और [[अनुकूलन]] में हानि | [[ यंत्र अधिगम |यंत्र अधिगम]] और [[अनुकूलन]] में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना <math>p_i</math> वास्तविक लेबल और दिया गया वितरण <math>q_i</math> है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है;<ref>''The Mathematics of Information Coding, Extraction and Distribution'', by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, [https://books.google.com/books?id=jDrp4QEGioMC&dq=%22logarithmic+loss%22+%22log+loss%22&pg=PA82 p. 82]</ref> लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।<ref>[https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html sklearn.metrics.log_loss]</ref> | ||
अधिक विशेष रूप से, एक [[ द्विआधारी प्रतिगमन ]] | |||
अधिक विशेष रूप से, एक [[ द्विआधारी प्रतिगमन |द्विआधारी प्रतिक्रमण]] निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल <math>0</math> और <math>1</math> लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश <math> x </math> दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। [[लॉजिस्टिक फ़ंक्शन|तार्किक]] प्रतिक्रमण में, संभावना को [[लॉजिस्टिक फ़ंक्शन|तार्किक फलन]] <math>g(z) = 1/(1+e^{-z})</math> का उपयोग करके निदर्श किया जाता है जहाँ <math> z </math> निविष्टि सदिश के कुछ फलन <math>x</math> है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना <math>y=1</math> द्वारा दी गयी है। | |||
: <math>q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},</math> | : <math>q_{y=1} = \hat{y} \equiv g(\mathbf{w}\cdot\mathbf{x}) = \frac 1 {1+e^{-\mathbf{w}\cdot\mathbf{x}}},</math> | ||
जहां | जहां भार का सदिश <math>\mathbf{w}</math> को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल <math>y=0</math> द्वारा दी गयी है। | ||
: <math>q_{y=0} = 1-\hat{y}</math> | : <math>q_{y=0} = 1-\hat{y}</math> | ||
अपना अंकन स्थापित करने के बाद, <math>p\in\{y,1-y\}</math> और <math>q\in\{\hat{y},1-\hat{y}\}</math>, हम | अपना अंकन स्थापित करने के बाद, <math>p\in\{y,1-y\}</math> और <math>q\in\{\hat{y},1-\hat{y}\}</math>, हम <math>p</math> और <math>q</math> के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं: | ||
:<math>H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})</math> | :<math>H(p,q)\ =\ -\sum_i p_i\log q_i\ =\ -y\log\hat{y} - (1-y)\log(1-\hat{y})</math> | ||
तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, <math>N</math> प्रत्येक निदर्श के साथ निदर्श अनुक्रमित <math>n=1,\dots,N</math> है। हानि फलन का औसत तब दिया जाता है: | |||
: <math>\begin{align} | : <math>\begin{align} | ||
J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n \log \hat y_n + (1 - y_n) \log (1 - \hat y_n)\bigg]\,, | J(\mathbf{w})\ &=\ \frac1N\sum_{n=1}^N H(p_n,q_n)\ =\ -\frac1N\sum_{n=1}^N\ \bigg[y_n \log \hat y_n + (1 - y_n) \log (1 - \hat y_n)\bigg]\,, | ||
\end{align}</math> | \end{align}</math> | ||
जहाँ <math>\hat{y}_n\equiv g(\mathbf{w}\cdot\mathbf{x}_n) = 1/(1+e^{-\mathbf{w}\cdot\mathbf{x}_n}) </math>, <math>g(z)</math> के साथ पहले की तरह तार्किक फलन है। | |||
तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।<ref>{{cite book |last1=Murphy |first1=Kevin|date=2012 |title=Machine Learning: A Probabilistic Perspective |publisher=MIT |isbn=978-0262018029 }}</ref> | |||
टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें: | |||
टिप्पणी: | |||
:<math>X^T=\begin{pmatrix} | :<math>X^T=\begin{pmatrix} | ||
Line 98: | Line 100: | ||
: <math>\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}</math> | : <math>\hat{y_i} = \hat{f}(x_{i1},\dots,x_{ip}) = \frac{1}{1+\exp(-\beta_0-\beta_1x_{i1}-\dots-\beta_px_{ip})}</math> | ||
: <math>L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]</math> | : <math>L(\overrightarrow{\beta})=-\sum_{i=1}^N [y_i\log \hat{y}_i+(1-y_i)\log(1-\hat{y}_i)]</math> | ||
फिर हमारे पास परिणाम है | फिर हमारे पास परिणाम है: | ||
: <math>\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)</math> | : <math>\frac{\partial}{\partial\overrightarrow{\beta}}L(\overrightarrow{\beta})=X^T(\hat{Y}-Y)</math> | ||
प्रमाण इस प्रकार | प्रमाण इस प्रकार है। किसी <math>\hat{y}_i</math> के लिए, अपने पास है: | ||
: <math>\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}</math> | : <math>\frac{\partial}{\partial\beta_0}\ln\frac{1}{1+e^{-\beta_0+k_0}} = \frac{e^{-\beta_0+k_0}}{1+e^{-\beta_0+k_0}}</math> | ||
Line 115: | Line 117: | ||
== यह भी देखें == | == यह भी देखें == | ||
* [[क्रॉस-एन्ट्रॉपी विधि]] | * [[क्रॉस-एन्ट्रॉपी विधि|तिर्यक्-एन्ट्रॉपी विधि]] | ||
* | * तार्किक प्रतिक्रमण | ||
* [[सशर्त एन्ट्रापी]] | * [[सशर्त एन्ट्रापी|प्रतिबंधी एन्ट्रापी]] | ||
* अधिकतम संभावना अनुमान | * अधिकतम संभावना अनुमान | ||
*[[आपसी जानकारी]] | *[[आपसी जानकारी|परस्पर सूचना]] | ||
== संदर्भ == | == संदर्भ == |
Revision as of 06:59, 18 July 2023
Information theory |
---|
![]() |
सूचना सिद्धांत में, दो संभाव्यता वितरणों के मध्य तिर्यक्-एन्ट्रॉपी और यदि समुच्चय के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक अंश ्स की औसत संख्या को मापता है। , वास्तविक वितरण के बजाय .
परिभाषा
वितरण की तिर्यक्-एन्ट्रॉपी वितरण के सापेक्ष किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:
- ,
जहाँ वितरण के संबंध में अपेक्षित मान ऑपरेटर है .
परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है , का विचलन से (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है इसके संबंध में ).
जहाँ की सूचना एन्ट्रापी है .
असतत यादृच्छिक चर संभाव्यता वितरण के लिए और उसी समर्थन के साथ (माप सिद्धांत) इसका अर्थ यह है
|
(Eq.1) |
निरंतर यादृच्छिक चर वितरण की स्थिति अनुरूप है। हमें यह मानना होगा और कुछ संदर्भ माप (गणित) के संबंध में बिल्कुल निरंतर हैं (सामान्यतः बोरेल समुच्चय सिग्मा-बीजगणित|σ-बीजगणित) पर एक लेब्सेग माप है। मान लीजिए कि और की संभाव्यता घनत्व फलन हो और इसके संबंध में . तब
और इसलिए
|
(Eq.2) |
एनबी: संकेतन का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी के लिए भी किया जाता है और .
प्रेरणा
सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना संभावनाओं के एक समुच्चय से बाहर इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है ऊपर , जहाँ के लिए कोड की लंबाई है टुकड़ों में. इसलिए, गलत वितरण होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संदेश-लंबाई के रूप में की जा सकती है मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण का अनुसरण करता है . इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है और नहीं . वास्तव में वास्तविक वितरण के अंतर्गत अपेक्षित संदेश-लंबाई है
अनुमान
ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण अज्ञात है। एक उदाहरण भाषा निदर्शिंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श बनाया जाता है , और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, किसी भी कोष में शब्दों का वास्तविक वितरण है, और निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:
जहाँ परीक्षण समुच्चय का आकार है, और घटना की संभावना है प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, निदर्श का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है . राशि का औसत निकाला जाता है परीक्षण के शब्द. यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण समुच्चय को निदर्श के रूप में माना जाता है [citation needed].
अधिकतम संभावना से संबंध
वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है होना अनुकूलित मापदंडों के साथ और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें प्रशिक्षण समुच्चय में हो . प्रशिक्षण समुच्चय में एन सशर्त रूप से स्वतंत्र निदर्शो को देखते हुए, मापदंडों की संभावना निदर्श का प्रशिक्षण समुच्चय पर है
जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना, से विभाजित है है
ताकि मापदंडों के संबंध में अधिकतम संभावना अनुमान लगाया जा सके तिर्यक्-एन्ट्रॉपी को कम करने के समान है।[citation needed]
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण
तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण की तुलना करते समय एक निश्चित संदर्भ वितरण के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए, और तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान लेते हैं, जो है। इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है।
हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण निश्चित पूर्व संदर्भ वितरण और वितरण है। यथासंभव, कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी और इसके बजाय को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस [1] और अच्छा देखें।[2] वहीं दूसरी ओर, साहित्य से सहमत नहीं है और भ्रामक हो सकता है।
तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण
यंत्र अधिगम और अनुकूलन में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना वास्तविक लेबल और दिया गया वितरण है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है;[3] लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।[4]
अधिक विशेष रूप से, एक द्विआधारी प्रतिक्रमण निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल और लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। तार्किक प्रतिक्रमण में, संभावना को तार्किक फलन का उपयोग करके निदर्श किया जाता है जहाँ निविष्टि सदिश के कुछ फलन है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना द्वारा दी गयी है।
जहां भार का सदिश को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल द्वारा दी गयी है।
अपना अंकन स्थापित करने के बाद, और , हम और के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:
तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, प्रत्येक निदर्श के साथ निदर्श अनुक्रमित है। हानि फलन का औसत तब दिया जाता है:
जहाँ , के साथ पहले की तरह तार्किक फलन है।
तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।[5]
टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:
फिर हमारे पास परिणाम है:
प्रमाण इस प्रकार है। किसी के लिए, अपने पास है:
इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।
यह भी देखें
- तिर्यक्-एन्ट्रॉपी विधि
- तार्किक प्रतिक्रमण
- प्रतिबंधी एन्ट्रापी
- अधिकतम संभावना अनुमान
- परस्पर सूचना
संदर्भ
- ↑ Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80
- ↑ I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963
- ↑ The Mathematics of Information Coding, Extraction and Distribution, by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82
- ↑ sklearn.metrics.log_loss
- ↑ Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.