क्रॉस एन्ट्रापी: Difference between revisions

Latest revision as of 16:14, 25 July 2023

सूचना सिद्धांत में, दो संभाव्यता वितरणों $p$ और $q$ के मध्य तिर्यक्-एन्ट्रॉपी यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण $p$ के बजाय संभाव्यता वितरण $q$ के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक अंश की औसत संख्या को मापता है।

परिभाषा

वितरण $q$ की तिर्यक्-एन्ट्रॉपी वितरण $p$ के सापेक्ष किसी दिए गए समुच्चय को इस प्रकार परिभाषित किया गया है:

H(p,q)=-\operatorname {E} _{p}[\log q]

जहाँ $E_{p}[\cdot ]$ वितरण $p$ के संबंध में अपेक्षित मान संचालक है।

परिभाषा कुल्बैक-लीब्लर विचलन $D_{\mathrm {KL} }(p\parallel q)$ का उपयोग करके तैयार की जा सकती है, विचलन $p$ से $q$ का (इसके संबंध में $q$ , $p$ की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है)।

H(p,q)=H(p)+D_{\mathrm {KL} }(p\parallel q),

जहाँ $H(p)$ की एन्ट्रापी $p$ है।

असतत संभाव्यता वितरण $p$ और $q$ के लिए, उसी समर्थन ${\mathcal {X}}$ के साथ (माप सिद्धांत) इसका अर्थ यह है:

H(P,Q)=-\sum _{x\in {\mathcal {X}}}p(x)\,\log q(x)

(Eq.1)

सतत वितरण की स्थिति समान है। हमें यह मानना होगा कि कुछ संदर्भ माप $r$ के संबंध में $p$ और $q$ बिल्कुल सतत हैं (सामान्यतः $r$ बोरेल σ-बीजगणित पर एक लेब्सेग माप है। मान लीजिए कि $P$ और $Q$ , $p$ और $q$ के संभाव्यता घनत्व फलन $r$ हैं। तब

-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)=\operatorname {E} _{p}[-\log Q]

और इसलिए

H(p,q)=-\int _{\mathcal {X}}P(x)\,\log Q(x)\,dr(x)

(Eq.2)

एनबी: संकेतन $H(p,q)$ का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी $p$ और $q$ के लिए भी किया जाता है।

प्रेरणा

सूचना सिद्धांत में, क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मान की पहचान करने के लिए किसी संकेत को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडन योजना $x_{i}$ संभावनाओं के एक समुच्चय से बाहर $\{x_{1},\ldots ,x_{n}\}$ को एक अंतर्निहित संभाव्यता वितरण $q(x_{i})=\left({\frac {1}{2}}\right)^{\ell _{i}}$ के ऊपर $\{x_{1},\ldots ,x_{n}\}$ का प्रतिनिधित्व करने के रूप में देखा जा सकता है, जहाँ $\ell _{i}$ के लिए कोड की लंबाई $x_{i}$ द्वयंकों में है। इसलिए, गलत वितरण $q$ होने पर तिर्यक्-एन्ट्रॉपी की व्याख्या प्रति प्रदत्त अपेक्षित संकेत-लंबाई के रूप में की जा सकती है, मान लिया गया है जबकि प्रदत्त वास्तव में एक वितरण $p$ का अनुसरण करता है। इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण $p$ पर ले लिया जाता है और $q$ पर नहीं। वास्तव में वास्तविक वितरण $p$ के अंतर्गत अपेक्षित संकेत-लंबाई है।

\operatorname {E} _{p}[\ell ]=-\operatorname {E} _{p}\left[{\frac {\ln {q(x)}}{\ln(2)}}\right]=-\operatorname {E} _{p}\left[\log _{2}{q(x)}\right]=-\sum _{x_{i}}p(x_{i})\,\log _{2}q(x_{i})=-\sum _{x}p(x)\,\log _{2}q(x)=H(p,q).

अनुमान

ऐसी कई स्थितियाँ हैं जहाँ तिर्यक्-एन्ट्रॉपी को मापने की आवश्यकता है परन्तु वितरण $p$ अज्ञात है। एक उदाहरण भाषा मॉडलिंग है, जहां एक प्रशिक्षण समुच्चय के आधार पर एक निदर्श $T$ बनाया जाता है और फिर इसकी तिर्यक्-एन्ट्रॉपी को एक परीक्षण समुच्चय पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण प्रदत्त की भविष्यवाणी करने में निदर्श कितना सटीक है। इस उदाहरण में, $p$ किसी भी कोष में शब्दों का वास्तविक वितरण है, और $q$ निदर्श द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, तिर्यक्-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन स्थितियों में, तिर्यक्-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:

H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})

जहाँ $N$ परीक्षण समुच्चय का आकार और $q(x)$ घटना की प्रायिकता $x$ है, प्रशिक्षण समुच्चय से अनुमान लगाया गया। दूसरे शब्दों में, $q(x_{i})$ निदर्श का प्रायिकता अनुमान है कि पाठ का i-वां शब्द $x_{i}$ है। $N$ परीक्षण के शब्द के योग का औसत निकाला जाता है। यह वास्तविक तिर्यक्-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण समुच्चय को निदर्श $p(x)$ के रूप में माना जाता है।^{[citation needed]}

अधिकतम संभावना से संबंध

वर्गीकरण समस्याओं में हम विभिन्न परिणामों की प्रायिकता का अनुमान लगाना चाहते हैं। मान लीजिए कि परिणाम की अनुमानित प्रायिकता $i$ है, $q_{\theta }(X=i)$ अनुकूलित किए जाने वाले मापदंडों $\theta$ के साथ और परिणाम की आवृत्ति (अनुभवजन्य प्रायिकता), $i$ प्रशिक्षण में समुच्चय $p(X=i)$ हैं। प्रशिक्षण समुच्चय में N सशर्त रूप से स्वतंत्र निदर्शो को देखते हुए, मापदंडों $\theta$ की प्रायिकता का निदर्श $q_{\theta }(X=x)$ प्रशिक्षण समुच्चय पर है।

{\mathcal {L}}(\theta )=\prod _{i\in X}({\mbox{est. probability of }}i)^{{\mbox{number of occurrences of }}i}=\prod _{i}q_{\theta }(X=i)^{Np(X=i)}

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना से विभाजित $N$ है।

{\frac {1}{N}}\log({\mathcal {L}}(\theta ))={\frac {1}{N}}\log \prod _{i}q_{\theta }(X=i)^{Np(X=i)}=\sum _{i}p(X=i)\log q_{\theta }(X=i)=-H(p,q)

ताकि मापदंडों $\theta$ के संबंध में संभावना को अधिकतम किया जा सके, तिर्यक्-एन्ट्रॉपी को कम करने के समान है।^{[citation needed]}

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण का उपयोग प्रायः अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण $q$ की तुलना करते समय एक निश्चित संदर्भ वितरण $p$ के विरुद्ध, तिर्यक्-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि $p$ निश्चित है): गिब्स की असमानता के अनुसार, केएल विचलन के लिए और $\mathrm {H} (p)$ तिर्यक्-एन्ट्रॉपी के लिए, जब दोनों अपने न्यूनतम मान $p=q$ लेते हैं, जो $0$ है। अभियांत्रिकी साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुल्बैक के "न्यूनतम विभेदन सूचना का सिद्धांत") को प्रायः न्यूनतम तिर्यक्-एन्ट्रॉपी (MCE), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख में चर्चा की गई है कुल्बैक-लीब्लर विचलन, कभी-कभी वितरण $q$ निश्चित पूर्व संदर्भ वितरण और वितरण $p$ है। यथासंभव, $q$ कुछ बाधाओं के अधीन समीप होने के लिए अनुकूलित किया गया है। इस स्थिति में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता उत्पन्न हो गई है, कुछ लेखकों ने तिर्यक्-एन्ट्रॉपी $D_{\mathrm {KL} }(p\parallel q)$ और इसके बजाय $H(p,q)$ को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। वास्तव में, तिर्यक्-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस ^[1] और अच्छा देखें।^[2] वहीं दूसरी ओर, $H(p,q)$ साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण

यंत्र अधिगम और अनुकूलन में हानि फलनों को परिभाषित करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग किया जा सकता है। वास्तविक संभावना $p_{i}$ वास्तविक लेबल और दिया गया वितरण $q_{i}$ है। वर्तमान निदर्श का अनुमानित मान है। इसे लॉग हानि (या लघुगणक हानि या तार्किक हानि) के रूप में भी जाना जाता है;^[3] लॉग हानि और तिर्यक्-एन्ट्रॉपी हानि शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।^[4]

अधिक विशेष रूप से, एक द्विआधारी प्रतिक्रमण निदर्श पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (प्रायः केवल $0$ और $1$ लेबल किया जाता है)। किसी दिए गए अवलोकन के लिए निदर्श का प्रेक्षण, निविष्टि सुविधाओं का एक सदिश $x$ दिया गया है, एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। तार्किक प्रतिक्रमण में, संभावना को तार्किक फलन $g(z)=1/(1+e^{-z})$ का उपयोग करके निदर्श किया जाता है जहाँ $z$ निविष्टि सदिश के कुछ फलन $x$ है, सामान्यतः केवल एक रैखिक फलन है। प्रेक्षण की संभावना $y=1$ द्वारा दी गयी है।

q_{y=1}={\hat {y}}\equiv g(\mathbf {w} \cdot \mathbf {x} )={\frac {1}{1+e^{-\mathbf {w} \cdot \mathbf {x} }}},

जहां भार का सदिश $\mathbf {w}$ को प्रवणता अवरोहांक जैसे कुछ उपयुक्त कलन विधियों के माध्यम से अनुकूलित किया गया है। इसी प्रकार, प्रेक्षण खोजने की पूरक संभावना केवल $y=0$ द्वारा दी गयी है।

q_{y=0}=1-{\hat {y}}

अपना अंकन स्थापित करने के बाद, $p\in \{y,1-y\}$ और $q\in \{{\hat {y}},1-{\hat {y}}\}$ , हम $p$ और $q$ के मध्य असमानता का माप प्राप्त करने के लिए तिर्यक्-एन्ट्रॉपी का उपयोग कर सकते हैं:

H(p,q)\ =\ -\sum _{i}p_{i}\log q_{i}\ =\ -y\log {\hat {y}}-(1-y)\log(1-{\hat {y}})

तार्किक प्रतिक्रमण सामान्यतः उन सभी अवलोकनों के लिए लॉग हानि को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो निदर्श में औसत तिर्यक्-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास, $N$ प्रत्येक निदर्श के साथ निदर्श अनुक्रमित $n=1,\dots ,N$ है। हानि फलन का औसत तब दिया जाता है:

{\begin{aligned}J(\mathbf {w} )\ &=\ {\frac {1}{N}}\sum _{n=1}^{N}H(p_{n},q_{n})\ =\ -{\frac {1}{N}}\sum _{n=1}^{N}\ {\bigg [}y_{n}\log {\hat {y}}_{n}+(1-y_{n})\log(1-{\hat {y}}_{n}){\bigg ]}\,,\end{aligned}}

जहाँ ${\hat {y}}_{n}\equiv g(\mathbf {w} \cdot \mathbf {x} _{n})=1/(1+e^{-\mathbf {w} \cdot \mathbf {x} _{n}})$ , $g(z)$ के साथ पहले की तरह तार्किक फलन है।

तार्किक हानि को कभी-कभी तिर्यक्-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग हानि के रूप में भी जाना जाता है (इस स्थिति में, द्वि-आधारी लेबल को प्रायः {−1,+1} द्वारा दर्शाया जाता है)।^[5]

टिप्पणी: तार्किक प्रतिक्रमण के लिए तिर्यक्-एन्ट्रॉपी हानि का प्रवणता रैखिक प्रतिक्रमण के लिए वर्ग त्रुटि हानि के प्रवणता के समान है। अर्थात परिभाषित करें:

X^{T}={\begin{pmatrix}1&x_{11}&\dots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &&\vdots \\1&x_{n1}&\cdots &x_{np}\\\end{pmatrix}}\in \mathbb {R} ^{n\times (p+1)}

{\hat {y_{i}}}={\hat {f}}(x_{i1},\dots ,x_{ip})={\frac {1}{1+\exp(-\beta _{0}-\beta _{1}x_{i1}-\dots -\beta _{p}x_{ip})}}

L({\overrightarrow {\beta }})=-\sum _{i=1}^{N}[y_{i}\log {\hat {y}}_{i}+(1-y_{i})\log(1-{\hat {y}}_{i})]

फिर हमारे पास परिणाम है:

{\frac {\partial }{\partial {\overrightarrow {\beta }}}}L({\overrightarrow {\beta }})=X^{T}({\hat {Y}}-Y)

प्रमाण इस प्रकार है। किसी ${\hat {y}}_{i}$ के लिए, अपने पास है:

{\frac {\partial }{\partial \beta _{0}}}\ln {\frac {1}{1+e^{-\beta _{0}+k_{0}}}}={\frac {e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}}

{\frac {\partial }{\partial \beta _{0}}}\ln \left(1-{\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right)={\frac {-1}{1+e^{-\beta _{0}+k_{0}}}}

{\begin{aligned}{\frac {\partial }{\partial \beta _{0}}}L({\overrightarrow {\beta }})&=-\sum _{i=1}^{N}\left[{\frac {y_{i}\cdot e^{-\beta _{0}+k_{0}}}{1+e^{-\beta _{0}+k_{0}}}}-(1-y_{i}){\frac {1}{1+e^{-\beta _{0}+k_{0}}}}\right]\\&=-\sum _{i=1}^{N}[y_{i}-{\hat {y}}_{i}]=\sum _{i=1}^{N}({\hat {y}}_{i}-y_{i})\end{aligned}}

{\frac {\partial }{\partial \beta _{1}}}\ln {\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}={\frac {x_{i1}e^{k_{1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}}

{\frac {\partial }{\partial \beta _{1}}}\ln \left[1-{\frac {1}{1+e^{-\beta _{1}x_{i1}+k_{1}}}}\right]={\frac {-x_{i1}e^{\beta _{1}x_{i1}}}{e^{\beta _{1}x_{i1}}+e^{k_{1}}}}

{\frac {\partial }{\partial \beta _{1}}}L({\overrightarrow {\beta }})=-\sum _{i=1}^{N}x_{i1}(y_{i}-{\hat {y}}_{i})=\sum _{i=1}^{N}x_{i1}({\hat {y}}_{i}-y_{i})

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

तिर्यक्-एन्ट्रॉपी विधि
तार्किक प्रतिक्रमण
प्रतिबंधी एन्ट्रापी
अधिकतम संभावना अनुमान
परस्पर सूचना

संदर्भ

↑ Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80
↑ I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963
↑ The Mathematics of Information Coding, Extraction and Distribution, by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82
↑ sklearn.metrics.log_loss
↑ Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.

बाहरी संबंध

Cross Entropy

[1] Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80

[2] I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963

[3] The Mathematics of Information Coding, Extraction and Distribution, by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82

[4] sklearn.metrics.log_loss

[5] Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.

[1]

[2]

[3]

[4]

[5]

@@ Line 1: / Line 1: @@
 {{Short description|Information theory measure}}
 {{Information theory}}
-[[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों <math>p</math> और <math>q</math> के मध्य तिर्यक्-एन्ट्रॉपी यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण  <math>p</math> के बजाय संभाव्यता वितरण <math>q</math> के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक [[ अंश |अंश]] की औसत संख्या को मापता है।
+[[सूचना सिद्धांत]] में, दो संभाव्यता वितरणों <math>p</math> और <math>q</math> के मध्य '''तिर्यक्-एन्ट्रॉपी''' यदि समुच्चय के लिए उपयोग की जाने वाली कोडन योजना अनुमानित वास्तविक वितरण  <math>p</math> के बजाय संभाव्यता वितरण <math>q</math> के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित समुच्चय पर समुच्चय से खींची गई घटना की पहचान करने के लिए आवश्यक [[ अंश |अंश]] की औसत संख्या को मापता है।
 == परिभाषा ==
@@ Line 129: / Line 129: @@
 * [http://heliosphan.org/cross-entropy.html Cross Entropy]
-{{DEFAULTSORT:Cross Entropy}}[[Category: एन्ट्रापी और सूचना]] [[Category: हानि कार्य]]
+{{DEFAULTSORT:Cross Entropy}}
+[[Category:All articles with unsourced statements|Cross Entropy]]
+[[Category:Articles with hatnote templates targeting a nonexistent page|Cross Entropy]]
-[[Category: Machine Translated Page]]
+[[Category:Articles with invalid date parameter in template|Cross Entropy]]
-[[Category:Created On 08/07/2023]]
+[[Category:Articles with unsourced statements from नवंबर 2022|Cross Entropy]]
+[[Category:Articles with unsourced statements from मई 2019|Cross Entropy]]
+[[Category:Created On 08/07/2023|Cross Entropy]]
+[[Category:Lua-based templates|Cross Entropy]]
+[[Category:Machine Translated Page|Cross Entropy]]
+[[Category:Pages with script errors|Cross Entropy]]
+[[Category:Templates Vigyan Ready|Cross Entropy]]
+[[Category:Templates that add a tracking category|Cross Entropy]]
+[[Category:Templates that generate short descriptions|Cross Entropy]]
+[[Category:Templates using TemplateData|Cross Entropy]]
+[[Category:एन्ट्रापी और सूचना|Cross Entropy]]
+[[Category:हानि कार्य|Cross Entropy]]

Anonymous

Search

क्रॉस एन्ट्रापी: Difference between revisions

Namespaces

More

Page actions

Latest revision as of 16:14, 25 July 2023

Contents

परिभाषा

प्रेरणा

अनुमान

अधिकतम संभावना से संबंध

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

क्रॉस एन्ट्रापी: Difference between revisions

Latest revision as of 16:14, 25 July 2023

परिभाषा

प्रेरणा

अनुमान

अधिकतम संभावना से संबंध

तिर्यक्-एन्ट्रॉपी न्यूनतमकरण

तिर्यक्-एन्ट्रॉपी हानि फलन और तार्किक प्रतिक्रमण

यह भी देखें

संदर्भ

बाहरी संबंध

Navigation

Wiki tools

Page tools

Other projects

Categories