क्रॉस एन्ट्रापी

From Vigyanwiki
Revision as of 15:35, 8 July 2023 by alpha>Indicwiki (Created page with "{{Short description|Information theory measure}} {{Information theory}} सूचना सिद्धांत में, दो संभाव्यता वितर...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

सूचना सिद्धांत में, दो संभाव्यता वितरणों के बीच क्रॉस-एन्ट्रॉपी और यदि सेट के लिए उपयोग की जाने वाली कोडिंग योजना अनुमानित संभाव्यता वितरण के लिए अनुकूलित है, तो घटनाओं के समान अंतर्निहित सेट पर सेट से खींची गई घटना की पहचान करने के लिए आवश्यक अंश ्स की औसत संख्या को मापता है। , वास्तविक वितरण के बजाय .

परिभाषा

वितरण की क्रॉस-एन्ट्रॉपी वितरण के सापेक्ष किसी दिए गए सेट को इस प्रकार परिभाषित किया गया है:

,

कहाँ वितरण के संबंध में अपेक्षित मूल्य ऑपरेटर है .

परिभाषा कुल्बैक-लीब्लर विचलन का उपयोग करके तैयार की जा सकती है , का विचलन से (की सापेक्ष एन्ट्रापी के रूप में भी जाना जाता है इसके संबंध में ).

कहाँ की सूचना एन्ट्रापी है .

असतत यादृच्छिक चर संभाव्यता वितरण के लिए और उसी समर्थन के साथ (माप सिद्धांत) इसका मतलब यह है

 

 

 

 

(Eq.1)

निरंतर यादृच्छिक चर वितरण की स्थिति अनुरूप है। हमें यह मानना ​​होगा और कुछ संदर्भ माप (गणित) के संबंध में बिल्कुल निरंतर हैं (आम तौर पर बोरेल सेट सिग्मा-बीजगणित|σ-बीजगणित) पर एक लेब्सेग माप है। होने देना और की संभाव्यता घनत्व फलन हो और इसके संबंध में . तब

और इसलिए

 

 

 

 

(Eq.2)

एनबी: संकेतन का उपयोग एक अलग अवधारणा, संयुक्त एन्ट्रापी के लिए भी किया जाता है और .

प्रेरणा

सूचना सिद्धांत में, क्राफ्ट की असमानता | क्राफ्ट-मैकमिलन प्रमेय स्थापित करता है कि एक मूल्य की पहचान करने के लिए किसी संदेश को कोड करने के लिए कोई भी सीधे डिकोड करने योग्य कोडिंग योजना संभावनाओं के एक सेट से बाहर इसे एक अंतर्निहित संभाव्यता वितरण का प्रतिनिधित्व करने के रूप में देखा जा सकता है ऊपर , कहाँ के लिए कोड की लंबाई है टुकड़ों में. इसलिए, गलत वितरण होने पर क्रॉस-एन्ट्रॉपी की व्याख्या प्रति डेटा अपेक्षित संदेश-लंबाई के रूप में की जा सकती है मान लिया गया है जबकि डेटा वास्तव में एक वितरण का अनुसरण करता है . इसीलिए अपेक्षा को वास्तविक संभाव्यता वितरण पर ले लिया जाता है और नहीं . वास्तव में वास्तविक वितरण के तहत अपेक्षित संदेश-लंबाई है


अनुमान

ऐसी कई स्थितियाँ हैं जहाँ क्रॉस-एन्ट्रॉपी को मापने की आवश्यकता है लेकिन वितरण अज्ञात है। एक उदाहरण भाषा मॉडलिंग है, जहां एक प्रशिक्षण सेट के आधार पर एक मॉडल बनाया जाता है , और फिर इसकी क्रॉस-एन्ट्रॉपी को एक परीक्षण सेट पर मापा जाता है ताकि यह आकलन किया जा सके कि परीक्षण डेटा की भविष्यवाणी करने में मॉडल कितना सटीक है। इस उदाहरण में, किसी भी कोष में शब्दों का वास्तविक वितरण है, और मॉडल द्वारा अनुमानित शब्दों का वितरण है। चूँकि वास्तविक वितरण अज्ञात है, क्रॉस-एन्ट्रापी की सीधे गणना नहीं की जा सकती। इन मामलों में, क्रॉस-एन्ट्रॉपी के अनुमान की गणना निम्नलिखित सूत्र का उपयोग करके की जाती है:

कहाँ परीक्षण सेट का आकार है, और घटना की संभावना है प्रशिक्षण सेट से अनुमान लगाया गया। दूसरे शब्दों में, मॉडल का संभाव्यता अनुमान है कि पाठ का i-वां शब्द है . राशि का औसत निकाला जाता है परीक्षण के शब्द. यह वास्तविक क्रॉस-एन्ट्रॉपी की एक मोंटे कार्लो विधि है, जहां परीक्षण सेट को नमूने के रूप में माना जाता है [citation needed].

अधिकतम संभावना से संबंध

वर्गीकरण समस्याओं में हम विभिन्न परिणामों की संभावना का अनुमान लगाना चाहते हैं। मान लीजिए परिणाम की अनुमानित संभावना है होना अनुकूलित मापदंडों के साथ और परिणाम की आवृत्ति (अनुभवजन्य संभाव्यता) दें प्रशिक्षण सेट में हो . प्रशिक्षण सेट में एन सशर्त रूप से स्वतंत्र नमूनों को देखते हुए, मापदंडों की संभावना मॉडल का प्रशिक्षण सेट पर है

जहां अंतिम अभिव्यक्ति बहुपद पीएमएफ की परिभाषा के कारण है। इसलिए, लॉग-संभावना, से विभाजित है है

ताकि मापदंडों के संबंध में अधिकतम संभावना अनुमान लगाया जा सके क्रॉस-एन्ट्रॉपी को कम करने के समान है।[citation needed]

क्रॉस-एन्ट्रॉपी न्यूनतमकरण

क्रॉस-एन्ट्रॉपी न्यूनतमकरण का उपयोग अक्सर अनुकूलन और दुर्लभ-घटना संभाव्यता आकलन में किया जाता है। किसी वितरण की तुलना करते समय एक निश्चित संदर्भ वितरण के विरुद्ध , क्रॉस-एन्ट्रॉपी और कुल्बैक-लीब्लर विचलन एक योगात्मक स्थिरांक तक समान हैं (चूंकि निश्चित है): गिब्स की असमानता के अनुसार, जब दोनों अपने न्यूनतम मान लेते हैं , जो है केएल विचलन के लिए, और क्रॉस-एन्ट्रॉपी के लिए. इंजीनियरिंग साहित्य में, केएल विचलन को कम करने के सिद्धांत (कुलबैक के कुलबैक-लीबलर विचलन#न्यूनतम भेदभाव जानकारी का सिद्धांत) को अक्सर न्यूनतम क्रॉस-एन्ट्रॉपी (एमसीई), या मिनक्सेंट का सिद्धांत कहा जाता है।

हालाँकि, जैसा कि लेख कुल्बैक-लीब्लर डाइवर्जेंस में चर्चा की गई है, कभी-कभी वितरण निश्चित पूर्व संदर्भ वितरण, और वितरण है के करीब होने के लिए अनुकूलित किया गया है यथासंभव, कुछ बाधाओं के अधीन। इस मामले में दोनों न्यूनतमकरण समतुल्य नहीं हैं। इससे साहित्य में कुछ अस्पष्टता पैदा हो गई है, कुछ लेखकों ने क्रॉस-एन्ट्रॉपी को पुनः स्थापित करके असंगतता को हल करने का प्रयास किया है। , इसके बजाय . वास्तव में, क्रॉस-एंट्रॉपी सापेक्ष एन्ट्रॉपी का दूसरा नाम है, कवर और थॉमस देखें [1] और अच्छा।[2] वहीं दूसरी ओर, साहित्य से सहमत नहीं है और भ्रामक हो सकता है।

क्रॉस-एन्ट्रॉपी हानि फ़ंक्शन और लॉजिस्टिक रिग्रेशन

यंत्र अधिगम और अनुकूलन में हानि फ़ंक्शन को परिभाषित करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग किया जा सकता है। सच्ची संभावना सही लेबल और दिया गया वितरण है वर्तमान मॉडल का अनुमानित मूल्य है। इसे लॉग लॉस (या लॉगरिदमिक लॉस) के रूप में भी जाना जाता है[3] या रसद हानि);[4] लॉग लॉस और क्रॉस-एन्ट्रॉपी लॉस शब्द परस्पर विनिमय के लिए उपयोग किए जाते हैं।[5] अधिक विशेष रूप से, एक द्विआधारी प्रतिगमन मॉडल पर विचार करें जिसका उपयोग टिप्पणियों को दो संभावित वर्गों में वर्गीकृत करने के लिए किया जा सकता है (अक्सर बस लेबल किया जाता है) और ). किसी दिए गए अवलोकन के लिए मॉडल का आउटपुट, इनपुट सुविधाओं का एक वेक्टर दिया गया है , एक संभाव्यता के रूप में व्याख्या की जा सकती है, जो अवलोकन को वर्गीकृत करने के आधार के रूप में कार्य करती है। संभार तन्त्र परावर्तन में, संभावना को लॉजिस्टिक फ़ंक्शन का उपयोग करके मॉडल किया जाता है कहाँ इनपुट वेक्टर का कुछ कार्य है , आमतौर पर सिर्फ एक रैखिक कार्य। आउटपुट की संभावना द्वारा दिया गया है

जहां वजन का वेक्टर कुछ उपयुक्त एल्गोरिदम जैसे कि ढतला हुआ वंश के माध्यम से अनुकूलित किया गया है। इसी प्रकार, आउटपुट खोजने की पूरक संभावना बस द्वारा दिया गया है

अपना अंकन स्थापित करने के बाद, और , हम बीच असमानता का माप प्राप्त करने के लिए क्रॉस-एन्ट्रॉपी का उपयोग कर सकते हैं और :

लॉजिस्टिक रिग्रेशन आम तौर पर उन सभी अवलोकनों के लिए लॉग लॉस को अनुकूलित करता है जिन पर इसे प्रशिक्षित किया जाता है, जो नमूने में औसत क्रॉस-एन्ट्रॉपी को अनुकूलित करने के समान है। उदाहरण के लिए, मान लीजिए हमारे पास है प्रत्येक नमूने के साथ नमूने अनुक्रमित . हानि फ़ंक्शन का औसत तब दिया जाता है:

कहाँ , साथ पहले की तरह लॉजिस्टिक फ़ंक्शन।

लॉजिस्टिक हानि को कभी-कभी क्रॉस-एन्ट्रॉपी हानि कहा जाता है। इसे लॉग लॉस के रूप में भी जाना जाता है (इस मामले में, बाइनरी लेबल को अक्सर {−1,+1} द्वारा दर्शाया जाता है)।[6] टिप्पणी: लॉजिस्टिक रिग्रेशन के लिए क्रॉस-एन्ट्रॉपी हानि का ग्रेडिएंट रैखिक रिग्रेशन के लिए वर्ग त्रुटि हानि के ग्रेडिएंट के समान है। यानी परिभाषित करें

फिर हमारे पास परिणाम है

प्रमाण इस प्रकार है. किसी के लिए , अपने पास

इसी तरह, हम अंततः वांछित परिणाम प्राप्त करते हैं।

यह भी देखें

संदर्भ

  1. Thomas M. Cover, Joy A. Thomas, Elements of Information Theory, 2nd Edition, Wiley, p. 80
  2. I. J. Good, Maximum Entropy for Hypothesis Formulation, Especially for Multidimensional Contingency Table, Ann. of Math. Statistics, 1963
  3. The Mathematics of Information Coding, Extraction and Distribution, by George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82
  4. Probability for Machine Learning: Discover How To Harness Uncertainty With Python, Jason Brownlee, 2019, p. 220: "Logistic loss refers to the loss function commonly used to optimize a logistic regression model. It may also be referred to as logarithmic loss (which is confusing) or simply log loss."
  5. sklearn.metrics.log_loss
  6. Murphy, Kevin (2012). Machine Learning: A Probabilistic Perspective. MIT. ISBN 978-0262018029.


बाहरी संबंध