शैनन का सोर्स कोडिंग थेरोम

From Vigyanwiki

सूचना सिद्धांत में, शैनन का स्रोत कोडिंग प्रमेय (या नीरव कोडिंग प्रमेय) संभावित डेटा संपीड़न की सीमा और शैनन एन्ट्रॉपी के परिचालन अर्थ को स्थापित करता है।

क्लाउड शैनन के नाम पर, स्रोत कोडिंग प्रमेय से पता चलता है (सीमा में, स्वतंत्र और समान रूप से वितरित यादृच्छिक चर (i.i.d.) डेटा की धारा की लंबाई अनंत तक जाती है) डेटा को इस तरह संपीड़ित करना असंभव है इसे संपीड़ित करना असंभव है कि कोड दर (प्रति प्रतीक बिट्स की औसत संख्या) स्रोत की शैनन एन्ट्रॉपी से कम है, यह लगभग निश्चित नहीं है कि जानकारी लुप्त हों गयी है। चूँकि, नुकसान की नगण्य संभावना के साथ, कोड दर को अव्यवस्थिततः ढंग से शैनन एन्ट्रापी के समीप प्राप्त करना संभव होता है।

प्रतीक कोड के लिए स्रोत कोडिंग प्रमेय इनपुट शब्द की एन्ट्रॉपी (जिसे एक यादृच्छिक चर के रूप में देखा जाता है) और लक्ष्य वर्णमाला के आकार का एक फलन के रूप में कोडवर्ड की न्यूनतम संभावित अपेक्षित लंबाई पर एक ऊपरी और निचली सीमा रखता है।

कथन

स्रोत कोडिंग एक सूचना स्रोत से प्रतीकों (एक अनुक्रम) को वर्णमाला प्रतीकों को (सामान्यतः बिट्स) अनुक्रम की मैपिंग करता है, जिससे की स्रोत प्रतीकों को बाइनरी बिट्स (दोषरहित स्रोत कोडिंग) से बिल्कुल पुनर्प्राप्त किया जा सके या कुछ विरूपण के भीतर पुनर्प्राप्त किया जा सके (हानिपूर्ण स्रोत कोडिंग)। डेटा संपीड़न के पीछे यही अवधारणा होती है।

स्रोत कोडिंग प्रमेय

सूचना सिद्धांत में, स्रोत कोडिंग प्रमेय (शैनन 1948)[1] अनौपचारिक रूप से बताता है कि (मैकके 2003, पृष्ठ 81,[2] कवर 2006, अध्याय 5[3]): N आई.आई.डी. एन्ट्रापी H(X) वाले प्रत्येक यादृच्छिक चर को सूचना हानि के नगण्य जोखिम के साथ N H(X) बिट्स से अधिक में संपीड़ित किया जा सकता हैजैसे N → ∞; किन्तु इसके विपरीत, सके विपरीत, यदि उन्हें N H(X) बिट्स यह लगभग निश्चित है कि जानकारी हों जाती है।

कोडित अनुक्रम संपीड़ित संदेश को द्विअर्थी विधि से दर्शाता है, इस धारणा के तहत कि डिकोडर स्रोत को जानता है। व्यावहारिक दृष्टिकोण से, यह परिकल्पना सदैव सत्य नहीं होती है। परिणामस्वरूप, जब एन्ट्रापी एन्कोडिंग लागू होती है तो संचरित संदेश होता है। . सामान्यतः पर, स्रोत की विशेषता बताने वाली जानकारी प्रेषित संदेश की प्रारम्भिक में डाली जाती है।

प्रतीक कोड के लिए स्रोत कोडिंग प्रमेय

मान लीजिए Σ1, Σ2 दो परिमित अक्षरों को दर्शाते हैं और मान लेते हैं Σ
1
और Σ
2
उन अक्षरों से (क्रमशः) सभी परिमित शब्दों के समुच्चय को निरूपित करें।

मान लीजिए कि X एक यादृच्छिक चर होता है जो मान लेते हैं Σ1 और f एक चर लंबाई कोड को विशिष्ट रूप से डिकोड करने योग्य कोड से Σ
1
को Σ
2

जहाँ 2| = a होता है। मान लीजिए S कोडवर्ड  f (X) की लंबाई द्वारा दिए गए यादृच्छिक चर को दर्शाता है।

यदि f इस अर्थ में इष्टतम है कि इसमें X के लिए न्यूनतम अपेक्षित शब्द लंबाई होती है, तो (शैनन 1948):

जहाँ अपेक्षित मान संक्रियक को दर्शाता है।

प्रमाण: स्रोत कोडिंग प्रमेय

मान लीजिए X एक आई.आई.डी. स्रोत, इसकी समय श्रृंखला X1, ..., Xn आई.आई.डी. होती है असतत-मूल्य वाले मामले में एन्ट्रापी H(X) और निरंतर-मूल्य वाले अंतर एन्ट्रापी के साथ स्रोत कोडिंग प्रमेय में कहा गया है कि किसी भी ε > 0, अर्थात किसी भी सूचना सिद्धांत दर के लिए H(X) + ε के लिए जो स्रोत की एन्ट्रापी से बड़ी होती है, पर्याप्त बड़ा n और एक एनकोडर होता है जो n आई.आई.डी. होता है। स्रोत की पुनरावृत्ति, X1:n, और इसे मैप करता है n(H(X) + ε) बाइनरी बिट्स जैसे कि स्रोत प्रतीक X1:n कम से कम 1 − ε की संभावना के साथ बाइनरी बिट्स से पुनर्प्राप्त करने योग्य होते हैं ।

साध्यता का प्रमाण. कुछ ε > 0, और मान लेते है

विशिष्ट सेट, Aε
n
, को इस प्रकार परिभाषित किया गया है:

असतत-समय i.i.d. के लिए एसिम्प्टोटिक समविभाजन संपत्ति#AEP स्रोत (एईपी) से पता चलता है कि यह काफी बड़े पैमाने पर है n, संभावना है कि स्रोत द्वारा उत्पन्न अनुक्रम विशिष्ट सेट में निहित है, Aε
n
, जैसा कि परिभाषित किया गया है एक दृष्टिकोण। विशेष रूप से, पर्याप्त रूप से बड़े के लिए n, मनमाने ढंग से 1 के समीप और विशेष रूप से, इससे अधिक बनाया जा सकता है (देखना है की असतत समय i.i.d. के लिए स्पर्शोन्मुख समविभाजन संपत्ति AEP प्रमाण के लिए स्रोत होते है )

विशिष्ट सेटों की परिभाषा का तात्पर्य है कि वे अनुक्रम जो विशिष्ट सेट में स्थित हैं, संतुष्ट करते हैं:

ध्यान दें कि:

  • क्रम की संभावना से खींचा जा रहा है Aε
    n
    से बड़ा होता है 1 − ε.
  • , जो बायीं ओर (निचली सीमा) से आता है .
  • , जो ऊपरी सीमा से अनुसरण करता है और पूरे सेट की कुल संभावना पर निचली सीमा Aε
    n
    .

तब से इस सेट में किसी भी स्ट्रिंग को इंगित करने के लिए बिट्स पर्याप्त हैं।

एन्कोडिंग एल्गोरिदम: एन्कोडर जांच करता है कि इनपुट अनुक्रम विशिष्ट सेट के भीतर है या नहीं; यदि हाँ, तो यह विशिष्ट सेट के भीतर इनपुट अनुक्रम के सूचकांक को आउटपुट करता है; यदि नहीं, तो एनकोडर एक मनमाना आउटपुट देता है n(H(X) + ε) अंकों की संख्या। जब तक इनपुट अनुक्रम विशिष्ट सेट के भीतर रहता है (कम से कम संभावना के साथ)। 1 − ε), एनकोडर कोई त्रुटि नहीं करता है। तो, एनकोडर की त्रुटि की संभावना ऊपर से सीमित है ε.

वार्तालाप का प्रमाण. इसका विपरीत यह दर्शाकर सिद्ध किया जाता है कि आकार का कोई भी सेट इससे छोटा है Aε
n
(प्रतिपादक के अर्थ में) दूर से बंधे संभाव्यता के एक सेट को कवर करेगा 1.

प्रमाण: प्रतीक कोड के लिए स्रोत कोडिंग प्रमेय

के लिए 1 ≤ in होने देना si प्रत्येक संभव शब्द की लंबाई को निरूपित करें xi. परिभाषित करना , कहाँ C को इसलिए चुना गया है q1 + ... + qn = 1. तब

जहां दूसरी पंक्ति गिब्स की असमानता से आती है और पांचवीं पंक्ति क्राफ्ट की असमानता से आती है:

इसलिए log C ≤ 0.

दूसरी असमानता के लिए हम निर्धारित कर सकते हैं

जिससे की

इसलिए

और

और इसलिए क्राफ्ट की असमानता के कारण उन शब्द लंबाई वाला एक उपसर्ग-मुक्त कोड मौजूद है। इस प्रकार न्यूनतम S संतुष्ट करता है

गैर-स्थिर स्वतंत्र स्रोतों तक विस्तार

असतत समय गैर-स्थिर स्वतंत्र स्रोतों के लिए निश्चित दर दोषरहित स्रोत कोडिंग

विशिष्ट समुच्चय को परिभाषित करें Aε
n
जैसा:

फिर, दिया गया δ > 0 के लिए, पर्याप्त बड़े n के लिए, Pr(Aε
n
) > 1 − δ
अब हम केवल विशिष्ट सेट में अनुक्रमों को एन्कोड करते हैं, और स्रोत कोडिंग में सामान्य विधियों से पता चलता है कि इस सेट की कार्डिनैलिटी इससे छोटी होती है कि इस प्रकार, औसतन, से अधिक संभावना के साथ एन्कोडिंग के लिए पर्याप्त हैं, जहां n को बड़ा बनाकर ε और δ को मनमाने ढंग से छोटा किया जा सकता है।

यह भी देखें

संदर्भ

  1. C.E. Shannon, "A Mathematical Theory of Communication", Bell System Technical Journal, vol. 27, pp. 379–423, 623-656, July, October, 1948
  2. David J. C. MacKay. Information Theory, Inference, and Learning Algorithms Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1
  3. Cover, Thomas M. (2006). "Chapter 5: Data Compression". Elements of Information Theory. John Wiley & Sons. pp. 103–142. ISBN 0-471-24195-4.