स्वतंत्र और समान रूप से वितरित यादृच्छिक चर
संभाव्यता सिद्धांत और सांख्यिकी में, यादृच्छिक चर का एक संग्रह स्वतंत्र और समान रूप से वितरित होता है यदि प्रत्येक यादृच्छिक चर में दूसरों के समान संभावना वितरण होता है और सभी परस्पर स्वतंत्रता (संभावना सिद्धांत) होते हैं।[1] इस संपत्ति को आमतौर पर i.i.d., iid, या IID के रूप में संक्षिप्त किया जाता है। IID को पहली बार सांख्यिकी में परिभाषित किया गया था और डेटा माइनिंग और सिग्नल प्रोसेसिंग जैसे विभिन्न क्षेत्रों में इसका उपयोग होता है।
परिचय
सांख्यिकी आमतौर पर यादृच्छिक नमूनों से संबंधित होती है। एक यादृच्छिक नमूने को उन वस्तुओं के समूह के रूप में माना जा सकता है जिन्हें यादृच्छिक रूप से चुना जाता है। अधिक औपचारिक रूप से, यह स्वतंत्र, समान रूप से वितरित (IID) यादृच्छिक डेटा बिंदुओं का एक क्रम है।
दूसरे शब्दों में, यादृच्छिक नमूना और IID शब्द मूल रूप से एक ही हैं। आँकड़ों में, यादृच्छिक नमूना विशिष्ट शब्दावली है, लेकिन संभाव्यता में IID कहना अधिक सामान्य है।
- 'समान रूप से वितरित' का अर्थ है कि कोई समग्र प्रवृत्ति नहीं है - वितरण में उतार-चढ़ाव नहीं होता है और नमूने में सभी आइटम समान संभाव्यता वितरण से लिए जाते हैं।
- 'स्वतंत्र' का अर्थ है कि नमूना आइटम सभी स्वतंत्र घटनाएँ हैं। दूसरे शब्दों में, वे किसी भी तरह से एक दूसरे से जुड़े नहीं हैं;[2] एक चर के मान का ज्ञान दूसरे चर के मान के बारे में कोई जानकारी नहीं देता है और इसके विपरीत।
आवेदन
स्वतंत्र और समान रूप से वितरित यादृच्छिक चर अक्सर एक धारणा के रूप में उपयोग किए जाते हैं, जो अंतर्निहित गणित को सरल बनाने की प्रवृत्ति रखता है। सांख्यिकीय मॉडलिंग के व्यावहारिक अनुप्रयोगों में, हालांकि, धारणा यथार्थवादी हो भी सकती है और नहीं भी।[3] आई.आई.डी. धारणा का उपयोग केंद्रीय सीमा प्रमेय में भी किया जाता है, जिसमें कहा गया है कि i.i.d. के योग (या औसत) का प्रायिकता वितरण परिमित भिन्नता वाले चर सामान्य वितरण तक पहुंचते हैं।[4] अक्सर आई.आई.डी. धारणा यादृच्छिक चर के अनुक्रम के संदर्भ में उत्पन्न होती है। तब स्वतंत्र और समान रूप से वितरित का अर्थ है कि अनुक्रम में एक तत्व यादृच्छिक चर से स्वतंत्र है जो इससे पहले आया था। इस तरह एक आई.आई.डी. अनुक्रम एक मार्कोव अनुक्रम से अलग है, जहां एनवें यादृच्छिक चर के लिए संभाव्यता वितरण अनुक्रम में पिछले यादृच्छिक चर का एक कार्य है (पहले क्रम मार्कोव अनुक्रम के लिए)। एक आई.आई.डी. अनुक्रम नमूना स्थान या घटना स्थान के सभी तत्वों के लिए संभावनाओं को समान नहीं होना चाहिए।[5] उदाहरण के लिए, बार-बार भरे हुए पासे को फेंकने से परिणाम पक्षपाती होने के बावजूद i.i.d. अनुक्रम उत्पन्न होगा।
परिभाषा
दो यादृच्छिक चर के लिए परिभाषा
मान लीजिए कि यादृच्छिक चर और मूल्यों को ग्रहण करने के लिए परिभाषित किया गया है . होने देना और के संचयी वितरण कार्य हो और , क्रमशः, और उनके संयुक्त संभाव्यता वितरण को निरूपित करें .
दो यादृच्छिक चर और यदि और केवल यदि समान रूप से वितरित किए जाते हैं[6] .
दो यादृच्छिक चर और स्वतंत्र हैं अगर और केवल अगर . (आगे देखें Independence (probability theory) § Two random variables.)
दो यादृच्छिक चर और आई.आई.डी हैं अगर वे स्वतंत्र और समान रूप से वितरित हैं, यानी अगर और केवल अगर
|
(Eq.1) |
=== दो से अधिक यादृच्छिक चर === के लिए परिभाषा परिभाषा स्वाभाविक रूप से दो से अधिक यादृच्छिक चर तक फैली हुई है। हम कहते हैं यादृच्छिक चर आई.आई.डी हैं यदि वे स्वतंत्र हैं (आगे देखें Independence (probability theory) § More than two random variables) और समान रूप से वितरित, यानी अगर और केवल अगर
|
(Eq.2) |
कहाँ के संयुक्त संचयी वितरण समारोह को दर्शाता है .
स्वतंत्रता की परिभाषा
प्रायिकता सिद्धांत में, दो घटनाएँ, और , को स्वतंत्र कहा जाता है अगर और केवल अगर . निम्नांकित में, के लिए छोटा है .
मान लीजिए प्रयोग की दो घटनाएँ हैं, और . अगर , संभावना है . आम तौर पर, की घटना की संभावना पर प्रभाव पड़ता है , जिसे सशर्त संभाव्यता कहा जाता है, और केवल जब घटना होती है होने पर कोई प्रभाव नहीं पड़ता है , वहाँ है .
नोट: अगर और , तब और पारस्परिक रूप से स्वतंत्र हैं जिन्हें एक ही समय में पारस्परिक रूप से असंगत के साथ स्थापित नहीं किया जा सकता है; अर्थात्, स्वतंत्रता संगत होनी चाहिए और पारस्परिक बहिष्कार संबंधित होना चाहिए।
कल्पना करना , , और तीन घटनाएँ हैं। अगर , , , और संतुष्ट हैं, तो घटनाएँ , , और परस्पर स्वतंत्र हैं।
एक अधिक सामान्य परिभाषा है आयोजन, . यदि किसी के लिए उत्पाद घटनाओं की संभावनाएं घटनाएँ प्रत्येक घटना की संभावनाओं के उत्पाद के बराबर होती हैं, फिर घटनाएँ एक दूसरे से स्वतंत्र हैं।
उदाहरण
उदाहरण 1
उचित या अनुचित रूलेट व्हील के घुमावों के परिणामों का क्रम i.i.d. इसका एक निहितार्थ यह है कि यदि रूलेट गेंद लाल रंग पर गिरती है, उदाहरण के लिए, एक पंक्ति में 20 बार, अगली स्पिन किसी भी अन्य स्पिन की तुलना में काली होने की अधिक या कम संभावना नहीं है (जुआरी का भ्रम देखें)।
फेयर या लोडेड डाइस रोल का क्रम i.i.d.
निष्पक्ष या अनुचित सिक्के के पलटने का क्रम i.i.d है।
संकेत आगे बढ़ाना और मूर्ति प्रोद्योगिकी में परिवर्तन की धारणा i.i.d. तात्पर्य दो विशिष्टताओं से है, i.d. भाग और मैं। भाग:
(i.d.) संकेत स्तर समय अक्ष पर संतुलित होना चाहिए;
(i।) सिग्नल स्पेक्ट्रम को चपटा होना चाहिए, यानी फ़िल्टरिंग (जैसे deconvolution) द्वारा एक सफेद शोर सिग्नल (यानी एक संकेत जहां सभी आवृत्तियों समान रूप से मौजूद हैं) में परिवर्तित किया जाना चाहिए।
उदाहरण 2
एक सिक्के को 10 बार उछालें और रिकॉर्ड करें कि सिक्का कितनी बार सिर पर गिरा।
- स्वतंत्र - लैंडिंग का प्रत्येक परिणाम दूसरे परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 10 परिणाम एक दूसरे से स्वतंत्र हैं।
- समान रूप से वितरित - यदि सिक्का एक सजातीय सामग्री है, तो हर बार हेड आने की संभावना 0.5 है, जिसका अर्थ है कि हर बार संभावना समान है।
उदाहरण 3
एक पासे को 10 बार घुमाएँ और रिकॉर्ड करें कि कितनी बार परिणाम 1 आया।
- स्वतंत्र - डाइस का प्रत्येक परिणाम अगले परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 10 परिणाम एक दूसरे से स्वतंत्र हैं।
- समान रूप से वितरित - यदि पासा एक सजातीय सामग्री है, तो हर बार संख्या 1 की संभावना 1/6 है, जिसका अर्थ है कि संभावना हर बार समान है।
उदाहरण 4
52 कार्ड वाले कार्ड के मानक डेक से एक कार्ड चुनें, फिर कार्ड को वापस डेक में रखें। इसे 52 बार दोहराएं। दिखाई देने वाले राजा की संख्या रिकॉर्ड करें
- स्वतंत्र - कार्ड का प्रत्येक परिणाम अगले परिणाम को प्रभावित नहीं करेगा, जिसका अर्थ है कि 52 परिणाम एक दूसरे से स्वतंत्र हैं।
- समान रूप से वितरित - इसमें से एक कार्ड निकालने के बाद, हर बार बादशाह की प्रायिकता 4/52 होती है, जिसका अर्थ है कि हर बार प्रायिकता समान होती है।
सामान्यीकरण
कई परिणाम जो पहली बार इस धारणा के तहत सिद्ध हुए थे कि यादृच्छिक चर i.i.d हैं। कमजोर वितरण धारणा के तहत भी सही साबित हुए हैं।
विनिमेय यादृच्छिक चर
सबसे सामान्य धारणा जो आई.आई.डी. के मुख्य गुणों को साझा करती है। चर विनिमेय यादृच्छिक चर हैं, जो ब्रूनो डी फिनेची द्वारा प्रस्तुत किए गए हैं।[citation needed] विनिमेयता का मतलब है कि हालांकि चर स्वतंत्र नहीं हो सकते हैं, भविष्य वाले पिछले वाले की तरह व्यवहार करते हैं - औपचारिक रूप से, परिमित अनुक्रम का कोई भी मूल्य उतना ही संभव है जितना कि उन मूल्यों का कोई क्रमपरिवर्तन - सममित समूह के तहत संयुक्त संभाव्यता वितरण अपरिवर्तनीय है।
यह एक उपयोगी सामान्यीकरण प्रदान करता है - उदाहरण के लिए, प्रतिस्थापन के बिना नमूना लेना स्वतंत्र नहीं है, लेकिन विनिमय योग्य है।
लेवी प्रक्रिया
स्टोचैस्टिक कैलकुलस में, आई.आई.डी. चरों को असतत समय लेवी प्रक्रिया के रूप में माना जाता है: प्रत्येक चर यह बताता है कि एक समय से दूसरे में कितना परिवर्तन होता है। उदाहरण के लिए, Bernoulli परीक्षणों के अनुक्रम की व्याख्या Bernoulli प्रक्रिया के रूप में की जाती है। निरंतर समय लेवी प्रक्रियाओं को शामिल करने के लिए इसे सामान्यीकृत किया जा सकता है, और कई लेवी प्रक्रियाओं को i.i.d की सीमा के रूप में देखा जा सकता है। चर-उदाहरण के लिए, वीनर प्रक्रिया बर्नौली प्रक्रिया की सीमा है।
मशीन लर्निंग में
मशीन लर्निंग तेजी से, अधिक सटीक परिणाम देने के लिए वर्तमान में बड़ी मात्रा में डेटा का उपयोग करता है।[7] इसलिए, हमें समग्र प्रतिनिधित्व के साथ ऐतिहासिक डेटा का उपयोग करने की आवश्यकता है। यदि प्राप्त डेटा समग्र स्थिति का प्रतिनिधित्व नहीं करता है, तो नियमों को गलत या गलत तरीके से सारांशित किया जाएगा।
आई.आई.डी. परिकल्पना, प्रशिक्षण नमूने में व्यक्तिगत मामलों की संख्या बहुत कम हो सकती है।
यह धारणा गणितीय रूप से गणना करने के लिए अधिकतमकरण को बहुत आसान बनाती है। गणित में स्वतंत्र और समान वितरण की धारणा को देखते हुए अनुकूलन समस्याओं में संभावना कार्य की गणना सरल हो जाती है। स्वतंत्रता की मान्यता के कारण, संभावना फलन को इस प्रकार लिखा जा सकता है
देखी गई घटना की संभावना को अधिकतम करने के लिए, लॉग फ़ंक्शन लें और पैरामीटर θ को अधिकतम करें। यानी गणना करने के लिए:
कहाँ
कंप्यूटर कई योगों की गणना करने के लिए बहुत कुशल है, लेकिन यह गुणन की गणना करने में कुशल नहीं है। कम्प्यूटेशनल दक्षता में वृद्धि के लिए यह सरलीकरण मुख्य कारण है। और यह लॉग ट्रांसफ़ॉर्मेशन भी अधिकतम करने की प्रक्रिया में है, कई घातीय कार्यों को रैखिक कार्यों में बदल रहा है।
दो कारणों से, व्यावहारिक अनुप्रयोगों में केंद्रीय सीमा प्रमेय का उपयोग करना आसान है।
- भले ही नमूना अधिक जटिल गैर-गाऊसी वितरण से आता है, यह अच्छी तरह से अनुमानित भी हो सकता है। क्योंकि इसे केंद्रीय सीमा प्रमेय से गॉसियन वितरण तक सरल बनाया जा सकता है। बड़ी संख्या में देखे जाने योग्य नमूनों के लिए, कई यादृच्छिक चरों के योग का लगभग सामान्य वितरण होगा।
- दूसरा कारण यह है कि मॉडल की सटीकता मॉडल इकाई की सादगी और प्रतिनिधि शक्ति के साथ-साथ डेटा की गुणवत्ता पर निर्भर करती है। क्योंकि इकाई की सरलता से व्याख्या करना और पैमाना बनाना आसान हो जाता है, और इकाई से प्रतिनिधि शक्ति + पैमाना मॉडल की सटीकता में सुधार करता है। एक गहरे तंत्रिका नेटवर्क की तरह, प्रत्येक न्यूरॉन बहुत सरल है, लेकिन मॉडल की सटीकता में सुधार के लिए अधिक जटिल सुविधाओं का प्रतिनिधित्व करने के लिए परत दर परत मजबूत प्रतिनिधि शक्ति है।
यह भी देखें
- डी फिनेटी की प्रमेय
- जोड़ीदार स्वतंत्रता
- केंद्रीय सीमा प्रमेय
संदर्भ
- ↑ Clauset, Aaron (2011). "संभाव्यता वितरण पर एक संक्षिप्त प्राइमर" (PDF). Santa Fe Institute. Archived from the original (PDF) on 2012-01-20. Retrieved 2011-11-29.
- ↑ Stephanie (2016-05-11). "IID Statistics: Independent and Identically Distributed Definition and Examples". Statistics How To (in English). Retrieved 2021-12-09.
- ↑ Hampel, Frank (1998), "Is statistics too difficult?", Canadian Journal of Statistics, 26 (3): 497–513, doi:10.2307/3315772, hdl:20.500.11850/145503, JSTOR 3315772, S2CID 53117661 (§8).
- ↑ Blum, J. R.; Chernoff, H.; Rosenblatt, M.; Teicher, H. (1958). "विनिमेय प्रक्रियाओं के लिए केंद्रीय सीमा प्रमेय". Canadian Journal of Mathematics. 10: 222–229. doi:10.4153/CJM-1958-026-0. S2CID 124843240.
- ↑ Cover, T. M.; Thomas, J. A. (2006). सूचना सिद्धांत के तत्व. Wiley-Interscience. pp. 57–58. ISBN 978-0-471-24195-9.
- ↑ Casella & Berger 2002, Theorem 1.5.10
- ↑ "What is Machine Learning? A Definition". Expert.ai (in English). 2020-05-05. Retrieved 2021-12-16.
अग्रिम पठन
- Casella, George; Berger, Roger L. (2002), Statistical Inference, Duxbury Advanced Series