इष्टतम मिलान: Difference between revisions

From Vigyanwiki
(Created page with "{{distinguish|text=maximum matching in graph theory or the statistical problem of finding an optimal match for causa...")
 
No edit summary
 
(9 intermediate revisions by 5 users not shown)
Line 1: Line 1:
{{distinguish|text=[[maximum cardinality matching|maximum matching]] in graph theory or the statistical problem of finding an [[matching (statistics)|optimal match]] for causal inference}}
'''इष्टतम मिलान''' [[सामाजिक विज्ञान]] में उपयोग की जाने वाली अनुक्रम विश्लेषण विधि है, टोकन के क्रमबद्ध सरणियों की असमानता का आकलन करने के लिए जो सामान्यतः दो व्यक्तियों द्वारा अनुभव किए गए सामाजिक-आर्थिक स्तिथियों की समय-आदेशित अनुक्रम का प्रतिनिधित्व करते हैं। टिप्पणियों के समूह के लिए इस प्रकार की दूरियों की गणना कर ली जाती है (उदाहरण के लिए समूह में व्यक्ति) उपकरण (जैसे [[क्लस्टर विश्लेषण|समूह  विश्लेषण]]) का उपयोग किया जा सकता है। विधि मूल रूप से आणविक जीव विज्ञान (प्रोटीन या आनुवंशिक) अनुक्रमों का अध्ययन करने के लिए प्रारंभ की गई कार्यविधि से सामाजिक विज्ञानों के अनुरूप थी<ref>A. Abbott and A. Tsay, (2000) ''[http://smr.sagepub.com/cgi/content/abstract/29/1/3 Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect]'' Sociological Methods & Research], Vol. 29, 3-33. {{doi|10.1177/0049124100029001001}}</ref> ([[अनुक्रम संरेखण]] देखें)। इष्टतम मिलान [[नीडलमैन इच्छा एल्गोरिथ्म|नीडलमैन वुन्श एल्गोरिथ्म]] का उपयोग करता है।
इष्टतम मिलान [[सामाजिक विज्ञान]] पद्धति में एक अनुक्रम विश्लेषण है जिसका उपयोग सामाजिक विज्ञान में टोकन के क्रमबद्ध सरणियों की असमानता का आकलन करने के लिए किया जाता है जो आमतौर पर दो व्यक्तियों द्वारा अनुभव किए गए सामाजिक-आर्थिक राज्यों के समय-आदेशित अनुक्रम का प्रतिनिधित्व करते हैं। एक बार इस तरह की दूरियों की गणना टिप्पणियों के एक सेट के लिए की जाती है (उदाहरण के लिए एक समूह (सांख्यिकी) में व्यक्ति) शास्त्रीय उपकरण (जैसे [[क्लस्टर विश्लेषण]]) का उपयोग किया जा सकता है। विधि सामाजिक विज्ञानों के अनुरूप थी<ref>A. Abbott and A. Tsay, (2000) ''[http://smr.sagepub.com/cgi/content/abstract/29/1/3 Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect]'' Sociological Methods & Research], Vol. 29, 3-33. {{doi|10.1177/0049124100029001001}}</ref> मूल रूप से आणविक जीव विज्ञान (प्रोटीन या आनुवंशिक) अनुक्रमों का अध्ययन करने के लिए शुरू की गई तकनीक से ([[अनुक्रम संरेखण]] देखें)। इष्टतम मिलान [[नीडलमैन इच्छा एल्गोरिथ्म]] का उपयोग करता है।


== एल्गोरिथम ==
== एल्गोरिथम ==
होने देना <math>S = (s_1, s_2, s_3, \ldots s_T)</math> राज्यों का एक क्रम हो <math>s_i</math> संभावित राज्यों के एक परिमित सेट से संबंधित। आइए बताते हैं <math>{\mathbf S}</math> अनुक्रम स्थान, यानी राज्यों के सभी संभावित अनुक्रमों का सेट।
मान लें <math>S = (s_1, s_2, s_3, \ldots s_T)</math> संभव स्तिथियों के परिमित समुच्चय से संबंधित स्तिथि <math>s_i</math> का अनुक्रम है। आइए <math>{\mathbf S}</math> अनुक्रम स्थान को निरूपित करते हैं अर्थात जो स्तिथियों के सभी संभावित अनुक्रमों का समुच्चय है।


इष्टतम मिलान एल्गोरिदम सरल ऑपरेटर बीजगणित को परिभाषित करके काम करते हैं जो अनुक्रमों में हेरफेर करते हैं, यानी ऑपरेटरों का एक सेट <math>a_i: {\mathbf S} \rightarrow {\mathbf S}</math>. सबसे सरल दृष्टिकोण में, अनुक्रमों को बदलने के लिए केवल तीन मूलभूत संक्रियाओं से बना एक सेट का उपयोग किया जाता है:
इष्टतम मिलान एल्गोरिदम सरल संचालन बीजगणित को परिभाषित करके कार्य करते हैं जो अनुक्रमों में परिवर्तन करते हैं, अर्थात संचालनोंका समुच्चय <math>a_i: {\mathbf S} \rightarrow {\mathbf S}</math> है। सबसे सरल दृष्टिकोण में, अनुक्रमों को परिवर्तित करने के लिए मात्र तीन मूलभूत संक्रियाओं से बने समुच्चय का उपयोग किया जाता है-
* एक राज्य <math>s</math> क्रम में डाला जाता है <math>a^{\rm Ins}_{s'} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_2, s_3, \ldots, s', \ldots s_T) </math>
* अनुक्रम <math>a^{\rm Ins}_{s'} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_2, s_3, \ldots, s', \ldots s_T) </math> में स्थिति <math>s</math> प्रविष्ट किया गया है,
* एक स्थिति को क्रम से हटा दिया जाता है <math>a^{\rm Del}_{s_2} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_3, \ldots  s_T)</math> और
* स्थिति को अनुक्रम <math>a^{\rm Del}_{s_2} (s_1, s_2, s_3, \ldots s_T) = (s_1, s_3, \ldots  s_T)</math> से विस्थापित कर दिया जाता है और
* एक राज्य <math>s_1</math> राज्य द्वारा प्रतिस्थापित (प्रतिस्थापित) किया जाता है <math>s'_1</math>, <math>a^{\rm Sub}_{s_1,s'_1} (s_1, s_2, s_3, \ldots s_T) = (s'_1, s_2, s_3, \ldots s_T)</math>.
* स्थिति <math>s_1</math> को स्थिति <math>s'_1</math>, <math>a^{\rm Sub}_{s_1,s'_1} (s_1, s_2, s_3, \ldots s_T) = (s'_1, s_2, s_3, \ldots s_T)</math> द्वारा प्रतिस्थापित किया जाता है।


अब कल्पना कीजिए कि एक लागत <math>c(a_i) \in {\mathbf R}^+_0</math> से जुड़ा हुआ है
अब कल्पना कीजिए कि व्यय <math>c(a_i) \in {\mathbf R}^+_0</math> प्रत्येक संचालन से जुड़ा है। दो अनुक्रमों <math>S_1</math> और <math>S_2</math> को देखते हुए, बीजगणित से संचालनों का उपयोग करके <math>S_1</math> से <math>S_2</math> प्राप्त करने के व्यय को मापने का विचार है। मान लें <math>A={a_1, a_2, \ldots a_n}</math> संचालनों का अनुक्रम है जिस प्रकार इस अनुक्रम के सभी संचालनों के अनुप्रयोग <math>A</math> को प्रथम अनुक्रम <math>S_1</math> के लिए द्वितीय अनुक्रम <math>S_2</math>:<math>S_2 = a_1 \circ a_2 \circ \ldots \circ a_{n} (S_1)</math> देता है, जहां <math>a_1 \circ a_2</math> मिश्रण संचालन को दर्शाता है।
प्रत्येक ऑपरेटर को। दो क्रम दिए गए हैं <math>S_1</math> और <math>S_2</math>,
विचार प्राप्त करने की लागत को मापना है  <math>S_2</math> से <math>S_1</math>
बीजगणित से ऑपरेटरों का उपयोग करना। होने देना <math>A={a_1, a_2, \ldots a_n}</math> ऑपरेटरों का एक क्रम हो जैसे कि इस क्रम के सभी ऑपरेटरों का आवेदन <math>A</math> पहले क्रम के लिए <math>S_1</math> दूसरा क्रम देता है <math>S_2</math>:
<math>S_2 = a_1 \circ a_2 \circ \ldots \circ a_{n} (S_1)</math> कहाँ <math>a_1 \circ a_2</math> कंपाउंड ऑपरेटर को दर्शाता है।
इस सेट से हम लागत को जोड़ते हैं <math>c(A) = \sum_{i=1}^n c(a_i)</math>, वह
परिवर्तन की कुल लागत का प्रतिनिधित्व करता है। इस बिंदु पर विचार करना चाहिए कि इस तरह के अलग-अलग क्रम मौजूद हो सकते हैं <math>A</math> वह परिवर्तन  <math>S_1</math> में <math>S_2</math>; इस तरह के दृश्यों में से सबसे सस्ता चयन करना एक उचित विकल्प है। हम इस प्रकार
कॉल दूरी
<br> <math>d(S_1,S_2)= \min_A \left \{ c(A)~{\rm such~that}~S_2 = A (S_1)  \right \} </math>
<br> अर्थात, रूपांतरणों के कम से कम खर्चीले सेट की लागत <math>S_1</math> में <math>S_2</math>. नोटिस जो <math>d(S_1,S_2)</math> परिभाषा के अनुसार गैर-ऋणात्मक है क्योंकि यह सकारात्मक लागतों का योग है, और तुच्छ रूप से <math>d(S_1,S_2)=0</math> अगर और केवल अगर <math>S_1=S_2</math>यानी कोई कीमत नहीं है। यदि सम्मिलन और विलोपन लागत समान हैं, तो दूरी फ़ंक्शन [[सममित]] है <math>c(a^{\rm Ins}) = c(a^{\rm Del})</math>; इंडेल लागत शब्द आमतौर पर सम्मिलन और विलोपन की सामान्य लागत को संदर्भित करता है।


ऊपर वर्णित केवल तीन मूल संक्रियाओं से बने एक सेट को ध्यान में रखते हुए, यह निकटता माप त्रिकोणीय असमानता को संतुष्ट करता है। [[सकर्मक संबंध]] हालांकि, प्रारंभिक संक्रियाओं के समुच्चय की परिभाषा पर निर्भर करता है।
इस समुच्चय से हम व्यय <math>c(A) = \sum_{i=1}^n c(a_i)</math> को जोड़ते हैं, यह परिवर्तन के कुल व्यय का प्रतिनिधित्व करता है। इस बिंदु पर विचार करना चाहिए कि इस प्रकार के विभिन्न अनुक्रम <math>A</math> उपस्थित हो सकते हैं जो <math>S_1</math> को <math>S_2</math> में परिवर्तित करते हैं; इस प्रकार के दृश्यों में से सबसे अल्पमूल्य चयन करना उचित विकल्प है। इस प्रकार हम दूरी को <math>d(S_1,S_2)= \min_A \left \{ c(A)~{\rm such~that}~S_2 = A (S_1)  \right \} </math> कहते हैं।<br>जो कि परिवर्तनों के कम से कम बहुमूल्य समुच्चय का व्यय है जो <math>S_1</math> को <math>S_2</math> में परिवर्तित कर देता है। ध्यान दें कि <math>d(S_1,S_2)</math> परिभाषा के अनुसार गैर-ऋणात्मक है क्योंकि यह सकारात्मक व्ययों का योग है, और अल्प रूप से <math>d(S_1,S_2)=0</math> यदि <math>S_1=S_2</math> है, अर्थात कोई मूल्य नहीं है। यदि सम्मिलन और विलोपन व्यय समान <math>c(a^{\rm Ins}) = c(a^{\rm Del})</math> हैं, तो दूरी फलन [[सममित]] है। इंडेल व्यय शब्द सामान्यतः सम्मिलन और विलोपन के सामान्य व्यय को संदर्भित करता है।
 
ऊपर वर्णित मात्र तीन मूल संक्रियाओं से बने समुच्चय को ध्यान में रखते हुए, यह निकटता माप त्रिकोणीय असमानता को संतुष्ट करता है। चूँकि, [[सकर्मक संबंध]] प्रारंभिक संक्रियाओं के समुच्चय की परिभाषा पर निर्भर करता है।


== आलोचना ==
== आलोचना ==
यद्यपि इष्टतम मिलान तकनीकों का व्यापक रूप से समाजशास्त्र और जनसांख्यिकी में उपयोग किया जाता है, ऐसी तकनीकों में भी उनकी खामियां हैं। जैसा कि कई लेखकों द्वारा इंगित किया गया था (उदाहरण के लिए एलएल वू<ref>L. L. Wu. (2000) ''[http://smr.sagepub.com/cgi/content/refs/29/1/41 Some Comments on "Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect"] {{Webarchive|url=https://web.archive.org/web/20061024143211/http://smr.sagepub.com/cgi/content/refs/29/1/41 |date=2006-10-24 }}'' Sociological Methods & Research, 29 41-64. {{doi|10.1177/0049124100029001003}}</ref>), इष्टतम मिलान के आवेदन में मुख्य समस्या लागतों को उचित रूप से परिभाषित करना है <math>c(a_i)</math>.
यद्यपि इष्टतम मिलान प्रणाली का व्यापक रूप से समाजशास्त्र और जनसांख्यिकी में उपयोग किया जाता है, ऐसी प्रणाली में भी उनकी क्षीणता हैं। जैसा कि कई लेखकों द्वारा दर्शाया गया था (उदाहरण के लिए एल एल वू<ref>L. L. Wu. (2000) ''[http://smr.sagepub.com/cgi/content/refs/29/1/41 Some Comments on "Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect"] {{Webarchive|url=https://web.archive.org/web/20061024143211/http://smr.sagepub.com/cgi/content/refs/29/1/41 |date=2006-10-24 }}'' Sociological Methods & Research, 29 41-64. {{doi|10.1177/0049124100029001003}}</ref>)इष्टतम मिलान के अनुप्रयोग में मुख्य समस्या व्ययों <math>c(a_i)</math> को उचित रूप से परिभाषित करना है।


== सॉफ्टवेयर ==
== सॉफ्टवेयर ==
* [http://www.stat.ruhr-uni-bochum.de/tda.html TDA] एक शक्तिशाली कार्यक्रम है, जो संक्रमण डेटा विश्लेषण में कुछ नवीनतम विकासों तक पहुंच प्रदान करता है।
* [http://www.stat.ruhr-uni-bochum.de/tda.html TDA] शक्तिशाली प्रोग्राम है, जो संक्रमण डेटा विश्लेषण में कुछ नवीनतम विकासों तक एक्सेस प्रदान करता है।
* [http://ideas.repec.org/a/tsj/stataj/v6y2006i4p435-460.html STATA] ने इष्टतम मिलान विश्लेषण चलाने के लिए एक पैकेज लागू किया है।
* [http://ideas.repec.org/a/tsj/stataj/v6y2006i4p435-460.html STATA] ने इष्टतम मिलान विश्लेषण चलाने के लिए पैकेज प्रारम्भ किया है।
* [http://traminer.unige.ch/ TraMineR] एक ओपन सोर्स R (प्रोग्रामिंग लैंग्वेज)-पैकेज है, जो स्थितियों और घटनाओं के अनुक्रमों का विश्लेषण और कल्पना करने के लिए है, जिसमें इष्टतम मिलान विश्लेषण भी शामिल है।
* [http://traminer.unige.ch/ TraMineR] ओपन सोर्स R (प्रोग्रामिंग लैंग्वेज) पैकेज है, जो स्थितियों और घटनाओं के अनुक्रमों का विश्लेषण और कल्पना करने के लिए है, जिसमें इष्टतम मिलान विश्लेषण भी सम्मिलित है।


== संदर्भ और नोट्स ==
== संदर्भ और नोट्स ==
<references/>
<references/>
[[Category: डेटा खनन]] [[Category: सांख्यिकीय दूरी]] [[Category: मात्रात्मक अनुसंधान]]


[[Category: Machine Translated Page]]
[[Category:Created On 12/05/2023]]
[[Category:Created On 12/05/2023]]
[[Category:Machine Translated Page]]
[[Category:Templates Vigyan Ready]]
[[Category:Webarchive template wayback links]]
[[Category:डेटा खनन]]
[[Category:मात्रात्मक अनुसंधान]]
[[Category:सांख्यिकीय दूरी]]

Latest revision as of 15:50, 30 October 2023

इष्टतम मिलान सामाजिक विज्ञान में उपयोग की जाने वाली अनुक्रम विश्लेषण विधि है, टोकन के क्रमबद्ध सरणियों की असमानता का आकलन करने के लिए जो सामान्यतः दो व्यक्तियों द्वारा अनुभव किए गए सामाजिक-आर्थिक स्तिथियों की समय-आदेशित अनुक्रम का प्रतिनिधित्व करते हैं। टिप्पणियों के समूह के लिए इस प्रकार की दूरियों की गणना कर ली जाती है (उदाहरण के लिए समूह में व्यक्ति) उपकरण (जैसे समूह विश्लेषण) का उपयोग किया जा सकता है। विधि मूल रूप से आणविक जीव विज्ञान (प्रोटीन या आनुवंशिक) अनुक्रमों का अध्ययन करने के लिए प्रारंभ की गई कार्यविधि से सामाजिक विज्ञानों के अनुरूप थी[1] (अनुक्रम संरेखण देखें)। इष्टतम मिलान नीडलमैन वुन्श एल्गोरिथ्म का उपयोग करता है।

एल्गोरिथम

मान लें संभव स्तिथियों के परिमित समुच्चय से संबंधित स्तिथि का अनुक्रम है। आइए अनुक्रम स्थान को निरूपित करते हैं अर्थात जो स्तिथियों के सभी संभावित अनुक्रमों का समुच्चय है।

इष्टतम मिलान एल्गोरिदम सरल संचालन बीजगणित को परिभाषित करके कार्य करते हैं जो अनुक्रमों में परिवर्तन करते हैं, अर्थात संचालनोंका समुच्चय है। सबसे सरल दृष्टिकोण में, अनुक्रमों को परिवर्तित करने के लिए मात्र तीन मूलभूत संक्रियाओं से बने समुच्चय का उपयोग किया जाता है-

  • अनुक्रम में स्थिति प्रविष्ट किया गया है,
  • स्थिति को अनुक्रम से विस्थापित कर दिया जाता है और
  • स्थिति को स्थिति , द्वारा प्रतिस्थापित किया जाता है।

अब कल्पना कीजिए कि व्यय प्रत्येक संचालन से जुड़ा है। दो अनुक्रमों और को देखते हुए, बीजगणित से संचालनों का उपयोग करके से प्राप्त करने के व्यय को मापने का विचार है। मान लें संचालनों का अनुक्रम है जिस प्रकार इस अनुक्रम के सभी संचालनों के अनुप्रयोग को प्रथम अनुक्रम के लिए द्वितीय अनुक्रम : देता है, जहां मिश्रण संचालन को दर्शाता है।

इस समुच्चय से हम व्यय को जोड़ते हैं, यह परिवर्तन के कुल व्यय का प्रतिनिधित्व करता है। इस बिंदु पर विचार करना चाहिए कि इस प्रकार के विभिन्न अनुक्रम उपस्थित हो सकते हैं जो को में परिवर्तित करते हैं; इस प्रकार के दृश्यों में से सबसे अल्पमूल्य चयन करना उचित विकल्प है। इस प्रकार हम दूरी को कहते हैं।
जो कि परिवर्तनों के कम से कम बहुमूल्य समुच्चय का व्यय है जो को में परिवर्तित कर देता है। ध्यान दें कि परिभाषा के अनुसार गैर-ऋणात्मक है क्योंकि यह सकारात्मक व्ययों का योग है, और अल्प रूप से यदि है, अर्थात कोई मूल्य नहीं है। यदि सम्मिलन और विलोपन व्यय समान हैं, तो दूरी फलन सममित है। इंडेल व्यय शब्द सामान्यतः सम्मिलन और विलोपन के सामान्य व्यय को संदर्भित करता है।

ऊपर वर्णित मात्र तीन मूल संक्रियाओं से बने समुच्चय को ध्यान में रखते हुए, यह निकटता माप त्रिकोणीय असमानता को संतुष्ट करता है। चूँकि, सकर्मक संबंध प्रारंभिक संक्रियाओं के समुच्चय की परिभाषा पर निर्भर करता है।

आलोचना

यद्यपि इष्टतम मिलान प्रणाली का व्यापक रूप से समाजशास्त्र और जनसांख्यिकी में उपयोग किया जाता है, ऐसी प्रणाली में भी उनकी क्षीणता हैं। जैसा कि कई लेखकों द्वारा दर्शाया गया था (उदाहरण के लिए एल एल वू[2])। इष्टतम मिलान के अनुप्रयोग में मुख्य समस्या व्ययों को उचित रूप से परिभाषित करना है।

सॉफ्टवेयर

  • TDA शक्तिशाली प्रोग्राम है, जो संक्रमण डेटा विश्लेषण में कुछ नवीनतम विकासों तक एक्सेस प्रदान करता है।
  • STATA ने इष्टतम मिलान विश्लेषण चलाने के लिए पैकेज प्रारम्भ किया है।
  • TraMineR ओपन सोर्स R (प्रोग्रामिंग लैंग्वेज) पैकेज है, जो स्थितियों और घटनाओं के अनुक्रमों का विश्लेषण और कल्पना करने के लिए है, जिसमें इष्टतम मिलान विश्लेषण भी सम्मिलित है।

संदर्भ और नोट्स

  1. A. Abbott and A. Tsay, (2000) Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect Sociological Methods & Research], Vol. 29, 3-33. doi:10.1177/0049124100029001001
  2. L. L. Wu. (2000) Some Comments on "Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect" Archived 2006-10-24 at the Wayback Machine Sociological Methods & Research, 29 41-64. doi:10.1177/0049124100029001003