बहुआयामी स्केलिंग: Difference between revisions

From Vigyanwiki
mNo edit summary
mNo edit summary
Line 1: Line 1:
{{Short description|Set of related ordination techniques used in information visualization}}
{{Short description|Set of related ordination techniques used in information visualization}}
[[File:RecentVotes.svg|thumb|400px|[[संयुक्त राज्य अमेरिका के प्रतिनिधि सभा]] में वोटिंग पैटर्न पर लागू शास्त्रीय बहुआकारीय मापांक का एक उदाहरण। प्रत्येक लाल बिंदु सदन के एक रिपब्लिकन सदस्य का प्रतिनिधित्व करता है, और प्रत्येक नीला बिंदु एक डेमोक्रेट का प्रतिनिधित्व करता है।]]बहुआकारीय मापांक (एमडीएस) एक डेटासेट के अलग-अलग स्थितियों की समानता माप के स्तर की कल्पना करने का एक साधन है। एमडीएस का उपयोग जोड़ीदार 'दूरियों' के बारे में जानकारी के एक सेट के बीच अनुवाद करने के लिए किया जाता है <math display="inline"> n </math> वस्तुओं या व्यक्तियों के विन्यास में <math display="inline"> n </math> अंक एक सार कार्टेशियन समन्वय प्रणाली में मैप किए गए।<ref name="MS_history">{{cite journal |last= Mead|first=A  |date= 1992|title= बहुआयामी स्केलिंग विधियों के विकास की समीक्षा|journal= Journal of the Royal Statistical Society. Series D (The Statistician)|volume= 41|issue=1 |pages=27–39 |quote= अमूर्त। बहुआयामी स्केलिंग विधियां अब साइकोफिज़िक्स और संवेदी विश्लेषण में एक सामान्य सांख्यिकीय उपकरण हैं। इन विधियों के विकास को व्यक्तिगत अंतर स्केलिंग और रामसे द्वारा प्रस्तावित अधिकतम संभावना विधियों के माध्यम से टोरगर्सन (मीट्रिक स्केलिंग), शेपर्ड और क्रुस्कल (गैर-मीट्रिक स्केलिंग) के मूल शोध से चार्ट किया गया है।|jstor=234863  }}</ref>
[[File:RecentVotes.svg|thumb|400px|[[संयुक्त राज्य अमेरिका के प्रतिनिधि सभा]] में वोटिंग पैटर्न पर लागू शास्त्रीय बहुआकारीय मापांक का एक उदाहरण। प्रत्येक लाल बिंदु सदन के एक रिपब्लिकन सदस्य का प्रतिनिधित्व करता है, और प्रत्येक नीला बिंदु एक डेमोक्रेट का प्रतिनिधित्व करता है।]]बहुआकारीय मापांक (एमडीएस) डेटा समूह के अलग-अलग स्थितियों की समानता के स्तर को कल्पना करने का एक साधन है। एमडीएस का उपयोग, कार्टेशियन समन्वय प्रणाली में आलेख किए गए <math display="inline"> n </math> अंको के विन्यास के लिए <math display="inline"> n </math> व्यक्तियों या वस्तुओं की दो की जोड़ी के समूह के अंतराल की जानकारी को अनुवाद करने के लिए किया जाता है।<ref name="MS_history">{{cite journal |last= Mead|first=A  |date= 1992|title= बहुआयामी स्केलिंग विधियों के विकास की समीक्षा|journal= Journal of the Royal Statistical Society. Series D (The Statistician)|volume= 41|issue=1 |pages=27–39 |quote= अमूर्त। बहुआयामी स्केलिंग विधियां अब साइकोफिज़िक्स और संवेदी विश्लेषण में एक सामान्य सांख्यिकीय उपकरण हैं। इन विधियों के विकास को व्यक्तिगत अंतर स्केलिंग और रामसे द्वारा प्रस्तावित अधिकतम संभावना विधियों के माध्यम से टोरगर्सन (मीट्रिक स्केलिंग), शेपर्ड और क्रुस्कल (गैर-मीट्रिक स्केलिंग) के मूल शोध से चार्ट किया गया है।|jstor=234863  }}</ref>


अधिक तकनीकी रूप से, एमडीएस सूचना विज़ुअलाइज़ेशन में उपयोग की जाने वाली संबंधित ऑर्डिनेशन (सांख्यिकी) तकनीकों के एक सेट को संदर्भित करता है, विशेष रूप से एक [[दूरी मैट्रिक्स]] में निहित जानकारी को प्रदर्शित करने के लिए। यह गैर-रैखिक [[आयाम]]कमी का एक रूप है।
अधिक तकनीकी रूप से, एमडीएस विशेष रूप से एक [[दूरी मैट्रिक्स]] में निहित जानकारी को प्रदर्शित करने के लिए काल्पनिक सूचना में उपयोग की जाने वाली संबंधित समन्वय तकनीकों के एक समूह को संदर्भित करता है। यह गैर-रैखिक [[आयाम|आकारीय]] कमी का एक रूप है।


एक सेट में वस्तुओं की प्रत्येक जोड़ी के बीच की दूरी के साथ एक दूरी मैट्रिक्स, और आयामों की एक चुनी हुई संख्या, एन, एक एमडीएस [[कलन विधि]] प्रत्येक वस्तु को एन-आयामी स्थान (एक निम्न-आयामी प्रतिनिधित्व) में रखता है, जैसे कि वस्तु के बीच की दूरी यथासंभव संरक्षित हैं। N = 1, 2 और 3 के लिए, परिणामी बिंदुओं को [[तितर बितर भूखंडों]] पर देखा जा सकता है।
एक समूह में वस्तुओं की प्रत्येक जोड़ी के बीच की दूरी के साथ एक दूरी मैट्रिक्स, और आयामों की एक चुनी हुई संख्या, एन, एक एमडीएस [[कलन विधि]] प्रत्येक वस्तु को N-आकारीय स्थान (एक निम्न-आकारीय प्रतिनिधित्व) में रखता है, जैसे कि वस्तु के बीच की दूरी यथासंभव संरक्षित हैं। N = 1, 2 और 3 के लिए, परिणामी बिंदुओं को [[तितर बितर भूखंडों]] पर देखा जा सकता है।
रेफरी नाम = बोर्ग>{{cite book |last=Borg |first=I. |author2=Groenen, P. |author2-link=Patrick Groenen |title=आधुनिक बहुआयामी स्केलिंग: सिद्धांत और अनुप्रयोग|publisher=Springer-Verlag |location=New York |year=2005 |pages=207–212 |edition=2nd |isbn=978-0-387-94845-4 }}</ref>
 
रेफरी नाम = बोर्ग>{{cite book |last=Borg |first=I. |author2=Groenen, P. |author2-link=Patrick Groenen |title=आधुनिक बहुआकारीय मापांक: सिद्धांत और अनुप्रयोग|publisher=Springer-Verlag |location=New York |year=2005 |pages=207–212 |edition=2nd |isbn=978-0-387-94845-4 }}<nowiki></ref></nowiki>


एमडीएस में मुख्य सैद्धांतिक योगदान [[मैकगिल विश्वविद्यालय]] के जेम्स ओ रामसे द्वारा किया गया था, जिन्हें [[कार्यात्मक डेटा विश्लेषण]] के संस्थापक के रूप में भी माना जाता है।<ref name="jsto_ACon">{{Cite journal| title = जेम्स ओ रामसे के साथ बातचीत| journal = International Statistical Review / Revue Internationale de Statistique| jstor = 43299752| access-date = 30 June 2021| url = https://www.jstor.org/stable/43299752| quote = | last1 = Genest| first1 = Christian| last2 = Nešlehová| first2 = Johanna G.| last3 = Ramsay| first3 = James O.| year = 2014| volume = 82| issue = 2| pages = 161–183}}</ref>
एमडीएस में मुख्य सैद्धांतिक योगदान [[मैकगिल विश्वविद्यालय]] के जेम्स ओ रामसे द्वारा किया गया था, जिन्हें [[कार्यात्मक डेटा विश्लेषण]] के संस्थापक के रूप में भी माना जाता है।<ref name="jsto_ACon">{{Cite journal| title = जेम्स ओ रामसे के साथ बातचीत| journal = International Statistical Review / Revue Internationale de Statistique| jstor = 43299752| access-date = 30 June 2021| url = https://www.jstor.org/stable/43299752| quote = | last1 = Genest| first1 = Christian| last2 = Nešlehová| first2 = Johanna G.| last3 = Ramsay| first3 = James O.| year = 2014| volume = 82| issue = 2| pages = 161–183}}</ref>
Line 15: Line 16:
=== शास्त्रीय बहुआकारीय मापांक ===
=== शास्त्रीय बहुआकारीय मापांक ===


इसे प्रिंसिपल कोऑर्डिनेट्स एनालिसिस (PCoA), टॉरगर्सन मापांक या टॉरगर्सन-गॉवर मापांक के रूप में भी जाना जाता है। यह एक इनपुट मैट्रिक्स लेता है जो वस्तुओं के जोड़े के बीच असमानता देता है और एक समन्वय मैट्रिक्स को आउटपुट करता है जिसका कॉन्फ़िगरेशन ''तनाव'' नामक हानि फ़ंक्शन को कम करता है,<ref name="borg"/>जो द्वारा दिया गया है
इसे प्रिंसिपल कोऑर्डिनेट्स Nालिसिस (PCoA), टॉरगर्सन मापांक या टॉरगर्सन-गॉवर मापांक के रूप में भी जाना जाता है। यह एक इनपुट मैट्रिक्स लेता है जो वस्तुओं के जोड़े के बीच असमानता देता है और एक समन्वय मैट्रिक्स को आउटपुट करता है जिसका कॉन्फ़िगरेशन ''तनाव'' नामक हानि फ़ंक्शन को कम करता है,<ref name="borg"/>जो द्वारा दिया गया है
<math display=block>\text{Strain}_D(x_1,x_2,...,x_N)=\Biggl(\frac{ \sum_{i,j} \bigl( b_{ij} - x_i^T x_j \bigr)^2}{\sum_{i,j}b_{ij}^2} \Biggr)^{1/2},</math> कहाँ <math>x_{i}</math> एन-डायमेंशनल स्पेस में वैक्टर को निरूपित करें, <math>x_i^T x_j </math> के बीच स्केलर उत्पाद को दर्शाता है <math>x_{i}</math> और <math>x_{j}</math>, और <math>b_{ij}</math> मैट्रिक्स के तत्व हैं <math>B</math> निम्नलिखित एल्गोरिथम के चरण 2 पर परिभाषित किया गया है, जिसकी गणना दूरियों से की जाती है।
<math display=block>\text{Strain}_D(x_1,x_2,...,x_N)=\Biggl(\frac{ \sum_{i,j} \bigl( b_{ij} - x_i^T x_j \bigr)^2}{\sum_{i,j}b_{ij}^2} \Biggr)^{1/2},</math> कहाँ <math>x_{i}</math> N-डायमेंशनल स्पेस में वैक्टर को निरूपित करें, <math>x_i^T x_j </math> के बीच स्केलर उत्पाद को दर्शाता है <math>x_{i}</math> और <math>x_{j}</math>, और <math>b_{ij}</math> मैट्रिक्स के तत्व हैं <math>B</math> निम्नलिखित एल्गोरिथम के चरण 2 पर परिभाषित किया गया है, जिसकी गणना दूरियों से की जाती है।


: शास्त्रीय एमडीएस एल्गोरिथम के चरण:
: शास्त्रीय एमडीएस एल्गोरिथम के चरण:
: शास्त्रीय एमडीएस इस तथ्य का उपयोग करता है कि समन्वय मैट्रिक्स <math>X</math> एक मैट्रिक्स के Eigedecomposition से प्राप्त किया जा सकता है <math display="inline">B=XX'</math>. और मैट्रिक्स <math display="inline">B</math> निकटता मैट्रिक्स से गणना की जा सकती है <math display="inline">D</math> डबल सेंटरिंग का उपयोग करके।<ref>Wickelmaier, Florian. "An introduction to MDS." ''Sound Quality Research Unit, Aalborg University, Denmark'' (2003): 46</ref>
: शास्त्रीय एमडीएस इस तथ्य का उपयोग करता है कि समन्वय मैट्रिक्स <math>X</math> एक मैट्रिक्स के Eigedecomposition से प्राप्त किया जा सकता है <math display="inline">B=XX'</math>. और मैट्रिक्स <math display="inline">B</math> निकटता मैट्रिक्स से गणना की जा सकती है <math display="inline">D</math> डबल सेंटरिंग का उपयोग करके।<ref>Wickelmaier, Florian. "An introduction to MDS." ''Sound Quality Research Unit, Aalborg University, Denmark'' (2003): 46</ref>
:# चुकता निकटता मैट्रिक्स सेट करें <math display="inline">D^{(2)}=[d_{ij}^2]</math>
:# चुकता निकटता मैट्रिक्स समूह करें <math display="inline">D^{(2)}=[d_{ij}^2]</math>
:# डबल सेंटरिंग लागू करें: <math display="inline">B=-\frac{1}{2}CD^{(2)}C</math> [[केंद्रित मैट्रिक्स]] का उपयोग करना <math display="inline">C=I-\frac{1}{n}J_n</math>, कहाँ <math display="inline">n</math> वस्तुओं की संख्या है, <math display="inline">I</math> है <math display="inline">n \times n</math> पहचान मैट्रिक्स, और <math display="inline">J_{n}</math> एक <math display="inline">n\times n</math> सभी का मैट्रिक्स।
:# डबल सेंटरिंग लागू करें: <math display="inline">B=-\frac{1}{2}CD^{(2)}C</math> [[केंद्रित मैट्रिक्स]] का उपयोग करना <math display="inline">C=I-\frac{1}{n}J_n</math>, कहाँ <math display="inline">n</math> वस्तुओं की संख्या है, <math display="inline">I</math> है <math display="inline">n \times n</math> पहचान मैट्रिक्स, और <math display="inline">J_{n}</math> एक <math display="inline">n\times n</math> सभी का मैट्रिक्स।
:# निश्चित करो <math display="inline">m</math> सबसे बड़ा आइगेनवैल्यू और ईजेनवेक्टर <math display="inline">\lambda_1,\lambda_2,...,\lambda_m</math> और संबंधित आइगेनवैल्यू और ईजेनवेक्टर <math display="inline">e_1,e_2,...,e_m</math> का <math display="inline">B</math> (कहाँ <math display="inline">m</math> आउटपुट के लिए वांछित आयामों की संख्या है)।
:# निश्चित करो <math display="inline">m</math> सबसे बड़ा आइगेनवैल्यू और ईजेनवेक्टर <math display="inline">\lambda_1,\lambda_2,...,\lambda_m</math> और संबंधित आइगेनवैल्यू और ईजेनवेक्टर <math display="inline">e_1,e_2,...,e_m</math> का <math display="inline">B</math> (कहाँ <math display="inline">m</math> आउटपुट के लिए वांछित आयामों की संख्या है)।
Line 28: Line 29:
=== मीट्रिक बहुआकारीय मापांक (एमएमडीएस) ===
=== मीट्रिक बहुआकारीय मापांक (एमएमडीएस) ===


यह शास्त्रीय एमडीएस का एक सुपरसेट है जो विभिन्न प्रकार के हानि कार्यों और वजन के साथ ज्ञात दूरी के इनपुट मैट्रिसेस के लिए अनुकूलन प्रक्रिया को सामान्यीकृत करता है। इस संदर्भ में एक उपयोगी नुकसान समारोह को तनाव कहा जाता है, जिसे अक्सर तनाव प्रमुखकरण नामक प्रक्रिया का उपयोग करके कम किया जाता है। मीट्रिक एमडीएस "तनाव" नामक लागत फ़ंक्शन को कम करता है जो कि वर्गों का एक अवशिष्ट योग है:<blockquote><math>\text{Stress}_D(x_1,x_2,...,x_N)=\sqrt{\sum_{i\ne j=1,...,N}\bigl(d_{ij}-\|x_i-x_j\|\bigr)^2}.</math></ब्लॉककोट>
यह शास्त्रीय एमडीएस का एक सुपरसमूह है जो विभिन्न प्रकार के हानि कार्यों और वजन के साथ ज्ञात दूरी के इनपुट मैट्रिसेस के लिए अनुकूलन प्रक्रिया को सामान्यीकृत करता है। इस संदर्भ में एक उपयोगी नुकसान समारोह को तनाव कहा जाता है, जिसे अक्सर तनाव प्रमुखकरण नामक प्रक्रिया का उपयोग करके कम किया जाता है। मीट्रिक एमडीएस "तनाव" नामक लागत फ़ंक्शन को कम करता है जो कि वर्गों का एक अवशिष्ट योग है:<blockquote><math>\text{Stress}_D(x_1,x_2,...,x_N)=\sqrt{\sum_{i\ne j=1,...,N}\bigl(d_{ij}-\|x_i-x_j\|\bigr)^2}.</math></ब्लॉककोट>
मीट्रिक मापांक उपयोगकर्ता-नियंत्रित एक्सपोनेंट के साथ पावर ट्रांसफ़ॉर्मेशन का उपयोग करता है <math display="inline">p</math>: <math display="inline">d_{ij}^p</math> और <math display="inline">-d_{ij}^{2p}</math> दूरी के लिए। शास्त्रीय मापांक में <math display="inline">p=1.</math> गैर-मीट्रिक मापांक को आइसोटोनिक प्रतिगमन के उपयोग से परिभाषित किया जाता है ताकि गैर-पैरामीट्रिक रूप से असमानताओं के परिवर्तन का अनुमान लगाया जा सके।
मीट्रिक मापांक उपयोगकर्ता-नियंत्रित एक्सपोनेंट के साथ पावर ट्रांसफ़ॉर्मेशन का उपयोग करता है <math display="inline">p</math>: <math display="inline">d_{ij}^p</math> और <math display="inline">-d_{ij}^{2p}</math> दूरी के लिए। शास्त्रीय मापांक में <math display="inline">p=1.</math> गैर-मीट्रिक मापांक को आइसोटोनिक प्रतिगमन के उपयोग से परिभाषित किया जाता है ताकि गैर-पैरामीट्रिक रूप से असमानताओं के परिवर्तन का अनुमान लगाया जा सके।


===गैर-मीट्रिक बहुआकारीय मापांक (NMDS)===
===गैर-मीट्रिक बहुआकारीय मापांक (NMDS)===


मीट्रिक एमडीएस के विपरीत, गैर-मीट्रिक एमडीएस आइटम-आइटम मैट्रिक्स में असमानताओं और वस्तुओं के बीच यूक्लिडियन दूरी और निम्न-आयामी अंतरिक्ष में प्रत्येक आइटम के स्थान के बीच एक [[गैर पैरामीट्रिक]] [[मोनोटोनिक]] संबंध पाता है। संबंध आमतौर पर [[आइसोटोनिक प्रतिगमन]] का उपयोग करके पाया जाता है: चलो <math display="inline">x</math> निकटता के वेक्टर को निरूपित करें, <math display="inline">f(x)</math> का एक मोनोटोनिक परिवर्तन <math display="inline">x</math>, और <math display="inline">d</math> बिंदु दूरी; फिर निर्देशांक खोजने होंगे, जो तथाकथित तनाव को कम करें,
मीट्रिक एमडीएस के विपरीत, गैर-मीट्रिक एमडीएस आइटम-आइटम मैट्रिक्स में असमानताओं और वस्तुओं के बीच यूक्लिडियन दूरी और निम्न-आकारीय अंतरिक्ष में प्रत्येक आइटम के स्थान के बीच एक [[गैर पैरामीट्रिक]] [[मोनोटोनिक]] संबंध पाता है। संबंध सामान्यतौर पर [[आइसोटोनिक प्रतिगमन]] का उपयोग करके पाया जाता है: चलो <math display="inline">x</math> निकटता के वेक्टर को निरूपित करें, <math display="inline">f(x)</math> का एक मोनोटोनिक परिवर्तन <math display="inline">x</math>, और <math display="inline">d</math> बिंदु दूरी; फिर निर्देशांक खोजने होंगे, जो तथाकथित तनाव को कम करें,
:<ब्लॉककोट><math>\text{Stress}=\sqrt{\frac{\sum\bigl(f(x)-d\bigr)^2}{\sum d^2}}.</math></ब्लॉककोट>
:<ब्लॉककोट><math>\text{Stress}=\sqrt{\frac{\sum\bigl(f(x)-d\bigr)^2}{\sum d^2}}.</math></ब्लॉककोट>
इस लागत फलन के कुछ रूप मौजूद हैं। एमडीएस समाधान प्राप्त करने के लिए एमडीएस कार्यक्रम स्वचालित रूप से तनाव को कम करते हैं।
इस लागत फलन के कुछ रूप मौजूद हैं। एमडीएस समाधान प्राप्त करने के लिए एमडीएस कार्यक्रम स्वचालित रूप से तनाव को कम करते हैं।
Line 46: Line 47:


=== सामान्यीकृत बहुआकारीय मापांक (जीएमडी) ===
=== सामान्यीकृत बहुआकारीय मापांक (जीएमडी) ===
{{main|Generalized multidimensional scaling}}
मीट्रिक बहुआकारीय मापांक का एक विस्तार, जिसमें लक्ष्य स्थान एक मनमाना चिकनी गैर-यूक्लिडियन स्थान है। ऐसे स्थितियों में जहां असमानताएं एक सतह पर दूरियां हैं और लक्ष्य स्थान दूसरी सतह है, जीएमडीएस एक सतह की दूसरी सतह में न्यूनतम-विरूपण एम्बेडिंग खोजने की अनुमति देता है।<ref name="bron">{{cite journal |vauthors=Bronstein AM, Bronstein MM, Kimmel R |title=Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching |journal=Proc. Natl. Acad. Sci. U.S.A. |volume=103 |issue=5 |pages=1168–72 |date=January 2006 |pmid=16432211 |pmc=1360551 |doi=10.1073/pnas.0508601103 |bibcode=2006PNAS..103.1168B |doi-access=free }}</ref>
मीट्रिक बहुआकारीय मापांक का एक विस्तार, जिसमें लक्ष्य स्थान एक मनमाना चिकनी गैर-यूक्लिडियन स्थान है। ऐसे स्थितियों में जहां असमानताएं एक सतह पर दूरियां हैं और लक्ष्य स्थान दूसरी सतह है, जीएमडीएस एक सतह की दूसरी सतह में न्यूनतम-विरूपण एम्बेडिंग खोजने की अनुमति देता है।<ref name="bron">{{cite journal |vauthors=Bronstein AM, Bronstein MM, Kimmel R |title=Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching |journal=Proc. Natl. Acad. Sci. U.S.A. |volume=103 |issue=5 |pages=1168–72 |date=January 2006 |pmid=16432211 |pmc=1360551 |doi=10.1073/pnas.0508601103 |bibcode=2006PNAS..103.1168B |doi-access=free }}</ref>




== विवरण ==
 
'''<big>विवरण</big>'''


विश्लेषण किए जाने वाले डेटा का एक संग्रह है <math>M</math> ऑब्जेक्ट्स (रंग, चेहरे, स्टॉक, ...) जिस पर एक दूरी समारोह परिभाषित किया गया है,
विश्लेषण किए जाने वाले डेटा का एक संग्रह है <math>M</math> ऑब्जेक्ट्स (रंग, चेहरे, स्टॉक, ...) जिस पर एक दूरी समारोह परिभाषित किया गया है,
Line 72: Line 73:


कहाँ <math>\|\cdot\|</math> एक गुणावली (गणित) है। शास्त्रीय एमडीएस में, यह मानदंड यूक्लिडियन दूरी है, लेकिन, व्यापक अर्थों में, यह एक [[मीट्रिक (गणित)]] या मनमाने ढंग से दूरी का कार्य हो सकता है।<ref name="Kruskal">[[Joseph Kruskal|Kruskal, J. B.]], and Wish, M. (1978), ''Multidimensional Scaling'', Sage University Paper series on Quantitative Application in the Social Sciences, 07-011. Beverly Hills and London: Sage Publications.</ref>
कहाँ <math>\|\cdot\|</math> एक गुणावली (गणित) है। शास्त्रीय एमडीएस में, यह मानदंड यूक्लिडियन दूरी है, लेकिन, व्यापक अर्थों में, यह एक [[मीट्रिक (गणित)]] या मनमाने ढंग से दूरी का कार्य हो सकता है।<ref name="Kruskal">[[Joseph Kruskal|Kruskal, J. B.]], and Wish, M. (1978), ''Multidimensional Scaling'', Sage University Paper series on Quantitative Application in the Social Sciences, 07-011. Beverly Hills and London: Sage Publications.</ref>
दूसरे शब्दों में, एमडीएस से आलेखन खोजने का प्रयास करता है <math>M</math> वस्तुओं में <math>\mathbb{R}^N</math> ताकि दूरियां बनी रहें। यदि आयाम <math>N</math> 2 या 3 चुना जाता है, तो हम सदिशों को आलेखित कर सकते हैं <math>x_i</math> के बीच समानता का एक दृश्य प्राप्त करने के लिए <math>M</math> वस्तुओं। ध्यान दें कि वैक्टर <math>x_i</math> अद्वितीय नहीं हैं: यूक्लिडियन दूरी के साथ, उन्हें मनमाने ढंग से अनुवादित, घुमाया और प्रतिबिंबित किया जा सकता है, क्योंकि ये परिवर्तन जोड़ीदार दूरियों को नहीं बदलते हैं <math>\|x_i - x_j\|</math>.
दूसरे शब्दों में, एमडीएस से आलेखन खोजने का प्रयास करता है <math>M</math> वस्तुओं में <math>\mathbb{R}^N</math> ताकि दूरियां बनी रहें। यदि आयाम <math>N</math> 2 या 3 चुना जाता है, तो हम सदिशों को आलेखित कर सकते हैं <math>x_i</math> के बीच समानता का एक दृश्य प्राप्त करने के लिए <math>M</math> वस्तुओं। ध्यान दें कि वैक्टर <math>x_i</math> अद्वितीय नहीं हैं: यूक्लिडियन दूरी के साथ, उन्हें मनमाने ढंग से अनुवादित, घुमाया और प्रतिबिंबित किया जा सकता है, क्योंकि ये परिवर्तन जोड़ीदार दूरियों को नहीं बदलते हैं <math>\|x_i - x_j\|</math>.


(नोट: प्रतीक <math>\mathbb{R}</math> [[वास्तविक संख्या]]ओं के समुच्चय और अंकन को इंगित करता है <math>\mathbb{R}^N</math> के कार्टेशियन उत्पाद को संदर्भित करता है <math>N</math> की प्रतियां <math>\mathbb{R}</math>, जो एक है <math>N</math>वास्तविक संख्याओं के क्षेत्र में आयामी सदिश स्थान।)
(नोट: प्रतीक <math>\mathbb{R}</math> [[वास्तविक संख्या]]ओं के समुच्चय और अंकन को इंगित करता है <math>\mathbb{R}^N</math> के कार्टेशियन उत्पाद को संदर्भित करता है <math>N</math> की प्रतियां <math>\mathbb{R}</math>, जो एक है <math>N</math>वास्तविक संख्याओं के क्षेत्र में आकारीय सदिश स्थान।)


वैक्टर का निर्धारण करने के लिए विभिन्न दृष्टिकोण हैं <math>x_i</math>. आम तौर पर, एमडीएस को [[अनुकूलन (गणित)]] के रूप में तैयार किया जाता है, जहां <math>(x_1,\ldots,x_M)</math> उदाहरण के लिए, कुछ लागत फ़ंक्शन के न्यूनतमकर्ता के रूप में पाया जाता है,
वैक्टर का निर्धारण करने के लिए विभिन्न दृष्टिकोण हैं <math>x_i</math>. सामान्यतौर पर, एमडीएस को [[अनुकूलन (गणित)]] के रूप में तैयार किया जाता है, जहां <math>(x_1,\ldots,x_M)</math> उदाहरण के लिए, कुछ लागत फ़ंक्शन के न्यूनतमकर्ता के रूप में पाया जाता है,


:<math> \underset{x_1,\ldots,x_M}{\mathrm{argmin}} \sum_{i<j} ( \|x_i - x_j\| - d_{i,j} )^2. \, </math>
:<math> \underset{x_1,\ldots,x_M}{\mathrm{argmin}} \sum_{i<j} ( \|x_i - x_j\| - d_{i,j} )^2. \, </math>
Line 85: Line 87:
MDS अनुसंधान करने के कई चरण हैं:
MDS अनुसंधान करने के कई चरण हैं:
# समस्या का निरूपण - आप किन चरों की तुलना करना चाहते हैं? आप कितने चरों की तुलना करना चाहते हैं? अध्ययन किस उद्देश्य के लिए किया जाना है?
# समस्या का निरूपण - आप किन चरों की तुलना करना चाहते हैं? आप कितने चरों की तुलना करना चाहते हैं? अध्ययन किस उद्देश्य के लिए किया जाना है?
# इनपुट डेटा प्राप्त करना - उदाहरण के लिए, :- उत्तरदाताओं से प्रश्नों की एक श्रृंखला पूछी जाती है। प्रत्येक उत्पाद जोड़ी के लिए, उन्हें समानता को रेट करने के लिए कहा जाता है (आमतौर पर 7-पॉइंट [[ लाइकेर्ट स्केल ]] पर बहुत समान से बहुत भिन्न)। उदाहरण के लिए पहला प्रश्न कोक/पेप्सी के लिए हो सकता है, अगला प्रश्न कोक/हायर्स रूटबीयर के लिए, अगला प्रश्न पेप्सी/डॉ. पेपर के लिए, अगला प्रश्न डॉ. पेपर/हायर्स रूटबीयर आदि के लिए हो सकता है। प्रश्नों की संख्या प्रश्नों की संख्या का फलन है। ब्रांड और के रूप में गणना की जा सकती है <math>Q = N (N - 1) / 2</math> जहाँ Q प्रश्नों की संख्या है और N ब्रांडों की संख्या है। इस दृष्टिकोण को "धारणा डेटा: प्रत्यक्ष दृष्टिकोण" के रूप में जाना जाता है। दो अन्य दृष्टिकोण हैं। "धारणा डेटा: व्युत्पन्न दृष्टिकोण" है जिसमें उत्पादों को [[सिमेंटिक अंतर]] स्केल पर रेट किए गए गुणों में विघटित किया जाता है। दूसरा "वरीयता डेटा दृष्टिकोण" है जिसमें उत्तरदाताओं से समानता के बजाय उनकी वरीयता पूछी जाती है।
# इनपुट डेटा प्राप्त करना - उदाहरण के लिए, :- उत्तरदाताओं से प्रश्नों की एक श्रृंखला पूछी जाती है। प्रत्येक उत्पाद जोड़ी के लिए, उन्हें समानता को रेट करने के लिए कहा जाता है (सामान्यतौर पर 7-पॉइंट [[ लाइकेर्ट स्केल ]] पर बहुत समान से बहुत भिन्न)। उदाहरण के लिए पहला प्रश्न कोक/पेप्सी के लिए हो सकता है, अगला प्रश्न कोक/हायर्स रूटबीयर के लिए, अगला प्रश्न पेप्सी/डॉ. पेपर के लिए, अगला प्रश्न डॉ. पेपर/हायर्स रूटबीयर आदि के लिए हो सकता है। प्रश्नों की संख्या प्रश्नों की संख्या का फलन है। ब्रांड और के रूप में गणना की जा सकती है <math>Q = N (N - 1) / 2</math> जहाँ Q प्रश्नों की संख्या है और N ब्रांडों की संख्या है। इस दृष्टिकोण को "धारणा डेटा: प्रत्यक्ष दृष्टिकोण" के रूप में जाना जाता है। दो अन्य दृष्टिकोण हैं। "धारणा डेटा: व्युत्पन्न दृष्टिकोण" है जिसमें उत्पादों को [[सिमेंटिक अंतर]] स्केल पर रेट किए गए गुणों में विघटित किया जाता है। दूसरा "वरीयता डेटा दृष्टिकोण" है जिसमें उत्तरदाताओं से समानता के बजाय उनकी वरीयता पूछी जाती है।
# 'एमडीएस सांख्यिकीय कार्यक्रम चलाना' - प्रक्रिया को चलाने के लिए सॉफ्टवेयर कई सांख्यिकीय सॉफ्टवेयर पैकेजों में उपलब्ध है। अक्सर मेट्रिक एमडीएस (जो अंतराल या अनुपात स्तर डेटा से संबंधित होता है) और नॉनमेट्रिक एमडीएस के बीच एक विकल्प होता है<ref>{{cite journal|first1=J. B.|last1=Kruskal| author-link=Joseph Kruskal| title=एक गैर-मीट्रिक परिकल्पना के लिए फिट की अच्छाई का अनुकूलन करके बहुआयामी स्केलिंग|journal=Psychometrika|pages=1–27| volume=29| issue=1| year=1964| doi=10.1007/BF02289565|s2cid=48165675}}</ref> (जो क्रमिक डेटा से संबंधित है)।
# 'एमडीएस सांख्यिकीय कार्यक्रम चलाना' - प्रक्रिया को चलाने के लिए सॉफ्टवेयर कई सांख्यिकीय सॉफ्टवेयर पैकेजों में उपलब्ध है। अक्सर मेट्रिक एमडीएस (जो अंतराल या अनुपात स्तर डेटा से संबंधित होता है) और नॉनमेट्रिक एमडीएस के बीच एक विकल्प होता है<ref>{{cite journal|first1=J. B.|last1=Kruskal| author-link=Joseph Kruskal| title=एक गैर-मीट्रिक परिकल्पना के लिए फिट की अच्छाई का अनुकूलन करके बहुआयामी स्केलिंग|journal=Psychometrika|pages=1–27| volume=29| issue=1| year=1964| doi=10.1007/BF02289565|s2cid=48165675}}</ref> (जो क्रमिक डेटा से संबंधित है)।
# आयामों की संख्या तय करें - शोधकर्ता को यह तय करना होगा कि वे कितने आयामों को कंप्यूटर बनाना चाहते हैं। एमडीएस समाधान की व्याख्या अक्सर महत्वपूर्ण होती है, और निम्न आयामी समाधान आमतौर पर व्याख्या और कल्पना करना आसान होगा। हालाँकि, आयाम चयन भी अंडरफिटिंग और ओवरफिटिंग को संतुलित करने का एक मुद्दा है। असमानता डेटा के महत्वपूर्ण आयामों को छोड़कर निम्न आयामी समाधान कम हो सकते हैं। असमानता माप में शोर के लिए उच्च आयामी समाधान अधिक हो सकते हैं। Akaike सूचना मानदंड, [[बायेसियन सूचना मानदंड]], [[बेयस कारक]], या [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन जैसे मॉडल चयन उपकरण इस प्रकार उस आयाम का चयन करने के लिए उपयोगी हो सकते हैं जो अंडरफिटिंग और ओवरफिटिंग को संतुलित करता है।
# आयामों की संख्या तय करें - शोधकर्ता को यह तय करना होगा कि वे कितने आयामों को कंप्यूटर बनाना चाहते हैं। एमडीएस समाधान की व्याख्या अक्सर महत्वपूर्ण होती है, और निम्न आकारीय समाधान सामान्यतौर पर व्याख्या और कल्पना करना आसान होगा। हालाँकि, आयाम चयन भी अंडरफिटिंग और ओवरफिटिंग को संतुलित करने का एक मुद्दा है। असमानता डेटा के महत्वपूर्ण आयामों को छोड़कर निम्न आकारीय समाधान कम हो सकते हैं। असमानता माप में शोर के लिए उच्च आकारीय समाधान अधिक हो सकते हैं। Akaike सूचना मानदंड, [[बायेसियन सूचना मानदंड]], [[बेयस कारक]], या [[क्रॉस-सत्यापन (सांख्यिकी)]] | क्रॉस-सत्यापन जैसे मॉडल चयन उपकरण इस प्रकार उस आयाम का चयन करने के लिए उपयोगी हो सकते हैं जो अंडरफिटिंग और ओवरफिटिंग को संतुलित करता है।
# परिणामों की आलेखन और आयामों को परिभाषित करना - सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणामों को मैप करेगा। नक्शा प्रत्येक उत्पाद को प्लॉट करेगा (आमतौर पर द्वि-आयामी अंतरिक्ष में)। उत्पादों की एक दूसरे से निकटता यह दर्शाती है कि वे कितने समान हैं या उन्हें कितना पसंद किया जाता है, यह इस बात पर निर्भर करता है कि किस दृष्टिकोण का उपयोग किया गया था। एम्बेडिंग के आयाम वास्तव में सिस्टम व्यवहार के आयामों के अनुरूप कैसे हैं, हालांकि, यह स्पष्ट नहीं है। यहां, पत्राचार के बारे में एक व्यक्तिपरक निर्णय किया जा सकता है ([[अवधारणात्मक मानचित्रण]] देखें)।
# परिणामों की आलेखन और आयामों को परिभाषित करना - सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणामों को मैप करेगा। नक्शा प्रत्येक उत्पाद को प्लॉट करेगा (सामान्यतौर पर द्वि-आकारीय अंतरिक्ष में)। उत्पादों की एक दूसरे से निकटता यह दर्शाती है कि वे कितने समान हैं या उन्हें कितना पसंद किया जाता है, यह इस बात पर निर्भर करता है कि किस दृष्टिकोण का उपयोग किया गया था। एम्बेडिंग के आयाम वास्तव में सिस्टम व्यवहार के आयामों के अनुरूप कैसे हैं, हालांकि, यह स्पष्ट नहीं है। यहां, पत्राचार के बारे में एक व्यक्तिपरक निर्णय किया जा सकता है ([[अवधारणात्मक मानचित्रण]] देखें)।
# विश्वसनीयता और वैधता के लिए परिणामों का परीक्षण करें - यह निर्धारित करने के लिए [[आर चुकता]] की गणना करें कि स्केल किए गए डेटा के किस अनुपात का MDS प्रक्रिया द्वारा हिसाब लगाया जा सकता है। 0.6 का एक आर-वर्ग न्यूनतम स्वीकार्य स्तर माना जाता है। {{Citation needed|date=February 2011}} 0.8 का एक आर-वर्ग मीट्रिक मापांक के लिए अच्छा माना जाता है और .9 गैर-मीट्रिक मापांक के लिए अच्छा माना जाता है। अन्य संभावित परीक्षण क्रुस्कल का तनाव, विभाजित डेटा परीक्षण, डेटा स्थिरता परीक्षण (यानी, एक ब्रांड को समाप्त करना), और परीक्षण-पुनः परीक्षण विश्वसनीयता हैं।
# विश्वसनीयता और वैधता के लिए परिणामों का परीक्षण करें - यह निर्धारित करने के लिए [[आर चुकता]] की गणना करें कि स्केल किए गए डेटा के किस अनुपात का MDS प्रक्रिया द्वारा हिसाब लगाया जा सकता है। 0.6 का एक आर-वर्ग न्यूनतम स्वीकार्य स्तर माना जाता है। {{Citation needed|date=February 2011}} 0.8 का एक आर-वर्ग मीट्रिक मापांक के लिए अच्छा माना जाता है और .9 गैर-मीट्रिक मापांक के लिए अच्छा माना जाता है। अन्य संभावित परीक्षण क्रुस्कल का तनाव, विभाजित डेटा परीक्षण, डेटा स्थिरता परीक्षण (यानी, एक ब्रांड को समाप्त करना), और परीक्षण-पुनः परीक्षण विश्वसनीयता हैं।
# परिणामों की व्यापक रूप से रिपोर्ट करें - आलेखन के साथ, कम से कम दूरी माप (जैसे, [[सोरेनसन इंडेक्स]], [[जैकार्ड इंडेक्स]]) और विश्वसनीयता (जैसे, तनाव मूल्य) दी जानी चाहिए। एल्गोरिदम (उदाहरण के लिए, क्रुस्कल, माथेर) देने की भी सलाह दी जाती है, जिसे अक्सर उपयोग किए जाने वाले प्रोग्राम द्वारा परिभाषित किया जाता है (कभी-कभी एल्गोरिथम रिपोर्ट की जगह), यदि आपने एक स्टार्ट कॉन्फ़िगरेशन दिया है या एक यादृच्छिक विकल्प है, तो रनों की संख्या , आयाम का मूल्यांकन[[मोंटे कार्लो विधि]] पद्धति के परिणाम, पुनरावृत्तियों की संख्या, स्थिरता का मूल्यांकन और प्रत्येक अक्ष (आर-स्क्वायर) का आनुपातिक विचरण।
# परिणामों की व्यापक रूप से रिपोर्ट करें - आलेखन के साथ, कम से कम दूरी माप (जैसे, [[सोरेनसन इंडेक्स]], [[जैकार्ड इंडेक्स]]) और विश्वसनीयता (जैसे, तनाव मूल्य) दी जानी चाहिए। एल्गोरिदम (उदाहरण के लिए, क्रुस्कल, माथेर) देने की भी सलाह दी जाती है, जिसे अक्सर उपयोग किए जाने वाले प्रोग्राम द्वारा परिभाषित किया जाता है (कभी-कभी एल्गोरिथम रिपोर्ट की जगह), यदि आपने एक स्टार्ट कॉन्फ़िगरेशन दिया है या एक यादृच्छिक विकल्प है, तो रनों की संख्या , आयाम का मूल्यांकन[[मोंटे कार्लो विधि]] पद्धति के परिणाम, पुनरावृत्तियों की संख्या, स्थिरता का मूल्यांकन और प्रत्येक अक्ष (आर-स्क्वायर) का आनुपातिक विचरण।
Line 103: Line 105:
* [[कारक विश्लेषण]]
* [[कारक विश्लेषण]]
* [[विभेदक विश्लेषण]]
* [[विभेदक विश्लेषण]]
* [[आयामीता में कमी]]
* [[आयामीता में कमी|आकारीयता में कमी]]
* [[दूरी ज्यामिति]]
* [[दूरी ज्यामिति]]
* केली-मेंजर निर्धारक
* केली-मेंजर निर्धारक

Revision as of 22:38, 1 June 2023

संयुक्त राज्य अमेरिका के प्रतिनिधि सभा में वोटिंग पैटर्न पर लागू शास्त्रीय बहुआकारीय मापांक का एक उदाहरण। प्रत्येक लाल बिंदु सदन के एक रिपब्लिकन सदस्य का प्रतिनिधित्व करता है, और प्रत्येक नीला बिंदु एक डेमोक्रेट का प्रतिनिधित्व करता है।

बहुआकारीय मापांक (एमडीएस) डेटा समूह के अलग-अलग स्थितियों की समानता के स्तर को कल्पना करने का एक साधन है। एमडीएस का उपयोग, कार्टेशियन समन्वय प्रणाली में आलेख किए गए अंको के विन्यास के लिए व्यक्तियों या वस्तुओं की दो की जोड़ी के समूह के अंतराल की जानकारी को अनुवाद करने के लिए किया जाता है।[1]

अधिक तकनीकी रूप से, एमडीएस विशेष रूप से एक दूरी मैट्रिक्स में निहित जानकारी को प्रदर्शित करने के लिए काल्पनिक सूचना में उपयोग की जाने वाली संबंधित समन्वय तकनीकों के एक समूह को संदर्भित करता है। यह गैर-रैखिक आकारीय कमी का एक रूप है।

एक समूह में वस्तुओं की प्रत्येक जोड़ी के बीच की दूरी के साथ एक दूरी मैट्रिक्स, और आयामों की एक चुनी हुई संख्या, एन, एक एमडीएस कलन विधि प्रत्येक वस्तु को N-आकारीय स्थान (एक निम्न-आकारीय प्रतिनिधित्व) में रखता है, जैसे कि वस्तु के बीच की दूरी यथासंभव संरक्षित हैं। N = 1, 2 और 3 के लिए, परिणामी बिंदुओं को तितर बितर भूखंडों पर देखा जा सकता है।

रेफरी नाम = बोर्ग>Borg, I.; Groenen, P. (2005). आधुनिक बहुआकारीय मापांक: सिद्धांत और अनुप्रयोग (2nd ed.). New York: Springer-Verlag. pp. 207–212. ISBN 978-0-387-94845-4.</ref>

एमडीएस में मुख्य सैद्धांतिक योगदान मैकगिल विश्वविद्यालय के जेम्स ओ रामसे द्वारा किया गया था, जिन्हें कार्यात्मक डेटा विश्लेषण के संस्थापक के रूप में भी माना जाता है।[2]

प्रकार

एमडीएस एल्गोरिदम इनपुट मैट्रिक्स के अर्थ के आधार पर वर्गीकरण (सामान्य) में आते हैं:

शास्त्रीय बहुआकारीय मापांक

इसे प्रिंसिपल कोऑर्डिनेट्स Nालिसिस (PCoA), टॉरगर्सन मापांक या टॉरगर्सन-गॉवर मापांक के रूप में भी जाना जाता है। यह एक इनपुट मैट्रिक्स लेता है जो वस्तुओं के जोड़े के बीच असमानता देता है और एक समन्वय मैट्रिक्स को आउटपुट करता है जिसका कॉन्फ़िगरेशन तनाव नामक हानि फ़ंक्शन को कम करता है,[3]जो द्वारा दिया गया है

कहाँ N-डायमेंशनल स्पेस में वैक्टर को निरूपित करें, के बीच स्केलर उत्पाद को दर्शाता है और , और मैट्रिक्स के तत्व हैं निम्नलिखित एल्गोरिथम के चरण 2 पर परिभाषित किया गया है, जिसकी गणना दूरियों से की जाती है।

शास्त्रीय एमडीएस एल्गोरिथम के चरण:
शास्त्रीय एमडीएस इस तथ्य का उपयोग करता है कि समन्वय मैट्रिक्स एक मैट्रिक्स के Eigedecomposition से प्राप्त किया जा सकता है . और मैट्रिक्स निकटता मैट्रिक्स से गणना की जा सकती है डबल सेंटरिंग का उपयोग करके।[4]
  1. चुकता निकटता मैट्रिक्स समूह करें
  2. डबल सेंटरिंग लागू करें: केंद्रित मैट्रिक्स का उपयोग करना , कहाँ वस्तुओं की संख्या है, है पहचान मैट्रिक्स, और एक सभी का मैट्रिक्स।
  3. निश्चित करो सबसे बड़ा आइगेनवैल्यू और ईजेनवेक्टर और संबंधित आइगेनवैल्यू और ईजेनवेक्टर का (कहाँ आउटपुट के लिए वांछित आयामों की संख्या है)।
  4. अब, , कहाँ का मैट्रिक्स है ईजेनवेक्टर और का विकर्ण मैट्रिक्स है के आइगेनवैल्यू .
शास्त्रीय एमडीएस यूक्लिडियन दूरी की दूरी मानता है। तो यह प्रत्यक्ष असमानता रेटिंग के लिए लागू नहीं है।

मीट्रिक बहुआकारीय मापांक (एमएमडीएस)

यह शास्त्रीय एमडीएस का एक सुपरसमूह है जो विभिन्न प्रकार के हानि कार्यों और वजन के साथ ज्ञात दूरी के इनपुट मैट्रिसेस के लिए अनुकूलन प्रक्रिया को सामान्यीकृत करता है। इस संदर्भ में एक उपयोगी नुकसान समारोह को तनाव कहा जाता है, जिसे अक्सर तनाव प्रमुखकरण नामक प्रक्रिया का उपयोग करके कम किया जाता है। मीट्रिक एमडीएस "तनाव" नामक लागत फ़ंक्शन को कम करता है जो कि वर्गों का एक अवशिष्ट योग है:

</ब्लॉककोट>

मीट्रिक मापांक उपयोगकर्ता-नियंत्रित एक्सपोनेंट के साथ पावर ट्रांसफ़ॉर्मेशन का उपयोग करता है : और दूरी के लिए। शास्त्रीय मापांक में गैर-मीट्रिक मापांक को आइसोटोनिक प्रतिगमन के उपयोग से परिभाषित किया जाता है ताकि गैर-पैरामीट्रिक रूप से असमानताओं के परिवर्तन का अनुमान लगाया जा सके।

गैर-मीट्रिक बहुआकारीय मापांक (NMDS)

मीट्रिक एमडीएस के विपरीत, गैर-मीट्रिक एमडीएस आइटम-आइटम मैट्रिक्स में असमानताओं और वस्तुओं के बीच यूक्लिडियन दूरी और निम्न-आकारीय अंतरिक्ष में प्रत्येक आइटम के स्थान के बीच एक गैर पैरामीट्रिक मोनोटोनिक संबंध पाता है। संबंध सामान्यतौर पर आइसोटोनिक प्रतिगमन का उपयोग करके पाया जाता है: चलो निकटता के वेक्टर को निरूपित करें, का एक मोनोटोनिक परिवर्तन , और बिंदु दूरी; फिर निर्देशांक खोजने होंगे, जो तथाकथित तनाव को कम करें,

<ब्लॉककोट></ब्लॉककोट>

इस लागत फलन के कुछ रूप मौजूद हैं। एमडीएस समाधान प्राप्त करने के लिए एमडीएस कार्यक्रम स्वचालित रूप से तनाव को कम करते हैं।

एक गैर-मीट्रिक एमडीएस एल्गोरिथम का मूल एक दोहरा अनुकूलन प्रक्रिया है। सबसे पहले समीपताओं का इष्टतम मोनोटोनिक परिवर्तन पाया जाना है। दूसरे, एक विन्यास के बिंदुओं को बेहतर ढंग से व्यवस्थित किया जाना चाहिए, ताकि उनकी दूरियां स्केल की गई निकटता से यथासंभव निकटता से मेल खा सकें। एक गैर-मीट्रिक एमडीएस एल्गोरिथम में बुनियादी कदम हैं:

  1. बिंदुओं का एक यादृच्छिक विन्यास खोजें, उदा। जी। एक सामान्य वितरण से नमूनाकरण द्वारा।
  2. बिंदुओं के बीच की दूरी d की गणना करें।
  3. इष्टतम स्केल किए गए डेटा को प्राप्त करने के लिए निकटता के इष्टतम मोनोटोनिक परिवर्तन का पता लगाएं .
  4. बिंदुओं का एक नया विन्यास खोजकर इष्टतम रूप से मापे गए डेटा और दूरियों के बीच तनाव को कम करें।
  5. तनाव की तुलना किसी कसौटी से करें। यदि तनाव काफी छोटा है तो एल्गोरिथम से बाहर निकलें अन्यथा 2 पर लौटें।

लुई गुटमैन का सबसे छोटा अंतरिक्ष विश्लेषण (एसएसए) एक गैर-मीट्रिक एमडीएस प्रक्रिया का एक उदाहरण है।

सामान्यीकृत बहुआकारीय मापांक (जीएमडी)

मीट्रिक बहुआकारीय मापांक का एक विस्तार, जिसमें लक्ष्य स्थान एक मनमाना चिकनी गैर-यूक्लिडियन स्थान है। ऐसे स्थितियों में जहां असमानताएं एक सतह पर दूरियां हैं और लक्ष्य स्थान दूसरी सतह है, जीएमडीएस एक सतह की दूसरी सतह में न्यूनतम-विरूपण एम्बेडिंग खोजने की अनुमति देता है।[5]


विवरण

विश्लेषण किए जाने वाले डेटा का एक संग्रह है ऑब्जेक्ट्स (रंग, चेहरे, स्टॉक, ...) जिस पर एक दूरी समारोह परिभाषित किया गया है,

बीच की दूरी -वें और -वीं वस्तुएं।

ये दूरियाँ असमानता मैट्रिक्स की प्रविष्टियाँ हैं

एमडीएस का लक्ष्य दिया गया है , ढूँढ़ने के लिए वैक्टर ऐसा है कि

सभी के लिए ,

कहाँ एक गुणावली (गणित) है। शास्त्रीय एमडीएस में, यह मानदंड यूक्लिडियन दूरी है, लेकिन, व्यापक अर्थों में, यह एक मीट्रिक (गणित) या मनमाने ढंग से दूरी का कार्य हो सकता है।[6]

दूसरे शब्दों में, एमडीएस से आलेखन खोजने का प्रयास करता है वस्तुओं में ताकि दूरियां बनी रहें। यदि आयाम 2 या 3 चुना जाता है, तो हम सदिशों को आलेखित कर सकते हैं के बीच समानता का एक दृश्य प्राप्त करने के लिए वस्तुओं। ध्यान दें कि वैक्टर अद्वितीय नहीं हैं: यूक्लिडियन दूरी के साथ, उन्हें मनमाने ढंग से अनुवादित, घुमाया और प्रतिबिंबित किया जा सकता है, क्योंकि ये परिवर्तन जोड़ीदार दूरियों को नहीं बदलते हैं .

(नोट: प्रतीक वास्तविक संख्याओं के समुच्चय और अंकन को इंगित करता है के कार्टेशियन उत्पाद को संदर्भित करता है की प्रतियां , जो एक है वास्तविक संख्याओं के क्षेत्र में आकारीय सदिश स्थान।)

वैक्टर का निर्धारण करने के लिए विभिन्न दृष्टिकोण हैं . सामान्यतौर पर, एमडीएस को अनुकूलन (गणित) के रूप में तैयार किया जाता है, जहां उदाहरण के लिए, कुछ लागत फ़ंक्शन के न्यूनतमकर्ता के रूप में पाया जाता है,

एक समाधान तब संख्यात्मक अनुकूलन तकनीकों द्वारा पाया जा सकता है। कुछ विशेष रूप से चुने गए लागत कार्यों के लिए, मैट्रिक्स के मैट्रिक्स Eigedecomposition के संदर्भ में मिनिमाइज़र को विश्लेषणात्मक रूप से कहा जा सकता है।[3]


प्रक्रिया

MDS अनुसंधान करने के कई चरण हैं:

  1. समस्या का निरूपण - आप किन चरों की तुलना करना चाहते हैं? आप कितने चरों की तुलना करना चाहते हैं? अध्ययन किस उद्देश्य के लिए किया जाना है?
  2. इनपुट डेटा प्राप्त करना - उदाहरण के लिए, :- उत्तरदाताओं से प्रश्नों की एक श्रृंखला पूछी जाती है। प्रत्येक उत्पाद जोड़ी के लिए, उन्हें समानता को रेट करने के लिए कहा जाता है (सामान्यतौर पर 7-पॉइंट लाइकेर्ट स्केल पर बहुत समान से बहुत भिन्न)। उदाहरण के लिए पहला प्रश्न कोक/पेप्सी के लिए हो सकता है, अगला प्रश्न कोक/हायर्स रूटबीयर के लिए, अगला प्रश्न पेप्सी/डॉ. पेपर के लिए, अगला प्रश्न डॉ. पेपर/हायर्स रूटबीयर आदि के लिए हो सकता है। प्रश्नों की संख्या प्रश्नों की संख्या का फलन है। ब्रांड और के रूप में गणना की जा सकती है जहाँ Q प्रश्नों की संख्या है और N ब्रांडों की संख्या है। इस दृष्टिकोण को "धारणा डेटा: प्रत्यक्ष दृष्टिकोण" के रूप में जाना जाता है। दो अन्य दृष्टिकोण हैं। "धारणा डेटा: व्युत्पन्न दृष्टिकोण" है जिसमें उत्पादों को सिमेंटिक अंतर स्केल पर रेट किए गए गुणों में विघटित किया जाता है। दूसरा "वरीयता डेटा दृष्टिकोण" है जिसमें उत्तरदाताओं से समानता के बजाय उनकी वरीयता पूछी जाती है।
  3. 'एमडीएस सांख्यिकीय कार्यक्रम चलाना' - प्रक्रिया को चलाने के लिए सॉफ्टवेयर कई सांख्यिकीय सॉफ्टवेयर पैकेजों में उपलब्ध है। अक्सर मेट्रिक एमडीएस (जो अंतराल या अनुपात स्तर डेटा से संबंधित होता है) और नॉनमेट्रिक एमडीएस के बीच एक विकल्प होता है[7] (जो क्रमिक डेटा से संबंधित है)।
  4. आयामों की संख्या तय करें - शोधकर्ता को यह तय करना होगा कि वे कितने आयामों को कंप्यूटर बनाना चाहते हैं। एमडीएस समाधान की व्याख्या अक्सर महत्वपूर्ण होती है, और निम्न आकारीय समाधान सामान्यतौर पर व्याख्या और कल्पना करना आसान होगा। हालाँकि, आयाम चयन भी अंडरफिटिंग और ओवरफिटिंग को संतुलित करने का एक मुद्दा है। असमानता डेटा के महत्वपूर्ण आयामों को छोड़कर निम्न आकारीय समाधान कम हो सकते हैं। असमानता माप में शोर के लिए उच्च आकारीय समाधान अधिक हो सकते हैं। Akaike सूचना मानदंड, बायेसियन सूचना मानदंड, बेयस कारक, या क्रॉस-सत्यापन (सांख्यिकी) | क्रॉस-सत्यापन जैसे मॉडल चयन उपकरण इस प्रकार उस आयाम का चयन करने के लिए उपयोगी हो सकते हैं जो अंडरफिटिंग और ओवरफिटिंग को संतुलित करता है।
  5. परिणामों की आलेखन और आयामों को परिभाषित करना - सांख्यिकीय कार्यक्रम (या संबंधित मॉड्यूल) परिणामों को मैप करेगा। नक्शा प्रत्येक उत्पाद को प्लॉट करेगा (सामान्यतौर पर द्वि-आकारीय अंतरिक्ष में)। उत्पादों की एक दूसरे से निकटता यह दर्शाती है कि वे कितने समान हैं या उन्हें कितना पसंद किया जाता है, यह इस बात पर निर्भर करता है कि किस दृष्टिकोण का उपयोग किया गया था। एम्बेडिंग के आयाम वास्तव में सिस्टम व्यवहार के आयामों के अनुरूप कैसे हैं, हालांकि, यह स्पष्ट नहीं है। यहां, पत्राचार के बारे में एक व्यक्तिपरक निर्णय किया जा सकता है (अवधारणात्मक मानचित्रण देखें)।
  6. विश्वसनीयता और वैधता के लिए परिणामों का परीक्षण करें - यह निर्धारित करने के लिए आर चुकता की गणना करें कि स्केल किए गए डेटा के किस अनुपात का MDS प्रक्रिया द्वारा हिसाब लगाया जा सकता है। 0.6 का एक आर-वर्ग न्यूनतम स्वीकार्य स्तर माना जाता है।[citation needed] 0.8 का एक आर-वर्ग मीट्रिक मापांक के लिए अच्छा माना जाता है और .9 गैर-मीट्रिक मापांक के लिए अच्छा माना जाता है। अन्य संभावित परीक्षण क्रुस्कल का तनाव, विभाजित डेटा परीक्षण, डेटा स्थिरता परीक्षण (यानी, एक ब्रांड को समाप्त करना), और परीक्षण-पुनः परीक्षण विश्वसनीयता हैं।
  7. परिणामों की व्यापक रूप से रिपोर्ट करें - आलेखन के साथ, कम से कम दूरी माप (जैसे, सोरेनसन इंडेक्स, जैकार्ड इंडेक्स) और विश्वसनीयता (जैसे, तनाव मूल्य) दी जानी चाहिए। एल्गोरिदम (उदाहरण के लिए, क्रुस्कल, माथेर) देने की भी सलाह दी जाती है, जिसे अक्सर उपयोग किए जाने वाले प्रोग्राम द्वारा परिभाषित किया जाता है (कभी-कभी एल्गोरिथम रिपोर्ट की जगह), यदि आपने एक स्टार्ट कॉन्फ़िगरेशन दिया है या एक यादृच्छिक विकल्प है, तो रनों की संख्या , आयाम का मूल्यांकनमोंटे कार्लो विधि पद्धति के परिणाम, पुनरावृत्तियों की संख्या, स्थिरता का मूल्यांकन और प्रत्येक अक्ष (आर-स्क्वायर) का आनुपातिक विचरण।

कार्यान्वयन

  • ELKI में दो MDS कार्यान्वयन शामिल हैं।
  • MATLAB में दो MDS कार्यान्वयन शामिल हैं (क्रमशः शास्त्रीय (cmdscale) और गैर-शास्त्रीय (mdscale) MDS के लिए)।
  • R (प्रोग्रामिंग भाषा) कई MDS कार्यान्वयन प्रदान करता है, उदा. आधार cmdscale फ़ंक्शन, पैकेज smacof[8] (एमएमडीएस और एनएमडीएस), और शाकाहारी (भारित एमडीएस)।
  • स्किकिट-लर्न में फंक्शन होता है [http://scikit-learn.org/stable/modules/generated/sklearn.manifold.MDS.html sklearn.manifold.MDS]।

यह भी देखें

संदर्भ

  1. Mead, A (1992). "बहुआयामी स्केलिंग विधियों के विकास की समीक्षा". Journal of the Royal Statistical Society. Series D (The Statistician). 41 (1): 27–39. JSTOR 234863. अमूर्त। बहुआयामी स्केलिंग विधियां अब साइकोफिज़िक्स और संवेदी विश्लेषण में एक सामान्य सांख्यिकीय उपकरण हैं। इन विधियों के विकास को व्यक्तिगत अंतर स्केलिंग और रामसे द्वारा प्रस्तावित अधिकतम संभावना विधियों के माध्यम से टोरगर्सन (मीट्रिक स्केलिंग), शेपर्ड और क्रुस्कल (गैर-मीट्रिक स्केलिंग) के मूल शोध से चार्ट किया गया है।
  2. Genest, Christian; Nešlehová, Johanna G.; Ramsay, James O. (2014). "जेम्स ओ रामसे के साथ बातचीत". International Statistical Review / Revue Internationale de Statistique. 82 (2): 161–183. JSTOR 43299752. Retrieved 30 June 2021.
  3. 3.0 3.1 Cite error: Invalid <ref> tag; no text was provided for refs named borg
  4. Wickelmaier, Florian. "An introduction to MDS." Sound Quality Research Unit, Aalborg University, Denmark (2003): 46
  5. Bronstein AM, Bronstein MM, Kimmel R (January 2006). "Generalized multidimensional scaling: a framework for isometry-invariant partial surface matching". Proc. Natl. Acad. Sci. U.S.A. 103 (5): 1168–72. Bibcode:2006PNAS..103.1168B. doi:10.1073/pnas.0508601103. PMC 1360551. PMID 16432211.
  6. Kruskal, J. B., and Wish, M. (1978), Multidimensional Scaling, Sage University Paper series on Quantitative Application in the Social Sciences, 07-011. Beverly Hills and London: Sage Publications.
  7. Kruskal, J. B. (1964). "एक गैर-मीट्रिक परिकल्पना के लिए फिट की अच्छाई का अनुकूलन करके बहुआयामी स्केलिंग". Psychometrika. 29 (1): 1–27. doi:10.1007/BF02289565. S2CID 48165675.
  8. Leeuw, Jan de; Mair, Patrick (2009). "Multidimensional Scaling Using Majorization: SMACOF in R". Journal of Statistical Software (in English). 31 (3). doi:10.18637/jss.v031.i03. ISSN 1548-7660.


ग्रन्थसूची

  • Cox, T.F.; Cox, M.A.A. (2001). Multidimensional Scaling. Chapman and Hall.
  • Coxon, Anthony P.M. (1982). The User's Guide to Multidimensional Scaling. With special reference to the MDS(X) library of Computer Programs. London: Heinemann Educational Books.
  • Green, P. (January 1975). "Marketing applications of MDS: Assessment and outlook". Journal of Marketing. 39 (1): 24–31. doi:10.2307/1250799. JSTOR 1250799.
  • McCune, B. & Grace, J.B. (2002). Analysis of Ecological Communities. Oregon, Gleneden Beach: MjM Software Design. ISBN 978-0-9721290-0-8.
  • Young, Forrest W. (1987). Multidimensional scaling: History, theory, and applications. Lawrence Erlbaum Associates. ISBN 978-0898596632.
  • Torgerson, Warren S. (1958). Theory & Methods of Scaling. New York: Wiley. ISBN 978-0-89874-722-5.