प्रसार मानचित्र: Difference between revisions

From Vigyanwiki
(Created page with "File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल हेलिक्स (शीर्ष) पर गैर-समान रूप से...")
 
No edit summary
Line 1: Line 1:
[[File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल हेलिक्स (शीर्ष) पर गैर-समान रूप से सैंपल किए गए डेटा बिंदुओं को देखते हुए, पहले दो डिफ्यूजन मैप निर्देशांक लाप्लास-बेल्ट्रामी सामान्यीकरण के साथ प्लॉट किए गए हैं (नीचे)। डिफ्यूजन मैप डेटा के अंतर्निहित आंतरिक परिपत्र ज्यामिति को पुनर्प्राप्त करने वाले टोरॉयडल हेलिक्स को उजागर करता है।]]डिफ्यूजन मैप्स एक [[आयामीता में कमी]] या [[ सुविधा निकालना ]] एल्गोरिथम है जिसे [[रोनाल्ड कॉफ़मैन]] और लैफॉन द्वारा पेश किया गया है<ref name="PNAS1" /><ref name="PNAS2" /><ref name="DifussionMap" /><ref name="Diffusion" /> जो यूक्लिडियन अंतरिक्ष (अक्सर कम-आयामी) में सेट किए गए डेटा के [[एम्बेडिंग]] के एक परिवार की गणना करता है, जिनके निर्देशांक डेटा पर एक प्रसार ऑपरेटर के ईजेनवेक्टर और ईजेनवेल्यू से गणना किए जा सकते हैं। एम्बेडेड स्थान में बिंदुओं के बीच यूक्लिडियन दूरी उन बिंदुओं पर केंद्रित संभाव्यता वितरण के बीच प्रसार दूरी के बराबर है। प्रमुख घटक विश्लेषण (पीसीए) जैसे रैखिक आयामी कमी के तरीकों से अलग, प्रसार मानचित्र गैर-रेखीय आयामीता में कमी के तरीकों के परिवार का हिस्सा हैं जो अंतर्निहित [[कई गुना]] की खोज पर ध्यान केंद्रित करते हैं जिससे डेटा का नमूना लिया गया है। स्थानीय समानताओं को विभिन्न पैमानों पर एकीकृत करके, प्रसार मानचित्र डेटा-सेट का वैश्विक विवरण देते हैं। अन्य तरीकों की तुलना में, प्रसार मानचित्र एल्गोरिथ्म शोर गड़बड़ी और कम्प्यूटेशनल रूप से सस्ती के लिए मजबूत है।
[[File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल हेलिक्स (शीर्ष) पर गैर-समान रूप से सैंपल किए गए आंकड़ों बिंदुओं को देखते हुए, पहले दो डिफ्यूजन मैप निर्देशांक लाप्लास-बेल्ट्रामी सामान्यीकरण के साथ प्लॉट किए गए हैं (नीचे)। डिफ्यूजन मैप आंकड़ों के अंतर्निहित आंतरिक परिपत्र ज्यामिति को पुनर्प्राप्त करने वाले टोरॉयडल हेलिक्स को उजागर करता है।]]प्रसार मानचित्र एक [[आयामीता में कमी|विमीयता अवकरण]] या [[ सुविधा निकालना |विशेषता निकर्ष]] कलन विधि है जिसे [[रोनाल्ड कॉफ़मैन]] और लैफॉन द्वारा प्रस्तुत किया गया है <ref name="PNAS1" /><ref name="PNAS2" /><ref name="DifussionMap" /><ref name="Diffusion" /> जो यूक्लिडियन स्थल (प्रायः कम-आयामी) में सम्मुच्चय किए गए आंकड़ों के [[एम्बेडिंग|अंत: स्थापन]] के एक वर्ग की गणना करता है, जिनके निर्देशांक आंकड़ों पर एक प्रसार संचालक के ईजेनवेक्टर और ईजेनवेल्यू से गणना किए जा सकते हैं। अंतः स्थापित स्थान में बिंदुओं के बीच यूक्लिडियन दूरी उन बिंदुओं पर केंद्रित संभाव्यता वितरण के बीच प्रसार दूरी के बराबर है। प्रमुख घटक विश्लेषण (पीसीए) जैसे रैखिक आयामी अवकरण के तरीकों से अलग, प्रसार मानचित्र गैर-रेखीय विमीयता अवकरण के तरीकों के वर्ग का हिस्सा हैं जो अंतर्निहित [[कई गुना|बहुविध]] की खोज पर ध्यान केंद्रित करते हैं जिससे आंकड़ों का प्रतिरूप लिया गया है। स्थानीय समानताओं को विभिन्न मापक्रम पर एकीकृत करके, प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं। अन्य तरीकों की तुलना में, प्रसार मानचित्र कलन विधि शोर अस्तव्यस्तता और कम्प्यूटेशनल रूप से मितव्ययी के लिए शक्तिशाली है।


== प्रसार मानचित्रों की परिभाषा ==
== प्रसार मानचित्रों की परिभाषा ==
अगले <ref name="DifussionMap"/>और,<ref name="Introduction"/>प्रसार मानचित्रों को चार चरणों में परिभाषित किया जा सकता है।
निम्नलिखित <ref name="DifussionMap"/> और, <ref name="Introduction"/> प्रसार मानचित्रों को चार चरणों में परिभाषित किया जा सकता है।।


===कनेक्टिविटी===
===अनुयोजकता===
डिफ्यूजन मैप्स [[ गर्मी प्रसार ]] और [[ यादृच्छिक चाल ]] [[मार्कोव श्रृंखला]] के बीच संबंध का फायदा उठाते हैं। मूल अवलोकन यह है कि यदि हम डेटा पर यादृच्छिक रूप से चलते हैं, तो पास के डेटा-पॉइंट पर चलने की संभावना दूसरे डेटा-बिंदु पर चलने की तुलना में अधिक होती है। होने देना <math>(X, \mathcal{A}, \mu)</math> एक माप स्थान हो, जहाँ <math>X</math> डेटा सेट है और <math>\mu</math> बिंदुओं के वितरण का प्रतिनिधित्व करता है <math>X</math>.
प्रसार मानचित्र [[ गर्मी प्रसार |ऊष्मा प्रसार]] और [[ यादृच्छिक चाल |यादृच्छिक चाल]] [[मार्कोव श्रृंखला]] के बीच संबंध का लाभ उठाते हैं। '''मूल अवलोकन यह है कि यदि हम आं'''कड़ों पर यादृच्छिक रूप से चलते हैं, तो पास के आंकड़ों-पॉइंट पर चलने की संभावना दूसरे आंकड़ों-बिंदु पर चलने की तुलना में अधिक होती है। होने देना <math>(X, \mathcal{A}, \mu)</math> एक माप स्थान हो, जहाँ <math>X</math> आंकड़ों सम्मुच्चय है और <math>\mu</math> बिंदुओं के वितरण का प्रतिनिधित्व करता है <math>X</math>.


इसके आधार पर कनेक्टिविटी <math>k</math> दो डेटा बिंदुओं के बीच, <math>x</math> और <math>y</math>, से चलने की संभावना के रूप में परिभाषित किया जा सकता है <math>x</math> को <math>y</math> रैंडम वॉक के एक चरण में। आम तौर पर, यह संभावना दो बिंदुओं के कर्नेल फ़ंक्शन के संदर्भ में निर्दिष्ट होती है: <math>k: X \times X \rightarrow \mathbb{R}</math>. उदाहरण के लिए, लोकप्रिय गॉसियन कर्नेल:
इसके आधार पर अनुयोजकता <math>k</math> दो आंकड़ों बिंदुओं के बीच, <math>x</math> और <math>y</math>, से चलने की संभावना के रूप में परिभाषित किया जा सकता है <math>x</math> को <math>y</math> रैंडम वॉक के एक चरण में। आम तौर पर, यह संभावना दो बिंदुओं के कर्नेल फ़ंक्शन के संदर्भ में निर्दिष्ट होती है: <math>k: X \times X \rightarrow \mathbb{R}</math>. उदाहरण के लिए, लोकप्रिय गॉसियन कर्नेल:


: <math>
: <math>
Line 19: Line 19:
(<math>k</math> सकारात्मकता संरक्षित है)।
(<math>k</math> सकारात्मकता संरक्षित है)।


कर्नेल डेटा-सेट की स्थानीय ज्यामिति की पूर्व परिभाषा का गठन करता है। चूंकि एक दिया गया कर्नेल डेटा सेट की एक विशिष्ट विशेषता को कैप्चर करेगा, इसकी पसंद को उस एप्लिकेशन द्वारा निर्देशित किया जाना चाहिए जो किसी के दिमाग में हो। प्रमुख घटक विश्लेषण जैसे तरीकों के साथ यह एक बड़ा अंतर है, जहां सभी डेटा बिंदुओं के बीच सहसंबंधों को एक ही बार में ध्यान में रखा जाता है।
कर्नेल आंकड़ों-सम्मुच्चय की स्थानीय ज्यामिति की पूर्व परिभाषा का गठन करता है। चूंकि एक दिया गया कर्नेल आंकड़ों सम्मुच्चय की एक विशिष्ट विशेषता को कैप्चर करेगा, इसकी पसंद को उस एप्लिकेशन द्वारा निर्देशित किया जाना चाहिए जो किसी के दिमाग में हो। प्रमुख घटक विश्लेषण जैसे तरीकों के साथ यह एक बड़ा अंतर है, जहां सभी आंकड़ों बिंदुओं के बीच सहसंबंधों को एक ही बार में ध्यान में रखा जाता है।


दिया गया <math>(X, k)</math>, फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला का निर्माण कर सकते हैं <math>X</math> (एक प्रक्रिया जिसे सामान्यीकृत ग्राफ लाप्लासियन निर्माण के रूप में जाना जाता है):
दिया गया <math>(X, k)</math>, फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला का निर्माण कर सकते हैं <math>X</math> (एक प्रक्रिया जिसे सामान्यीकृत ग्राफ लाप्लासियन निर्माण के रूप में जाना जाता है):
Line 65: Line 65:
p(x_j,t|x_i)=M^t_{i,j} \,
p(x_j,t|x_i)=M^t_{i,j} \,
</math>
</math>
प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय के साथ आगे बढ़ाना (बड़ी और बड़ी शक्तियों को लेना)। <math>M</math>) की ज्यामितीय संरचना को प्रकट करता है <math>X</math> बड़े और बड़े पैमाने पर (प्रसार प्रक्रिया)। विशेष रूप से, डेटा सेट में एक क्लस्टर की धारणा को एक ऐसे क्षेत्र के रूप में निर्धारित किया जाता है जिसमें इस क्षेत्र से बचने की संभावना कम होती है (एक निश्चित समय टी के भीतर)। इसलिए, टी न केवल एक समय पैरामीटर के रूप में कार्य करता है, बल्कि इसमें स्केल पैरामीटर की दोहरी भूमिका भी होती है।
प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय के साथ आगे बढ़ाना (बड़ी और बड़ी शक्तियों को लेना)। <math>M</math>) की ज्यामितीय संरचना को प्रकट करता है <math>X</math> बड़े और बड़े पैमाने पर (प्रसार प्रक्रिया)। विशेष रूप से, आंकड़ों सम्मुच्चय में एक क्लस्टर की धारणा को एक ऐसे क्षेत्र के रूप में निर्धारित किया जाता है जिसमें इस क्षेत्र से बचने की संभावना कम होती है (एक निश्चित समय टी के भीतर)। इसलिए, टी न केवल एक समय पैरामीटर के रूप में कार्य करता है, बल्कि इसमें स्केल पैरामीटर की दोहरी भूमिका भी होती है।


मैट्रिक्स का आइजेनडीकम्पोज़िशन <math>M^t</math> पैदावार
मैट्रिक्स का आइजेनडीकम्पोज़िशन <math>M^t</math> पैदावार
Line 75: Line 75:
ईजेनवैल्यू के स्पेक्ट्रम क्षय के कारण, इस योग में दी गई सापेक्ष सटीकता प्राप्त करने के लिए केवल कुछ शर्तें आवश्यक हैं।
ईजेनवैल्यू के स्पेक्ट्रम क्षय के कारण, इस योग में दी गई सापेक्ष सटीकता प्राप्त करने के लिए केवल कुछ शर्तें आवश्यक हैं।


==== पैरामीटर α और प्रसार ऑपरेटर ====
==== पैरामीटर α और प्रसार संचालक ====
शामिल सामान्यीकरण कदम पेश करने का कारण <math>\alpha</math> प्रसार के अनंत संक्रमण पर डेटा बिंदु घनत्व के प्रभाव को ट्यून करना है। कुछ अनुप्रयोगों में, डेटा का नमूना आम तौर पर कई गुना की ज्यामिति से संबंधित नहीं होता है जिसे हम वर्णन करने में रुचि रखते हैं। इस मामले में, हम सेट कर सकते हैं <math>\alpha=1</math> और प्रसार ऑपरेटर लाप्लास-बेल्ट्रामी ऑपरेटर का अनुमान लगाता है। इसके बाद हम अंकों के वितरण की परवाह किए बिना डेटा सेट की रीमैनियन ज्यामिति को पुनर्प्राप्त करते हैं। स्टोचैस्टिक अंतर समीकरणों की एक प्रणाली के बिंदु वितरण के दीर्घकालिक व्यवहार का वर्णन करने के लिए, हम इसका उपयोग कर सकते हैं <math>\alpha=0.5</math> और परिणामी मार्कोव श्रृंखला फोकर-प्लैंक समीकरण | फोकर-प्लैंक प्रसार का अनुमान लगाती है। साथ <math>\alpha=0</math>, यह शास्त्रीय ग्राफ लाप्लासियन सामान्यीकरण को कम करता है।
शामिल सामान्यीकरण कदम प्रस्तुत करने का कारण <math>\alpha</math> प्रसार के अनंत संक्रमण पर आंकड़ों बिंदु घनत्व के प्रभाव को ट्यून करना है। कुछ अनुप्रयोगों में, आंकड़ों का प्रतिरूप आम तौर पर बहुविध की ज्यामिति से संबंधित नहीं होता है जिसे हम वर्णन करने में रुचि रखते हैं। इस मामले में, हम सम्मुच्चय कर सकते हैं <math>\alpha=1</math> और प्रसार संचालक लाप्लास-बेल्ट्रामी संचालक का अनुमान लगाता है। इसके बाद हम अंकों के वितरण की परवाह किए बिना आंकड़ों सम्मुच्चय की रीमैनियन ज्यामिति को पुनर्प्राप्त करते हैं। स्टोचैस्टिक अंतर समीकरणों की एक प्रणाली के बिंदु वितरण के दीर्घकालिक व्यवहार का वर्णन करने के लिए, हम इसका उपयोग कर सकते हैं <math>\alpha=0.5</math> और परिणामी मार्कोव श्रृंखला फोकर-प्लैंक समीकरण | फोकर-प्लैंक प्रसार का अनुमान लगाती है। साथ <math>\alpha=0</math>, यह शास्त्रीय ग्राफ लाप्लासियन सामान्यीकरण को कम करता है।


=== प्रसार दूरी ===
=== प्रसार दूरी ===
समय पर प्रसार दूरी <math>t</math> दो बिंदुओं के बीच अवलोकन स्थान में दो बिंदुओं की समानता के रूप में उनके बीच कनेक्टिविटी के रूप में मापा जा सकता है। द्वारा दिया गया है
समय पर प्रसार दूरी <math>t</math> दो बिंदुओं के बीच अवलोकन स्थान में दो बिंदुओं की समानता के रूप में उनके बीच अनुयोजकता के रूप में मापा जा सकता है। द्वारा दिया गया है


: <math>
: <math>
Line 91: Line 91:
सहज रूप से, <math>D_t(x_i,x_j)</math> छोटा होता है यदि बड़ी संख्या में छोटे रास्ते जुड़ते हैं <math>x_i</math> और <math>x_j</math>. हमारी पिछली चर्चा के आधार पर प्रसार दूरी से जुड़ी कई दिलचस्प विशेषताएं हैं <math>t</math> स्केल पैरामीटर के रूप में भी कार्य करता है:
सहज रूप से, <math>D_t(x_i,x_j)</math> छोटा होता है यदि बड़ी संख्या में छोटे रास्ते जुड़ते हैं <math>x_i</math> और <math>x_j</math>. हमारी पिछली चर्चा के आधार पर प्रसार दूरी से जुड़ी कई दिलचस्प विशेषताएं हैं <math>t</math> स्केल पैरामीटर के रूप में भी कार्य करता है:
# अंक दिए गए पैमाने पर करीब हैं (जैसा निर्दिष्ट किया गया है <math>D_t(x_i,x_j)</math>) यदि वे ग्राफ़ में अत्यधिक जुड़े हुए हैं, इसलिए क्लस्टर की अवधारणा पर बल देते हैं।
# अंक दिए गए पैमाने पर करीब हैं (जैसा निर्दिष्ट किया गया है <math>D_t(x_i,x_j)</math>) यदि वे ग्राफ़ में अत्यधिक जुड़े हुए हैं, इसलिए क्लस्टर की अवधारणा पर बल देते हैं।
# यह दूरी शोर के लिए मजबूत है, क्योंकि दो बिंदुओं के बीच की दूरी लंबाई के सभी संभावित रास्तों पर निर्भर करती है <math>t</math> बिंदुओं के बीच।
# यह दूरी शोर के लिए शक्तिशाली है, क्योंकि दो बिंदुओं के बीच की दूरी लंबाई के सभी संभावित रास्तों पर निर्भर करती है <math>t</math> बिंदुओं के बीच।
# मशीन सीखने के दृष्टिकोण से, दूरी लिंक करने के सभी साक्ष्यों को ध्यान में रखती है <math>x_i</math> को <math>x_j</math>, हमें यह निष्कर्ष निकालने की अनुमति देता है कि यह दूरी बहुमत के आधार पर अनुमान एल्गोरिदम के डिजाइन के लिए उपयुक्त है।<ref name="DifussionMap" />
# मशीन सीखने के दृष्टिकोण से, दूरी लिंक करने के सभी साक्ष्यों को ध्यान में रखती है <math>x_i</math> को <math>x_j</math>, हमें यह निष्कर्ष निकालने की अनुमति देता है कि यह दूरी बहुमत के आधार पर अनुमान एल्गोरिदम के डिजाइन के लिए उपयुक्त है।<ref name="DifussionMap" />




=== प्रसार प्रक्रिया और निम्न-आयामी एम्बेडिंग ===
=== प्रसार प्रक्रिया और निम्न-आयामी अंत: स्थापन ===
eigenvectors का उपयोग करके प्रसार दूरी की गणना की जा सकती है
eigenvectors का उपयोग करके प्रसार दूरी की गणना की जा सकती है
: <math>
: <math>
D_t(x_i,x_j)^2=\sum_l \lambda_l^{2t} (\psi_l(x_i)-\psi_l(x_j))^2 \,
D_t(x_i,x_j)^2=\sum_l \lambda_l^{2t} (\psi_l(x_i)-\psi_l(x_j))^2 \,
</math>
</math>
इसलिए eigenvectors को डेटा के लिए निर्देशांक के एक नए सेट के रूप में उपयोग किया जा सकता है। प्रसार मानचित्र को इस प्रकार परिभाषित किया गया है:
इसलिए eigenvectors को आंकड़ों के लिए निर्देशांक के एक नए सम्मुच्चय के रूप में उपयोग किया जा सकता है। प्रसार मानचित्र को इस प्रकार परिभाषित किया गया है:


: <math>
: <math>
Line 106: Line 106:
</math>
</math>
स्पेक्ट्रम क्षय के कारण, यह केवल पहले k ईजेनवेक्टर और आइगेनवैल्यू का उपयोग करने के लिए पर्याप्त है।
स्पेक्ट्रम क्षय के कारण, यह केवल पहले k ईजेनवेक्टर और आइगेनवैल्यू का उपयोग करने के लिए पर्याप्त है।
इस प्रकार हम मूल डेटा से एक के-डायमेंशनल स्पेस में प्रसार मानचित्र प्राप्त करते हैं जो मूल स्थान में सन्निहित है।
इस प्रकार हम मूल आंकड़ों से एक के-डायमेंशनल स्पेस में प्रसार मानचित्र प्राप्त करते हैं जो मूल स्थान में सन्निहित है।


में <ref name="Nadler05diffusionmaps" />यह सिद्ध होता है
में <ref name="Nadler05diffusionmaps" />यह सिद्ध होता है
Line 115: Line 115:
इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है।
इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है।


== एल्गोरिथम ==
== कलन विधि ==
प्रसार मानचित्र का मूल एल्गोरिथम ढांचा इस प्रकार है:
प्रसार मानचित्र का मूल कलन विधि ढांचा इस प्रकार है:


चरण 1. समानता मैट्रिक्स एल को देखते हुए।
चरण 1. समानता मैट्रिक्स एल को देखते हुए।
Line 126: Line 126:
चरण 4. के सबसे बड़े eigenvalues ​​​​की गणना करें <math>M^t</math> और संबंधित eigenvectors।
चरण 4. के सबसे बड़े eigenvalues ​​​​की गणना करें <math>M^t</math> और संबंधित eigenvectors।


चरण 5. एम्बेडिंग प्राप्त करने के लिए प्रसार मानचित्र का उपयोग करें <math>\Psi_t</math>.
चरण 5. अंत: स्थापन प्राप्त करने के लिए प्रसार मानचित्र का उपयोग करें <math>\Psi_t</math>.


== आवेदन ==
== आवेदन ==
कागज़ पर <ref name="Nadler05diffusionmaps" />नाडलर एट अल। दिखाया कि एक कर्नेल को कैसे डिज़ाइन किया जाए जो फोकर-प्लैंक समीकरण द्वारा प्रेरित प्रसार को पुन: उत्पन्न करता है। उन्होंने यह भी समझाया कि, जब डेटा कई गुना अनुमानित होता है, तो लाप्लास-बेल्ट्रामी ऑपरेटर के अनुमान की गणना करके इस कई गुना की ज्यामिति को पुनर्प्राप्त किया जा सकता है। यह गणना पूरी तरह असंवेदनशील है
कागज़ पर <ref name="Nadler05diffusionmaps" />नाडलर एट अल। दिखाया कि एक कर्नेल को कैसे डिज़ाइन किया जाए जो फोकर-प्लैंक समीकरण द्वारा प्रेरित प्रसार को पुन: उत्पन्न करता है। उन्होंने यह भी समझाया कि, जब आंकड़ों बहुविध अनुमानित होता है, तो लाप्लास-बेल्ट्रामी संचालक के अनुमान की गणना करके इस बहुविध की ज्यामिति को पुनर्प्राप्त किया जा सकता है। यह गणना पूरी तरह असंवेदनशील है
अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता है
अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता है
आंकड़े। चूंकि प्रसार मानचित्र डेटा-सेट का वैश्विक विवरण देते हैं, वे कई गुना में नमूना बिंदुओं के जोड़े के बीच की दूरी को माप सकते हैं जिसमें डेटा एम्बेडेड होता है। प्रसार मानचित्रों पर आधारित अनुप्रयोगों में [[चेहरे की पहचान प्रणाली]] शामिल है,<ref name="vmrs">{{cite journal
आंकड़े। चूंकि प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं, वे बहुविध में प्रतिरूप बिंदुओं के जोड़े के बीच की दूरी को माप सकते हैं जिसमें आंकड़ों अंतः स्थापित होता है। प्रसार मानचित्रों पर आधारित अनुप्रयोगों में [[चेहरे की पहचान प्रणाली]] शामिल है,<ref name="vmrs">{{cite journal
   | last1  = Barkan
   | last1  = Barkan
   | first1 = Oren
   | first1 = Oren
Line 154: Line 154:
   | date  = 2013
   | date  = 2013
   | pages    = 7639–7643
   | pages    = 7639–7643
}}</ref> और पहचान,<ref name="speakerid2011" />कई गुना पर नमूनाकरण, विसंगति का पता लगाना,<ref name="Mishne" /><ref>{{Cite journal|last1=Shabat|first1=Gil|last2=Segev|first2=David|last3=Averbuch|first3=Amir|date=2018-01-07|title=Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends|url=http://proceedings.mlr.press/v71/shabat18a.html|journal=KDD 2017 Workshop on Anomaly Detection in Finance|language=en|volume=71|pages=8–19}}</ref> इमेज इनपेंटिंग,<ref name="Gepshtein" />खुलासा मस्तिष्क आराम राज्य नेटवर्क संगठन <ref name="Margulies_et_al_2016">{{cite journal
}}</ref> और पहचान,<ref name="speakerid2011" />बहुविध पर नमूनाकरण, विसंगति का पता लगाना,<ref name="Mishne" /><ref>{{Cite journal|last1=Shabat|first1=Gil|last2=Segev|first2=David|last3=Averbuch|first3=Amir|date=2018-01-07|title=Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends|url=http://proceedings.mlr.press/v71/shabat18a.html|journal=KDD 2017 Workshop on Anomaly Detection in Finance|language=en|volume=71|pages=8–19}}</ref> इमेज इनपेंटिंग,<ref name="Gepshtein" />खुलासा मस्तिष्क आराम राज्य नेटवर्क संगठन <ref name="Margulies_et_al_2016">{{cite journal
   | last1 = Margulies
   | last1 = Margulies
   | first1 = Daniel S.
   | first1 = Daniel S.
Line 207: Line 207:


== यह भी देखें ==
== यह भी देखें ==
* अरैखिक विमीयता में कमी
* अरैखिक विमीयता में अवकरण
* स्पेक्ट्रल क्लस्टरिंग
* स्पेक्ट्रल क्लस्टरिंग



Revision as of 10:05, 27 May 2023

एक टॉरॉयडल हेलिक्स (शीर्ष) पर गैर-समान रूप से सैंपल किए गए आंकड़ों बिंदुओं को देखते हुए, पहले दो डिफ्यूजन मैप निर्देशांक लाप्लास-बेल्ट्रामी सामान्यीकरण के साथ प्लॉट किए गए हैं (नीचे)। डिफ्यूजन मैप आंकड़ों के अंतर्निहित आंतरिक परिपत्र ज्यामिति को पुनर्प्राप्त करने वाले टोरॉयडल हेलिक्स को उजागर करता है।

प्रसार मानचित्र एक विमीयता अवकरण या विशेषता निकर्ष कलन विधि है जिसे रोनाल्ड कॉफ़मैन और लैफॉन द्वारा प्रस्तुत किया गया है [1][2][3][4] जो यूक्लिडियन स्थल (प्रायः कम-आयामी) में सम्मुच्चय किए गए आंकड़ों के अंत: स्थापन के एक वर्ग की गणना करता है, जिनके निर्देशांक आंकड़ों पर एक प्रसार संचालक के ईजेनवेक्टर और ईजेनवेल्यू से गणना किए जा सकते हैं। अंतः स्थापित स्थान में बिंदुओं के बीच यूक्लिडियन दूरी उन बिंदुओं पर केंद्रित संभाव्यता वितरण के बीच प्रसार दूरी के बराबर है। प्रमुख घटक विश्लेषण (पीसीए) जैसे रैखिक आयामी अवकरण के तरीकों से अलग, प्रसार मानचित्र गैर-रेखीय विमीयता अवकरण के तरीकों के वर्ग का हिस्सा हैं जो अंतर्निहित बहुविध की खोज पर ध्यान केंद्रित करते हैं जिससे आंकड़ों का प्रतिरूप लिया गया है। स्थानीय समानताओं को विभिन्न मापक्रम पर एकीकृत करके, प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं। अन्य तरीकों की तुलना में, प्रसार मानचित्र कलन विधि शोर अस्तव्यस्तता और कम्प्यूटेशनल रूप से मितव्ययी के लिए शक्तिशाली है।

प्रसार मानचित्रों की परिभाषा

निम्नलिखित [3] और, [5] प्रसार मानचित्रों को चार चरणों में परिभाषित किया जा सकता है।।

अनुयोजकता

प्रसार मानचित्र ऊष्मा प्रसार और यादृच्छिक चाल मार्कोव श्रृंखला के बीच संबंध का लाभ उठाते हैं। मूल अवलोकन यह है कि यदि हम आंकड़ों पर यादृच्छिक रूप से चलते हैं, तो पास के आंकड़ों-पॉइंट पर चलने की संभावना दूसरे आंकड़ों-बिंदु पर चलने की तुलना में अधिक होती है। होने देना एक माप स्थान हो, जहाँ आंकड़ों सम्मुच्चय है और बिंदुओं के वितरण का प्रतिनिधित्व करता है .

इसके आधार पर अनुयोजकता दो आंकड़ों बिंदुओं के बीच, और , से चलने की संभावना के रूप में परिभाषित किया जा सकता है को रैंडम वॉक के एक चरण में। आम तौर पर, यह संभावना दो बिंदुओं के कर्नेल फ़ंक्शन के संदर्भ में निर्दिष्ट होती है: . उदाहरण के लिए, लोकप्रिय गॉसियन कर्नेल:

अधिक सामान्यतः, इंटीग्रल कर्नेल फ़ंक्शन में निम्नलिखित गुण होते हैं

( सममित है)

( सकारात्मकता संरक्षित है)।

कर्नेल आंकड़ों-सम्मुच्चय की स्थानीय ज्यामिति की पूर्व परिभाषा का गठन करता है। चूंकि एक दिया गया कर्नेल आंकड़ों सम्मुच्चय की एक विशिष्ट विशेषता को कैप्चर करेगा, इसकी पसंद को उस एप्लिकेशन द्वारा निर्देशित किया जाना चाहिए जो किसी के दिमाग में हो। प्रमुख घटक विश्लेषण जैसे तरीकों के साथ यह एक बड़ा अंतर है, जहां सभी आंकड़ों बिंदुओं के बीच सहसंबंधों को एक ही बार में ध्यान में रखा जाता है।

दिया गया , फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला का निर्माण कर सकते हैं (एक प्रक्रिया जिसे सामान्यीकृत ग्राफ लाप्लासियन निर्माण के रूप में जाना जाता है):

और परिभाषित करें:

यद्यपि नया सामान्यीकृत कर्नेल सममित संपत्ति का वारिस नहीं करता है, लेकिन यह सकारात्मकता-संरक्षण संपत्ति को प्राप्त करता है और एक संरक्षण संपत्ति प्राप्त करता है:


प्रसार प्रक्रिया

से हम एक मार्कोव श्रृंखला के संक्रमण मैट्रिक्स का निर्माण कर सकते हैं () पर . दूसरे शब्दों में, से एक-चरण संक्रमण संभावना का प्रतिनिधित्व करता है को , और टी-चरण संक्रमण मैट्रिक्स देता है।

हम प्रसार मैट्रिक्स को परिभाषित करते हैं (यह ग्राफ लाप्लासियन मैट्रिक्स का एक संस्करण भी है)

फिर हम नए कर्नेल को परिभाषित करते हैं

या समकक्ष,

जहां डी एक विकर्ण मैट्रिक्स है और हम इस नए कर्नेल पर लाप्लासियन सामान्यीकरण ग्राफ लागू करते हैं:

कहाँ एक विकर्ण मैट्रिक्स है और

प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय के साथ आगे बढ़ाना (बड़ी और बड़ी शक्तियों को लेना)। ) की ज्यामितीय संरचना को प्रकट करता है बड़े और बड़े पैमाने पर (प्रसार प्रक्रिया)। विशेष रूप से, आंकड़ों सम्मुच्चय में एक क्लस्टर की धारणा को एक ऐसे क्षेत्र के रूप में निर्धारित किया जाता है जिसमें इस क्षेत्र से बचने की संभावना कम होती है (एक निश्चित समय टी के भीतर)। इसलिए, टी न केवल एक समय पैरामीटर के रूप में कार्य करता है, बल्कि इसमें स्केल पैरामीटर की दोहरी भूमिका भी होती है।

मैट्रिक्स का आइजेनडीकम्पोज़िशन पैदावार

कहाँ के eigenvalues ​​​​का क्रम है और और बायोऑर्थोगोनल दाएं और बाएं ईजेनवेक्टर क्रमशः हैं। ईजेनवैल्यू के स्पेक्ट्रम क्षय के कारण, इस योग में दी गई सापेक्ष सटीकता प्राप्त करने के लिए केवल कुछ शर्तें आवश्यक हैं।

पैरामीटर α और प्रसार संचालक

शामिल सामान्यीकरण कदम प्रस्तुत करने का कारण प्रसार के अनंत संक्रमण पर आंकड़ों बिंदु घनत्व के प्रभाव को ट्यून करना है। कुछ अनुप्रयोगों में, आंकड़ों का प्रतिरूप आम तौर पर बहुविध की ज्यामिति से संबंधित नहीं होता है जिसे हम वर्णन करने में रुचि रखते हैं। इस मामले में, हम सम्मुच्चय कर सकते हैं और प्रसार संचालक लाप्लास-बेल्ट्रामी संचालक का अनुमान लगाता है। इसके बाद हम अंकों के वितरण की परवाह किए बिना आंकड़ों सम्मुच्चय की रीमैनियन ज्यामिति को पुनर्प्राप्त करते हैं। स्टोचैस्टिक अंतर समीकरणों की एक प्रणाली के बिंदु वितरण के दीर्घकालिक व्यवहार का वर्णन करने के लिए, हम इसका उपयोग कर सकते हैं और परिणामी मार्कोव श्रृंखला फोकर-प्लैंक समीकरण | फोकर-प्लैंक प्रसार का अनुमान लगाती है। साथ , यह शास्त्रीय ग्राफ लाप्लासियन सामान्यीकरण को कम करता है।

प्रसार दूरी

समय पर प्रसार दूरी दो बिंदुओं के बीच अवलोकन स्थान में दो बिंदुओं की समानता के रूप में उनके बीच अनुयोजकता के रूप में मापा जा सकता है। द्वारा दिया गया है

कहाँ के पहले बाएँ eigenvector द्वारा दिया गया मार्कोव श्रृंखला का स्थिर वितरण है . स्पष्ट रूप से:

सहज रूप से, छोटा होता है यदि बड़ी संख्या में छोटे रास्ते जुड़ते हैं और . हमारी पिछली चर्चा के आधार पर प्रसार दूरी से जुड़ी कई दिलचस्प विशेषताएं हैं स्केल पैरामीटर के रूप में भी कार्य करता है:

  1. अंक दिए गए पैमाने पर करीब हैं (जैसा निर्दिष्ट किया गया है ) यदि वे ग्राफ़ में अत्यधिक जुड़े हुए हैं, इसलिए क्लस्टर की अवधारणा पर बल देते हैं।
  2. यह दूरी शोर के लिए शक्तिशाली है, क्योंकि दो बिंदुओं के बीच की दूरी लंबाई के सभी संभावित रास्तों पर निर्भर करती है बिंदुओं के बीच।
  3. मशीन सीखने के दृष्टिकोण से, दूरी लिंक करने के सभी साक्ष्यों को ध्यान में रखती है को , हमें यह निष्कर्ष निकालने की अनुमति देता है कि यह दूरी बहुमत के आधार पर अनुमान एल्गोरिदम के डिजाइन के लिए उपयुक्त है।[3]


प्रसार प्रक्रिया और निम्न-आयामी अंत: स्थापन

eigenvectors का उपयोग करके प्रसार दूरी की गणना की जा सकती है

इसलिए eigenvectors को आंकड़ों के लिए निर्देशांक के एक नए सम्मुच्चय के रूप में उपयोग किया जा सकता है। प्रसार मानचित्र को इस प्रकार परिभाषित किया गया है:

स्पेक्ट्रम क्षय के कारण, यह केवल पहले k ईजेनवेक्टर और आइगेनवैल्यू का उपयोग करने के लिए पर्याप्त है। इस प्रकार हम मूल आंकड़ों से एक के-डायमेंशनल स्पेस में प्रसार मानचित्र प्राप्त करते हैं जो मूल स्थान में सन्निहित है।

में [6]यह सिद्ध होता है

इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है।

कलन विधि

प्रसार मानचित्र का मूल कलन विधि ढांचा इस प्रकार है:

चरण 1. समानता मैट्रिक्स एल को देखते हुए।

चरण 2. पैरामीटर के अनुसार मैट्रिक्स को सामान्य करें : .

चरण 3. सामान्यीकृत मैट्रिक्स तैयार करें .

चरण 4. के सबसे बड़े eigenvalues ​​​​की गणना करें और संबंधित eigenvectors।

चरण 5. अंत: स्थापन प्राप्त करने के लिए प्रसार मानचित्र का उपयोग करें .

आवेदन

कागज़ पर [6]नाडलर एट अल। दिखाया कि एक कर्नेल को कैसे डिज़ाइन किया जाए जो फोकर-प्लैंक समीकरण द्वारा प्रेरित प्रसार को पुन: उत्पन्न करता है। उन्होंने यह भी समझाया कि, जब आंकड़ों बहुविध अनुमानित होता है, तो लाप्लास-बेल्ट्रामी संचालक के अनुमान की गणना करके इस बहुविध की ज्यामिति को पुनर्प्राप्त किया जा सकता है। यह गणना पूरी तरह असंवेदनशील है अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता है आंकड़े। चूंकि प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं, वे बहुविध में प्रतिरूप बिंदुओं के जोड़े के बीच की दूरी को माप सकते हैं जिसमें आंकड़ों अंतः स्थापित होता है। प्रसार मानचित्रों पर आधारित अनुप्रयोगों में चेहरे की पहचान प्रणाली शामिल है,[7] वर्णक्रमीय क्लस्टरिंग , छवियों का कम आयामी प्रतिनिधित्व, छवि विभाजन,[8]3डी मॉडल विभाजन,[9]वक्ता सत्यापन[10] और पहचान,[11]बहुविध पर नमूनाकरण, विसंगति का पता लगाना,[12][13] इमेज इनपेंटिंग,[14]खुलासा मस्तिष्क आराम राज्य नेटवर्क संगठन [15] और इसी तरह।

इसके अलावा, प्रसार मानचित्र ढांचे को उत्पादक रूप से जटिल नेटवर्क तक बढ़ाया गया है, रेफरी>{{cite journal

 | last1 = De Domenico
 | first1 = Manlio
 | url = https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.118.168301
 | title = प्रसार ज्यामिति सामूहिक घटना में कार्यात्मक समूहों के उद्भव को उजागर करती है| journal = Physical Review Letters
 | volume = 118
 | issue = 16
 | pages  = 168301
 | year = 2017
 | doi = 10.1103/PhysRevLett.118.168301
| pmid = 28474920
| arxiv = 1704.07068
| bibcode = 2017PhRvL.118p8301D
| s2cid = 2638868
}</ref> नेटवर्क के एक कार्यात्मक संगठन का खुलासा करता है जो विशुद्ध रूप से सांस्थितिकीय या संरचनात्मक एक से भिन्न होता है।

यह भी देखें

  • अरैखिक विमीयता में अवकरण
  • स्पेक्ट्रल क्लस्टरिंग

संदर्भ

  1. Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps". PNAS. 102 (21): 7426–7431. Bibcode:2005PNAS..102.7426C. doi:10.1073/pnas.0500334102. PMC 1140422. PMID 15899970.
  2. Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Multiscale methods". PNAS. 102 (21): 7432–7437. Bibcode:2005PNAS..102.7432C. doi:10.1073/pnas.0500896102. PMC 1140426. PMID 15899969.
  3. 3.0 3.1 3.2 Coifman, R.R.; S. Lafon. (2006). "Diffusion maps". Applied and Computational Harmonic Analysis. 21: 5–30. doi:10.1016/j.acha.2006.04.006.
  4. Lafon, S.S. (2004). Diffusion Maps and Geometric Harmonics (PDF) (PhD). Yale University.
  5. De la Porte, J.; Herbst, B M; Hereman, W; Van der Walt, S J (2008). "An Introduction to Diffusion Maps". Proceedings of the Nineteenth Annual Symposium of the Pattern Recognition Association of South Africa (PRASA). CiteSeerX 10.1.1.309.674.
  6. 6.0 6.1 Nadler, Boaz; Stéphane Lafon; Ronald R. Coifman; Ioannis G. Kevrekidis (2005). "Diffusion Maps, Spectral Clustering and Eigenfunctions of Fokker–Planck Operators" (PDF). Advances in Neural Information Processing Systems. 18. arXiv:math/0506090. Bibcode:2005math......6090N.
  7. Barkan, Oren; Weill, Jonathan; Wolf, Lior; Aronowitz, Hagai. "Fast high dimensional vector multiplication face recognition" (PDF). Proceedings of the IEEE International Conference on Computer Vision 2013: 1960–1967.
  8. Zeev, Farbman; Fattal Raanan; Lischinski Dani (2010). "Diffusion maps for edge-aware image editing". ACM Trans. Graph. 29 (6): 145:1–145:10. doi:10.1145/1882261.1866171.
  9. Oana, Sidi; van Kaick, Oliver; Kleiman, Yanir; Zhang, Hao; Cohen-Or, Daniel (2011). Unsupervised Co-Segmentation of a Set of Shapes via Descriptor-Space Spectral Clustering (PDF). ACM Transactions on Graphics.
  10. Barkan, Oren; Aronowitz, Hagai (2013). "Diffusion maps for PLDA-based speaker verification" (PDF). Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 7639–7643.
  11. Michalevsky, Yan; Talmon, Ronen; Cohen, Israel (2011). Speaker Identification Using Diffusion Maps (PDF). European signal processing conference 2011.
  12. Mishne, Gal; Cohen, Israel (2013). "Multiscale Anomaly Detection Using Diffusion Maps". IEEE Selected Topics in Signal Processing. 7 (1): 111–123. Bibcode:2013ISTSP...7..111M. doi:10.1109/jstsp.2012.2232279. S2CID 1954466.
  13. Shabat, Gil; Segev, David; Averbuch, Amir (2018-01-07). "Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends". KDD 2017 Workshop on Anomaly Detection in Finance (in English). 71: 8–19.
  14. Gepshtein, Shai; Keller, Yosi (2013). "Image Completion by Diffusion Maps and Spectral Relaxation". IEEE Transactions on Image Processing. 22 (8): 2983–2994. Bibcode:2013ITIP...22.2983G. doi:10.1109/tip.2013.2237916. PMID 23322762. S2CID 14375333.
  15. Margulies, Daniel S.; Ghosh, Satrajit S.; Goulas, Alexandros; Falkiewicz, Marcel; Huntenburg, Julia M.; Langs, Georg; Bezgin, Gleb; Eickhoff, Simon B.; Castellanos, F. Xavier; Petrides, Michael; Jefferies, Elizabeth; Smallwood, Jonathan (2016). "Situating the default-mode network along a principal gradient of macroscale cortical organization". Proceedings of the National Academy of Sciences. 113 (44): 12574–12579. doi:10.1073/pnas.1608282113. PMID 27791099.