प्रसार मानचित्र: Difference between revisions
(Created page with "File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल हेलिक्स (शीर्ष) पर गैर-समान रूप से...") |
No edit summary |
||
(6 intermediate revisions by 4 users not shown) | |||
Line 1: | Line 1: | ||
[[File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल | [[File:Diffusion_map_of_a_torodial_helix.jpg|thumb|right|एक टॉरॉयडल कुंडली (शीर्ष) पर गैर-समान रूप से प्रतिरूप किए गए आंकड़े बिंदुओं को देखते हुए, पहले दो विसरण आरेख निर्देशांक लाप्लास-बेल्ट्रामी सामान्यीकरण के साथ आलेख किए गए हैं (नीचे)। विसरण आरेख आंकड़ों के अंतर्निहित आंतरिक परिपत्र ज्यामिति को पुनर्प्राप्त करने वाले टोरॉयडल कुंडली को उजागर करता है।]]'''प्रसार मानचित्र''' एक [[आयामीता में कमी|विमीयता अवकरण]] या [[ सुविधा निकालना |विशेषता निकर्ष]] कलन विधि है जिसे [[रोनाल्ड कॉफ़मैन]] और लैफॉन द्वारा प्रस्तुत किया गया है <ref name="PNAS1" /><ref name="PNAS2" /><ref name="DifussionMap" /><ref name="Diffusion" /> जो यूक्लिडियन स्थल (प्रायः कम-आयामी) में सम्मुच्चय किए गए आंकड़ों के [[एम्बेडिंग|अंत: स्थापन]] के एक वर्ग की गणना करता है, जिनके निर्देशांक आंकड़ों पर एक प्रसार संचालक के ईजेनवेक्टर और ईजेनवेल्यू से गणना किए जा सकते हैं। अंतः स्थापित स्थान में बिंदुओं के बीच यूक्लिडियन दूरी उन बिंदुओं पर केंद्रित संभाव्यता वितरण के बीच प्रसार दूरी के बराबर है। प्रमुख घटक विश्लेषण (पीसीए) जैसे रैखिक आयामी अवकरण के तरीकों से अलग, प्रसार मानचित्र गैर-रेखीय विमीयता अवकरण के तरीकों के वर्ग का हिस्सा हैं जो अंतर्निहित [[कई गुना|बहुविध]] की खोज पर ध्यान केंद्रित करते हैं जिससे आंकड़ों का प्रतिरूप लिया गया है। स्थानीय समानताओं को विभिन्न मापक्रम पर एकीकृत करके, प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं। अन्य तरीकों की तुलना में, प्रसार मानचित्र कलन विधि शोर अस्तव्यस्तता और कम्प्यूटेशनल रूप से मितव्ययी के लिए शक्तिशाली है। | ||
== प्रसार मानचित्रों की परिभाषा == | == प्रसार मानचित्रों की परिभाषा == | ||
निम्नलिखित <ref name="DifussionMap"/> और, <ref name="Introduction"/> प्रसार मानचित्रों को चार चरणों में परिभाषित किया जा सकता है। | |||
=== | ===अनुयोजकता=== | ||
प्रसार मानचित्र [[ गर्मी प्रसार |ऊष्मा प्रसार]] और [[ यादृच्छिक चाल |यादृच्छिक चाल]] [[मार्कोव श्रृंखला]] के बीच संबंध का लाभ उठाते हैं। मूल अवलोकन यह है कि यदि हम आंकड़ों पर यादृच्छिक रूप से चलते हैं, तो पास के आंकड़ों-बिंदु पर चलने की संभावना दूसरे आंकड़ों-बिंदु पर चलने की तुलना में अधिक होती है। मान लीजिये <math>(X, \mathcal{A}, \mu)</math> एक माप स्थान हो, <math>X</math> आँकड़ा समुच्चय है और <math>\mu</math> <math>X</math> पर बिंदुओं के वितरण का प्रतिनिधित्व करता है। | |||
दो डेटा बिंदुओं, x और y के बीच अनुयोजकता k को यादृच्छिक भ्रमण के एक चरण में x से y तक चलने की संभावना के रूप में परिभाषित किया जा सकता है। सामान्यतः, यह संभावना दो बिंदुओं <math>k: X \times X \rightarrow \mathbb{R}</math> के कर्नेल फलन के संदर्भ में निर्दिष्ट होती है। उदाहरण के लिए, लोकप्रिय गॉसियन कर्नेल निम्न है: | |||
: <math> | : <math> | ||
k(x,y)=\exp\left(-\frac{||x-y||^2}{\epsilon}\right) | k(x,y)=\exp\left(-\frac{||x-y||^2}{\epsilon}\right) | ||
</math> | </math> | ||
अधिक सामान्यतः, [[इंटीग्रल कर्नेल]] | अधिक सामान्यतः, [[इंटीग्रल कर्नेल|पूर्णांकी कर्नेल]] फलन में निम्नलिखित गुण होते हैं | ||
: <math>k(x,y) = k(y,x)</math> (<math>k</math> सममित है) | : <math>k(x,y) = k(y,x)</math> (<math>k</math> सममित है) | ||
Line 19: | Line 19: | ||
(<math>k</math> सकारात्मकता संरक्षित है)। | (<math>k</math> सकारात्मकता संरक्षित है)। | ||
कर्नेल | कर्नेल आंकड़ों-सम्मुच्चय की स्थानीय ज्यामिति की पूर्व परिभाषा का गठन करता है। चूंकि एक दिया गया कर्नेल आंकड़ा सम्मुच्चय की एक विशिष्ट विशेषता को प्रग्रहण करेगा, इसकी पसंद को उस एप्लिकेशन द्वारा निर्देशित किया जाना चाहिए जो किसी के दिमाग में हो। प्रमुख घटक विश्लेषण जैसे तरीकों के साथ यह एक बड़ा अंतर है, जहां सभी आंकड़ों बिंदुओं के बीच सहसंबंधों को एक ही बार में ध्यान में रखा जाता है। | ||
दिया गया <math>(X, k)</math>, फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला | दिया गया <math>(X, k)</math>, फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला <math>X</math> का निर्माण कर सकते हैं (एक प्रक्रिया जिसे सामान्यीकृत लेखाचित्र लाप्लासियन निर्माण के रूप में जाना जाता है): | ||
: <math> | : <math> | ||
d(x) = \int_X k(x,y) d\mu(y) | d(x) = \int_X k(x,y) d\mu(y) | ||
</math> | </math> | ||
और परिभाषित करें: | और निम्न को परिभाषित करें: | ||
: <math> | : <math> | ||
p(x,y) = \frac{k(x,y)}{d(x)} | p(x,y) = \frac{k(x,y)}{d(x)} | ||
</math> | </math> | ||
यद्यपि नया सामान्यीकृत कर्नेल सममित | यद्यपि नया सामान्यीकृत कर्नेल सममित गुण को इनहेरिट नहीं करता है, यह सकारात्मकता-संरक्षण गुण को इनहेरिट करता है और एक संरक्षण गुण प्राप्त करता है: | ||
: <math> | : <math> | ||
\int_X p(x,y) d\mu(y) = 1 | \int_X p(x,y) d\mu(y) = 1 | ||
Line 38: | Line 38: | ||
=== प्रसार प्रक्रिया === | === प्रसार प्रक्रिया === | ||
<math>p(x,y)</math> से हम <math>X</math> पर एक मार्कोव श्रृंखला (<math>M</math>) के परिवर्तन आव्यूह का निर्माण कर सकते हैं। दूसरे शब्दों में, <math>p(x,y)</math> से एक-चरण संक्रमण संभावना <math>x</math> से <math>y</math> का प्रतिनिधित्व करता है, और <math>M^t</math> t-चरण संक्रमण आव्यूह देता है। | |||
हम प्रसार | हम प्रसार आव्यूह <math>L</math> को परिभाषित करते हैं (यह लेखाचित्र [[लाप्लासियन मैट्रिक्स|लाप्लासियन आव्यूह]] का एक संस्करण भी है) | ||
: <math> | : <math> | ||
Line 55: | Line 55: | ||
L^{(\alpha)} = D^{-\alpha} L D^{-\alpha} \, | L^{(\alpha)} = D^{-\alpha} L D^{-\alpha} \, | ||
</math> | </math> | ||
जहां | जहां D एक विकर्ण आव्यूह है और <math>D_{i, i} = \sum_j L_{i, j}.</math> | ||
हम इस नए कर्नेल पर लाप्लासियन सामान्यीकरण | |||
हम इस नए कर्नेल पर लाप्लासियन सामान्यीकरण लेखाचित्र लागू करते हैं: | |||
: <math> | : <math> | ||
M=({D}^{(\alpha)})^{-1}L^{(\alpha)}, \, | M=({D}^{(\alpha)})^{-1}L^{(\alpha)}, \, | ||
</math> | </math> | ||
जहाँ <math>D^{(\alpha)}</math> एक विकर्ण आव्यूह है और <math>{D}^{(\alpha)}_{i, i} = \sum_j L^{(\alpha)}_{i, j}.</math> | |||
: <math> | : <math> | ||
p(x_j,t|x_i)=M^t_{i,j} \, | p(x_j,t|x_i)=M^t_{i,j} \, | ||
</math> | </math> | ||
प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय | प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय पर आगे बढ़ाना (M की बड़ी और बड़ी घात लेना) X की ज्यामितीय संरचना को बड़े और बड़े मापक्रम पर प्रकट करता है (प्रसार प्रक्रिया)। विशेष रूप से, आंकड़ों सम्मुच्चय में एक स्तवक की धारणा को एक ऐसे क्षेत्र के रूप में निर्धारित किया जाता है जिसमें इस क्षेत्र से बचने की संभावना कम होती है (एक निश्चित समय t के भीतर)। इसलिए, t न केवल एक समय मापदण्ड के रूप में कार्य करता है, बल्कि इसमें मापक्रम मापदण्ड की दोहरी भूमिका भी होती है। | ||
आव्यूह का आइजेनडीकम्पोज़िशन <math>M^t</math> उत्पादन है | |||
: <math> | : <math> | ||
M^t_{i,j} = \sum_l \lambda_l^t \psi_l(x_i)\phi_l(x_j) \, | M^t_{i,j} = \sum_l \lambda_l^t \psi_l(x_i)\phi_l(x_j) \, | ||
</math> | </math> | ||
जहाँ <math>\{\lambda_l \}</math> <math>M</math> के आइगेनमान का अनुक्रम है और <math>\{\phi_l \}</math> और <math>\{\psi_l \}</math> क्रमशः बायोरथोगोनल दाएं और बाएं आइगेनसदिश हैं। | |||
==== | ईजेनवैल्यू के वर्णक्रम क्षय के कारण, इस योग में दी गई सापेक्ष सटीकता प्राप्त करने के लिए केवल कुछ परिस्थितियाँ आवश्यक हैं। | ||
==== मापदण्ड α और प्रसार संचालक ==== | |||
<math>\alpha</math> को सम्मिलित करने वाले सामान्यीकरण कदम को प्रस्तुत करने का कारण प्रसार के अनंत संक्रमण पर डेटा बिंदु घनत्व के प्रभाव को अनूकुल करना है। कुछ अनुप्रयोगों में, आंकड़ों का प्रतिरूप सामान्यतः बहुविध की ज्यामिति से संबंधित नहीं होता है जिसे हम वर्णन करने में रुचि रखते हैं। इस स्तिथि में, हम <math>\alpha=1</math> सम्मुच्चय कर सकते हैं और प्रसार संचालक लाप्लास-बेल्ट्रामी संचालक का अनुमान लगाता है। इसके बाद हम अंकों के वितरण का चिंतन किए बिना आंकड़ों सम्मुच्चय की रीमैनियन ज्यामिति को पुनर्प्राप्त करते हैं। स्टोचैस्टिक अंतर समीकरणों की एक प्रणाली के बिंदु वितरण के दीर्घकालिक व्यवहार का वर्णन करने के लिए, हम <math>\alpha=0.5</math> का उपयोग कर सकते हैं और परिणामी मार्कोव श्रृंखला फोकर-प्लैंक समीकरण का अनुमान लगाती है। <math>\alpha=0</math> के साथ, यह पारम्परिक लेखाचित्र लाप्लासियन सामान्यीकरण को कम करता है। | |||
=== प्रसार दूरी === | === प्रसार दूरी === | ||
समय | समय <math>t</math> पर प्रसार दूरी दो बिंदुओं के बीच अवलोकन स्थान में दो बिंदुओं की समानता के रूप में उनके बीच अनुयोजकता के रूप में मापा जा सकता है। निम्न द्वारा दिया गया है किː | ||
: <math> | : <math> | ||
D_{t}(x_i,x_j)^2 =\sum_y \frac{(p(y,t|x_i)-p(y,t|x_j))^2}{\phi_0(y)} | D_{t}(x_i,x_j)^2 =\sum_y \frac{(p(y,t|x_i)-p(y,t|x_j))^2}{\phi_0(y)} | ||
</math> | </math> | ||
जहाँ <math>\phi_0(y)</math> के पहले बाएँ आइगेनसदिश द्वारा दिया गया मार्कोव श्रृंखला <math>M</math> का स्थिर वितरण है। स्पष्ट रूप से: | |||
: <math> | : <math> | ||
\phi_0(y) = \frac{d(y)}{\sum_{z \in X} d(z)} | \phi_0(y) = \frac{d(y)}{\sum_{z \in X} d(z)} | ||
</math> | </math> | ||
सहज रूप से, <math>D_t(x_i,x_j)</math> छोटा होता है यदि बड़ी संख्या में छोटे रास्ते | सहज रूप से, <math>D_t(x_i,x_j)</math> छोटा होता है यदि बड़ी संख्या में छोटे रास्ते <math>x_i</math> और <math>x_j</math> जुड़ते हैं। हमारी पिछली चर्चा के आधार पर प्रसार दूरी से जुड़ी कई दिलचस्प विशेषताएं हैं। <math>t</math> मापक्रम मापदण्ड के रूप में भी कार्य करता है: | ||
# अंक दिए गए | # अंक दिए गए मापक्रम पर निकट हैं (जैसा <math>D_t(x_i,x_j)</math> निर्दिष्ट किया गया है) यदि वे त्र में अत्यधिक जुड़े हुए हैं, इसलिए स्तवक की अवधारणा पर बल देते हैं। | ||
# यह दूरी शोर के लिए | # यह दूरी शोर के लिए शक्तिशाली है, क्योंकि दो बिंदुओं के बीच की दूरी लंबाई <math>t</math> बिंदुओं के बीच के सभी संभावित रास्तों पर निर्भर करती हैं। | ||
# मशीन सीखने के दृष्टिकोण से, दूरी | #मशीन के सीखने के दृष्टिकोण से, दूरी <math>x_i</math> को जोड़ने वाले सभी साक्ष्यों को ध्यान में रखती है, जिससे हमें यह निष्कर्ष निकालने की अनुमति मिलती है कि यह दूरी बहुसंख्यता के आधार पर निष्कष कलन विधि की अभिकल्पना के लिए उपयुक्त है।<ref name="DifussionMap" /> | ||
=== प्रसार प्रक्रिया और निम्न-आयामी | === प्रसार प्रक्रिया और निम्न-आयामी अंत: स्थापन === | ||
आइगेनसदिश का उपयोग करके प्रसार दूरी की गणना की जा सकती है | |||
: <math> | : <math> | ||
D_t(x_i,x_j)^2=\sum_l \lambda_l^{2t} (\psi_l(x_i)-\psi_l(x_j))^2 \, | D_t(x_i,x_j)^2=\sum_l \lambda_l^{2t} (\psi_l(x_i)-\psi_l(x_j))^2 \, | ||
</math> | </math> | ||
इसलिए | इसलिए आइगेनसदिश को आंकड़ों के लिए निर्देशांक के एक नए सम्मुच्चय के रूप में उपयोग किया जा सकता है। प्रसार मानचित्र को इस प्रकार परिभाषित किया गया है: | ||
: <math> | : <math> | ||
\Psi_t(x)=(\lambda_1^t\psi_1(x),\lambda_2^t\psi_2(x),\ldots,\lambda_k^t\psi_k(x)) | \Psi_t(x)=(\lambda_1^t\psi_1(x),\lambda_2^t\psi_2(x),\ldots,\lambda_k^t\psi_k(x)) | ||
</math> | </math> | ||
वर्णक्रम क्षय के कारण, यह केवल पहले k ईजेनसदिश और आइगेनवैल्यू का उपयोग करने के लिए पर्याप्त है। | |||
में <ref name="Nadler05diffusionmaps" />यह सिद्ध होता है | इस प्रकार हम मूल आंकड़ों से एक k-विमीय स्थल में प्रसार मानचित्र प्राप्त करते हैं जो मूल स्थान में सन्निहित है। | ||
<ref name="Nadler05diffusionmaps" /> निम्न में यह सिद्ध होता है | |||
: <math> | : <math> | ||
Line 115: | Line 118: | ||
इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है। | इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है। | ||
== | == कलन विधि == | ||
प्रसार मानचित्र का मूल | प्रसार मानचित्र का मूल कलन विधि ढांचा इस प्रकार है: | ||
चरण 1. समानता | चरण 1. समानता आव्यूह L को देखते हुए। | ||
चरण 2. | चरण 2. मापदण्ड के अनुसार आव्यूह <math>\alpha</math>: <math>L^{(\alpha)} = D^{-\alpha} L D^{-\alpha} </math> को सामान्य करें। | ||
चरण 3. सामान्यीकृत | चरण 3. सामान्यीकृत आव्यूह <math>M=({D}^{(\alpha)})^{-1}L^{(\alpha)}</math> तैयार करें। | ||
चरण 4. | चरण 4. <math>M^t</math> और संबंधित आइगेनसदिश के सबसे बड़े आइगेनमान की गणना करें। | ||
चरण 5. | चरण 5. अंत: स्थापन प्राप्त करने के लिए प्रसार मानचित्र <math>\Psi_t</math> का उपयोग करें। | ||
== आवेदन == | == आवेदन == | ||
अपने लेख में <ref name="Nadler05diffusionmaps" /> नाडलर एट अल. ने दिखाया कि एक कर्नेल को कैसे अभिकल्पित किया जाए जो फोकर-प्लैंक समीकरण द्वारा प्रेरित प्रसार को पुन: उत्पन्न करता है। उन्होंने यह भी समझाया कि, जब आंकड़ों बहुविध अनुमानित होता है, तो लाप्लास-बेल्ट्रामी संचालक के अनुमान की गणना करके इस बहुविध की ज्यामिति को पुनर्प्राप्त किया जा सकता है। यह गणना पूरी तरह असंवेदनशील है। अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता है। चूंकि प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं, वे बहुविध में प्रतिरूप बिंदुओं के जोड़े के बीच की दूरी को माप सकते हैं जिसमें आंकड़ों अंतः स्थापित होता है। प्रसार मानचित्रों पर आधारित अनुप्रयोगों में [[चेहरे की पहचान प्रणाली|चेहरा अभिज्ञान]] सम्मिलित है,<ref name="vmrs">{{cite journal | |||
अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता | |||
| last1 = Barkan | | last1 = Barkan | ||
| first1 = Oren | | first1 = Oren | ||
Line 144: | Line 145: | ||
| journal = Proceedings of the IEEE International Conference on Computer Vision 2013 | | journal = Proceedings of the IEEE International Conference on Computer Vision 2013 | ||
| pages = 1960–1967 | | pages = 1960–1967 | ||
}}</ref> [[ वर्णक्रमीय क्लस्टरिंग ]], छवियों का कम आयामी प्रतिनिधित्व, छवि विभाजन,<ref name="Farbman" />3डी | }}</ref> [[ वर्णक्रमीय क्लस्टरिंग | वर्णक्रमीय गुच्छन]], छवियों का कम आयामी प्रतिनिधित्व, छवि विभाजन,<ref name="Farbman" /> 3डी प्रतिरूप विभाजन,<ref name="sidi11" /> वक्ता सत्यापन <ref name="spk">{{cite journal | ||
| last1 = Barkan | | last1 = Barkan | ||
| first1 = Oren | | first1 = Oren | ||
Line 154: | Line 155: | ||
| date = 2013 | | date = 2013 | ||
| pages = 7639–7643 | | pages = 7639–7643 | ||
}}</ref> और पहचान,<ref name="speakerid2011" /> | }}</ref> और पहचान,<ref name="speakerid2011" /> बहुविध पर नमूनाकरण, विसंगति का पता लगाना, <ref name="Mishne" /><ref>{{Cite journal|last1=Shabat|first1=Gil|last2=Segev|first2=David|last3=Averbuch|first3=Amir|date=2018-01-07|title=Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends|url=http://proceedings.mlr.press/v71/shabat18a.html|journal=KDD 2017 Workshop on Anomaly Detection in Finance|language=en|volume=71|pages=8–19}}</ref> छवि इनपेंटिंग <ref name="Gepshtein" /> <ref name="Margulies_et_al_2016">{{cite journal | ||
| last1 = Margulies | | last1 = Margulies | ||
| first1 = Daniel S. | | first1 = Daniel S. | ||
Line 190: | Line 191: | ||
}}</ref> और इसी तरह। | }}</ref> और इसी तरह। | ||
इसके | इसके अतिरिक्त, प्रसार मानचित्र ढांचे को उत्पादक रूप से [[जटिल नेटवर्क|जटिल संजाल]] तक बढ़ाया गया है, | ||
| last1 = De Domenico | | last1 = De Domenico | ||
| first1 = Manlio | | first1 = Manlio | ||
Line 204: | Line 205: | ||
| bibcode = 2017PhRvL.118p8301D | | bibcode = 2017PhRvL.118p8301D | ||
| s2cid = 2638868 | | s2cid = 2638868 | ||
}</ref> नेटवर्क के एक कार्यात्मक संगठन का खुलासा करता है जो विशुद्ध रूप से सांस्थितिकीय या संरचनात्मक एक से भिन्न होता है। | }<nowiki></ref></nowiki> नेटवर्क के एक कार्यात्मक संगठन का खुलासा करता है जो विशुद्ध रूप से सांस्थितिकीय या संरचनात्मक एक से भिन्न होता है। | ||
== यह भी देखें == | == यह भी देखें == | ||
* अरैखिक विमीयता में | * अरैखिक विमीयता में अवकरण | ||
* | * वर्णक्रमीय गुच्छन | ||
==संदर्भ== | ==संदर्भ== | ||
Line 402: | Line 403: | ||
}}</ref> | }}</ref> | ||
}} | }} | ||
[[Category: | [[Category:CS1 English-language sources (en)]] | ||
[[Category:Created On 24/05/2023]] | [[Category:Created On 24/05/2023]] | ||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:मशीन लर्निंग एल्गोरिदम]] |
Latest revision as of 15:16, 7 November 2023
प्रसार मानचित्र एक विमीयता अवकरण या विशेषता निकर्ष कलन विधि है जिसे रोनाल्ड कॉफ़मैन और लैफॉन द्वारा प्रस्तुत किया गया है [1][2][3][4] जो यूक्लिडियन स्थल (प्रायः कम-आयामी) में सम्मुच्चय किए गए आंकड़ों के अंत: स्थापन के एक वर्ग की गणना करता है, जिनके निर्देशांक आंकड़ों पर एक प्रसार संचालक के ईजेनवेक्टर और ईजेनवेल्यू से गणना किए जा सकते हैं। अंतः स्थापित स्थान में बिंदुओं के बीच यूक्लिडियन दूरी उन बिंदुओं पर केंद्रित संभाव्यता वितरण के बीच प्रसार दूरी के बराबर है। प्रमुख घटक विश्लेषण (पीसीए) जैसे रैखिक आयामी अवकरण के तरीकों से अलग, प्रसार मानचित्र गैर-रेखीय विमीयता अवकरण के तरीकों के वर्ग का हिस्सा हैं जो अंतर्निहित बहुविध की खोज पर ध्यान केंद्रित करते हैं जिससे आंकड़ों का प्रतिरूप लिया गया है। स्थानीय समानताओं को विभिन्न मापक्रम पर एकीकृत करके, प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं। अन्य तरीकों की तुलना में, प्रसार मानचित्र कलन विधि शोर अस्तव्यस्तता और कम्प्यूटेशनल रूप से मितव्ययी के लिए शक्तिशाली है।
प्रसार मानचित्रों की परिभाषा
निम्नलिखित [3] और, [5] प्रसार मानचित्रों को चार चरणों में परिभाषित किया जा सकता है।
अनुयोजकता
प्रसार मानचित्र ऊष्मा प्रसार और यादृच्छिक चाल मार्कोव श्रृंखला के बीच संबंध का लाभ उठाते हैं। मूल अवलोकन यह है कि यदि हम आंकड़ों पर यादृच्छिक रूप से चलते हैं, तो पास के आंकड़ों-बिंदु पर चलने की संभावना दूसरे आंकड़ों-बिंदु पर चलने की तुलना में अधिक होती है। मान लीजिये एक माप स्थान हो, आँकड़ा समुच्चय है और पर बिंदुओं के वितरण का प्रतिनिधित्व करता है।
दो डेटा बिंदुओं, x और y के बीच अनुयोजकता k को यादृच्छिक भ्रमण के एक चरण में x से y तक चलने की संभावना के रूप में परिभाषित किया जा सकता है। सामान्यतः, यह संभावना दो बिंदुओं के कर्नेल फलन के संदर्भ में निर्दिष्ट होती है। उदाहरण के लिए, लोकप्रिय गॉसियन कर्नेल निम्न है:
अधिक सामान्यतः, पूर्णांकी कर्नेल फलन में निम्नलिखित गुण होते हैं
- ( सममित है)
( सकारात्मकता संरक्षित है)।
कर्नेल आंकड़ों-सम्मुच्चय की स्थानीय ज्यामिति की पूर्व परिभाषा का गठन करता है। चूंकि एक दिया गया कर्नेल आंकड़ा सम्मुच्चय की एक विशिष्ट विशेषता को प्रग्रहण करेगा, इसकी पसंद को उस एप्लिकेशन द्वारा निर्देशित किया जाना चाहिए जो किसी के दिमाग में हो। प्रमुख घटक विश्लेषण जैसे तरीकों के साथ यह एक बड़ा अंतर है, जहां सभी आंकड़ों बिंदुओं के बीच सहसंबंधों को एक ही बार में ध्यान में रखा जाता है।
दिया गया , फिर हम एक प्रतिवर्ती असतत-समय मार्कोव श्रृंखला का निर्माण कर सकते हैं (एक प्रक्रिया जिसे सामान्यीकृत लेखाचित्र लाप्लासियन निर्माण के रूप में जाना जाता है):
और निम्न को परिभाषित करें:
यद्यपि नया सामान्यीकृत कर्नेल सममित गुण को इनहेरिट नहीं करता है, यह सकारात्मकता-संरक्षण गुण को इनहेरिट करता है और एक संरक्षण गुण प्राप्त करता है:
प्रसार प्रक्रिया
से हम पर एक मार्कोव श्रृंखला () के परिवर्तन आव्यूह का निर्माण कर सकते हैं। दूसरे शब्दों में, से एक-चरण संक्रमण संभावना से का प्रतिनिधित्व करता है, और t-चरण संक्रमण आव्यूह देता है।
हम प्रसार आव्यूह को परिभाषित करते हैं (यह लेखाचित्र लाप्लासियन आव्यूह का एक संस्करण भी है)
फिर हम नए कर्नेल को परिभाषित करते हैं
या समकक्ष,
जहां D एक विकर्ण आव्यूह है और
हम इस नए कर्नेल पर लाप्लासियन सामान्यीकरण लेखाचित्र लागू करते हैं:
जहाँ एक विकर्ण आव्यूह है और
प्रसार ढांचे के मुख्य विचारों में से एक यह है कि श्रृंखला को समय पर आगे बढ़ाना (M की बड़ी और बड़ी घात लेना) X की ज्यामितीय संरचना को बड़े और बड़े मापक्रम पर प्रकट करता है (प्रसार प्रक्रिया)। विशेष रूप से, आंकड़ों सम्मुच्चय में एक स्तवक की धारणा को एक ऐसे क्षेत्र के रूप में निर्धारित किया जाता है जिसमें इस क्षेत्र से बचने की संभावना कम होती है (एक निश्चित समय t के भीतर)। इसलिए, t न केवल एक समय मापदण्ड के रूप में कार्य करता है, बल्कि इसमें मापक्रम मापदण्ड की दोहरी भूमिका भी होती है।
आव्यूह का आइजेनडीकम्पोज़िशन उत्पादन है
जहाँ के आइगेनमान का अनुक्रम है और और क्रमशः बायोरथोगोनल दाएं और बाएं आइगेनसदिश हैं।
ईजेनवैल्यू के वर्णक्रम क्षय के कारण, इस योग में दी गई सापेक्ष सटीकता प्राप्त करने के लिए केवल कुछ परिस्थितियाँ आवश्यक हैं।
मापदण्ड α और प्रसार संचालक
को सम्मिलित करने वाले सामान्यीकरण कदम को प्रस्तुत करने का कारण प्रसार के अनंत संक्रमण पर डेटा बिंदु घनत्व के प्रभाव को अनूकुल करना है। कुछ अनुप्रयोगों में, आंकड़ों का प्रतिरूप सामान्यतः बहुविध की ज्यामिति से संबंधित नहीं होता है जिसे हम वर्णन करने में रुचि रखते हैं। इस स्तिथि में, हम सम्मुच्चय कर सकते हैं और प्रसार संचालक लाप्लास-बेल्ट्रामी संचालक का अनुमान लगाता है। इसके बाद हम अंकों के वितरण का चिंतन किए बिना आंकड़ों सम्मुच्चय की रीमैनियन ज्यामिति को पुनर्प्राप्त करते हैं। स्टोचैस्टिक अंतर समीकरणों की एक प्रणाली के बिंदु वितरण के दीर्घकालिक व्यवहार का वर्णन करने के लिए, हम का उपयोग कर सकते हैं और परिणामी मार्कोव श्रृंखला फोकर-प्लैंक समीकरण का अनुमान लगाती है। के साथ, यह पारम्परिक लेखाचित्र लाप्लासियन सामान्यीकरण को कम करता है।
प्रसार दूरी
समय पर प्रसार दूरी दो बिंदुओं के बीच अवलोकन स्थान में दो बिंदुओं की समानता के रूप में उनके बीच अनुयोजकता के रूप में मापा जा सकता है। निम्न द्वारा दिया गया है किː
जहाँ के पहले बाएँ आइगेनसदिश द्वारा दिया गया मार्कोव श्रृंखला का स्थिर वितरण है। स्पष्ट रूप से:
सहज रूप से, छोटा होता है यदि बड़ी संख्या में छोटे रास्ते और जुड़ते हैं। हमारी पिछली चर्चा के आधार पर प्रसार दूरी से जुड़ी कई दिलचस्प विशेषताएं हैं। मापक्रम मापदण्ड के रूप में भी कार्य करता है:
- अंक दिए गए मापक्रम पर निकट हैं (जैसा निर्दिष्ट किया गया है) यदि वे त्र में अत्यधिक जुड़े हुए हैं, इसलिए स्तवक की अवधारणा पर बल देते हैं।
- यह दूरी शोर के लिए शक्तिशाली है, क्योंकि दो बिंदुओं के बीच की दूरी लंबाई बिंदुओं के बीच के सभी संभावित रास्तों पर निर्भर करती हैं।
- मशीन के सीखने के दृष्टिकोण से, दूरी को जोड़ने वाले सभी साक्ष्यों को ध्यान में रखती है, जिससे हमें यह निष्कर्ष निकालने की अनुमति मिलती है कि यह दूरी बहुसंख्यता के आधार पर निष्कष कलन विधि की अभिकल्पना के लिए उपयुक्त है।[3]
प्रसार प्रक्रिया और निम्न-आयामी अंत: स्थापन
आइगेनसदिश का उपयोग करके प्रसार दूरी की गणना की जा सकती है
इसलिए आइगेनसदिश को आंकड़ों के लिए निर्देशांक के एक नए सम्मुच्चय के रूप में उपयोग किया जा सकता है। प्रसार मानचित्र को इस प्रकार परिभाषित किया गया है:
वर्णक्रम क्षय के कारण, यह केवल पहले k ईजेनसदिश और आइगेनवैल्यू का उपयोग करने के लिए पर्याप्त है।
इस प्रकार हम मूल आंकड़ों से एक k-विमीय स्थल में प्रसार मानचित्र प्राप्त करते हैं जो मूल स्थान में सन्निहित है।
[6] निम्न में यह सिद्ध होता है
इसलिए प्रसार निर्देशांक में यूक्लिडियन दूरी प्रसार दूरी का अनुमान लगाती है।
कलन विधि
प्रसार मानचित्र का मूल कलन विधि ढांचा इस प्रकार है:
चरण 1. समानता आव्यूह L को देखते हुए।
चरण 2. मापदण्ड के अनुसार आव्यूह : को सामान्य करें।
चरण 3. सामान्यीकृत आव्यूह तैयार करें।
चरण 4. और संबंधित आइगेनसदिश के सबसे बड़े आइगेनमान की गणना करें।
चरण 5. अंत: स्थापन प्राप्त करने के लिए प्रसार मानचित्र का उपयोग करें।
आवेदन
अपने लेख में [6] नाडलर एट अल. ने दिखाया कि एक कर्नेल को कैसे अभिकल्पित किया जाए जो फोकर-प्लैंक समीकरण द्वारा प्रेरित प्रसार को पुन: उत्पन्न करता है। उन्होंने यह भी समझाया कि, जब आंकड़ों बहुविध अनुमानित होता है, तो लाप्लास-बेल्ट्रामी संचालक के अनुमान की गणना करके इस बहुविध की ज्यामिति को पुनर्प्राप्त किया जा सकता है। यह गणना पूरी तरह असंवेदनशील है। अंकों के वितरण के लिए और इसलिए आँकड़ों और ज्यामिति के पृथक्करण प्रदान करता है। चूंकि प्रसार मानचित्र आंकड़ों-सम्मुच्चय का वैश्विक विवरण देते हैं, वे बहुविध में प्रतिरूप बिंदुओं के जोड़े के बीच की दूरी को माप सकते हैं जिसमें आंकड़ों अंतः स्थापित होता है। प्रसार मानचित्रों पर आधारित अनुप्रयोगों में चेहरा अभिज्ञान सम्मिलित है,[7] वर्णक्रमीय गुच्छन, छवियों का कम आयामी प्रतिनिधित्व, छवि विभाजन,[8] 3डी प्रतिरूप विभाजन,[9] वक्ता सत्यापन [10] और पहचान,[11] बहुविध पर नमूनाकरण, विसंगति का पता लगाना, [12][13] छवि इनपेंटिंग [14] [15] और इसी तरह।
इसके अतिरिक्त, प्रसार मानचित्र ढांचे को उत्पादक रूप से जटिल संजाल तक बढ़ाया गया है,
| last1 = De Domenico | first1 = Manlio | url = https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.118.168301 | title = प्रसार ज्यामिति सामूहिक घटना में कार्यात्मक समूहों के उद्भव को उजागर करती है| journal = Physical Review Letters | volume = 118 | issue = 16 | pages = 168301 | year = 2017 | doi = 10.1103/PhysRevLett.118.168301 | pmid = 28474920 | arxiv = 1704.07068 | bibcode = 2017PhRvL.118p8301D | s2cid = 2638868 }</ref> नेटवर्क के एक कार्यात्मक संगठन का खुलासा करता है जो विशुद्ध रूप से सांस्थितिकीय या संरचनात्मक एक से भिन्न होता है।
यह भी देखें
- अरैखिक विमीयता में अवकरण
- वर्णक्रमीय गुच्छन
संदर्भ
- ↑ Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Diffusion maps". PNAS. 102 (21): 7426–7431. Bibcode:2005PNAS..102.7426C. doi:10.1073/pnas.0500334102. PMC 1140422. PMID 15899970.
- ↑ Coifman, R.R.; Lafon, S; Lee, A B; Maggioni, M; Nadler, B; Warner, F; Zucker, S W (2005). "Geometric diffusions as a tool for harmonic analysis and structure definition of data: Multiscale methods". PNAS. 102 (21): 7432–7437. Bibcode:2005PNAS..102.7432C. doi:10.1073/pnas.0500896102. PMC 1140426. PMID 15899969.
- ↑ 3.0 3.1 3.2 Coifman, R.R.; S. Lafon. (2006). "Diffusion maps". Applied and Computational Harmonic Analysis. 21: 5–30. doi:10.1016/j.acha.2006.04.006.
- ↑ Lafon, S.S. (2004). Diffusion Maps and Geometric Harmonics (PDF) (PhD). Yale University.
- ↑ De la Porte, J.; Herbst, B M; Hereman, W; Van der Walt, S J (2008). "An Introduction to Diffusion Maps". Proceedings of the Nineteenth Annual Symposium of the Pattern Recognition Association of South Africa (PRASA). CiteSeerX 10.1.1.309.674.
- ↑ 6.0 6.1 Nadler, Boaz; Stéphane Lafon; Ronald R. Coifman; Ioannis G. Kevrekidis (2005). "Diffusion Maps, Spectral Clustering and Eigenfunctions of Fokker–Planck Operators" (PDF). Advances in Neural Information Processing Systems. 18. arXiv:math/0506090. Bibcode:2005math......6090N.
- ↑ Barkan, Oren; Weill, Jonathan; Wolf, Lior; Aronowitz, Hagai. "Fast high dimensional vector multiplication face recognition" (PDF). Proceedings of the IEEE International Conference on Computer Vision 2013: 1960–1967.
- ↑ Zeev, Farbman; Fattal Raanan; Lischinski Dani (2010). "Diffusion maps for edge-aware image editing". ACM Trans. Graph. 29 (6): 145:1–145:10. doi:10.1145/1882261.1866171.
- ↑ Oana, Sidi; van Kaick, Oliver; Kleiman, Yanir; Zhang, Hao; Cohen-Or, Daniel (2011). Unsupervised Co-Segmentation of a Set of Shapes via Descriptor-Space Spectral Clustering (PDF). ACM Transactions on Graphics.
- ↑ Barkan, Oren; Aronowitz, Hagai (2013). "Diffusion maps for PLDA-based speaker verification" (PDF). Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 7639–7643.
- ↑ Michalevsky, Yan; Talmon, Ronen; Cohen, Israel (2011). Speaker Identification Using Diffusion Maps (PDF). European signal processing conference 2011.
- ↑ Mishne, Gal; Cohen, Israel (2013). "Multiscale Anomaly Detection Using Diffusion Maps". IEEE Selected Topics in Signal Processing. 7 (1): 111–123. Bibcode:2013ISTSP...7..111M. doi:10.1109/jstsp.2012.2232279. S2CID 1954466.
- ↑ Shabat, Gil; Segev, David; Averbuch, Amir (2018-01-07). "Uncovering Unknown Unknowns in Financial Services Big Data by Unsupervised Methodologies: Present and Future trends". KDD 2017 Workshop on Anomaly Detection in Finance (in English). 71: 8–19.
- ↑ Gepshtein, Shai; Keller, Yosi (2013). "Image Completion by Diffusion Maps and Spectral Relaxation". IEEE Transactions on Image Processing. 22 (8): 2983–2994. Bibcode:2013ITIP...22.2983G. doi:10.1109/tip.2013.2237916. PMID 23322762. S2CID 14375333.
- ↑ Margulies, Daniel S.; Ghosh, Satrajit S.; Goulas, Alexandros; Falkiewicz, Marcel; Huntenburg, Julia M.; Langs, Georg; Bezgin, Gleb; Eickhoff, Simon B.; Castellanos, F. Xavier; Petrides, Michael; Jefferies, Elizabeth; Smallwood, Jonathan (2016). "Situating the default-mode network along a principal gradient of macroscale cortical organization". Proceedings of the National Academy of Sciences. 113 (44): 12574–12579. doi:10.1073/pnas.1608282113. PMID 27791099.