कोसाइन समानता: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Similarity measure for number sequences}} डेटा विश्लेषण में, कोसाइन समानता एक आंतर...")
 
No edit summary
 
(17 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Similarity measure for number sequences}}
{{Short description|Similarity measure for number sequences}}


[[डेटा विश्लेषण]] में, कोसाइन समानता एक [[आंतरिक उत्पाद स्थान]] में परिभाषित दो गैर-शून्य वैक्टरों के बीच समानता का एक उपाय है। [[कोज्या]] समानता सदिशों के बीच के कोण की कोज्या है; अर्थात्, यह उनकी लंबाई के गुणनफल से विभाजित सदिशों का डॉट गुणनफल है। इससे पता चलता है कि कोज्या समानता सदिशों के परिमाण पर निर्भर नहीं करती है, बल्कि केवल उनके कोण पर निर्भर करती है। कोसाइन समानता हमेशा अंतराल से संबंधित होती है <math>[-1, 1].</math> उदाहरण के लिए, दो [[आनुपातिक वैक्टर]] में 1 की कोज्या समानता होती है, दो [[ऑर्थोगोनल वैक्टर]] में 0 की समानता होती है, और दो [[विपरीत (गणित)]] वैक्टर में -1 की समानता होती है। कुछ संदर्भों में, सदिशों के घटक मान ऋणात्मक नहीं हो सकते, जिस स्थिति में कोसाइन समानता सीमित होती है <math>[0,1]</math>.
[[डेटा विश्लेषण]] में, कोसाइन समानता [[आंतरिक उत्पाद स्थान|आंतरिक गुणन क्षेत्र]] में परिभाषित दो गैर-शून्य सदिश के बीच समानता का माप है। [[कोज्या|कोसाइन]] समानता सदिशों के बीच के कोण की कोज्या होती है; अर्थात्, यह उनकी लंबाई के गुणनफल से विभाजित सदिशों का डॉट गुणनफल है। इससे यह पता चलता है कि कोज्या समानता सदिशों के परिमाण पर निर्भर नहीं करती है, लेकिन केवल उनके कोण पर निर्भर करती है। कोसाइन समानता अधिकांशतः अंतराल <math>[-1, 1].</math> से संबंधित होती है। उदाहरण के लिए दो [[आनुपातिक वैक्टर|समानुपाती सदिशों]] में 1 की कोज्या समानता होती है और इस प्रकार दो [[ऑर्थोगोनल वैक्टर|लंबकोणीय]] [[आनुपातिक वैक्टर|सदिशों]] की कोसाइन समानता 0 होती है और दो [[विपरीत (गणित)|विपरीत]] सदिश में -1 की समानता होती है। कुछ संदर्भों में, सदिशों के घटक मान ऋणात्मक नहीं हो सकते है और जिस स्थिति में कोसाइन समानता <math>[0,1]</math>.के रूप में सीमित होती है


उदाहरण के लिए, सूचना पुनर्प्राप्ति और पाठ खनन में, प्रत्येक शब्द को एक अलग निर्देशांक दिया जाता है और दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या के वेक्टर द्वारा एक दस्तावेज़ का प्रतिनिधित्व किया जाता है। कोसाइन समानता तब इस बात का एक उपयोगी माप देती है कि उनकी विषय वस्तु के संदर्भ में और दस्तावेज़ों की लंबाई से स्वतंत्र रूप से दो दस्तावेज़ों के समान होने की कितनी संभावना है।<ref>[[Amit Singhal|Singhal, Amit]] (2001). "[http://singhal.info/ieee2001.pdf Modern Information Retrieval: A Brief Overview]". ''Bulletin of the IEEE Computer Society Technical Committee on Data Engineering'' 24 (4): 35–43.</ref>
उदाहरण के लिए सूचना पुनर्प्राप्ति और पाठ माइनिंग में, प्रत्येक शब्द को भिन्न निर्देशांक दिया जाता है और दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या के सदिश द्वारा दस्तावेज़ का प्रतिनिधित्व किया जाता है। कोसाइन समानता तब इस बात का उपयोगी माप देता है कि उनकी विषय वस्तु के संदर्भ में और दस्तावेज़ों की लंबाई के अनुसार स्वतंत्र रूप से दो दस्तावेज़ों के समान होने की कितनी संभावना होती है।<ref>[[Amit Singhal|Singhal, Amit]] (2001). "[http://singhal.info/ieee2001.pdf Modern Information Retrieval: A Brief Overview]". ''Bulletin of the IEEE Computer Society Technical Committee on Data Engineering'' 24 (4): 35–43.</ref>
[[डेटा खनन]] के क्षेत्र में क्लस्टर के भीतर सामंजस्य को मापने के लिए तकनीक का भी उपयोग किया जाता है।<ref>P.-N. Tan, M. Steinbach & V. Kumar, ''Introduction to Data Mining'', Addison-Wesley (2005), {{ISBN|0-321-32136-7}}, chapter 8; page 500.</ref>
कोसाइन समानता का एक लाभ इसकी कम्प्यूटेशनल जटिलता है, विशेष रूप से [[विरल मैट्रिक्स]] के लिए: केवल गैर-शून्य निर्देशांक पर विचार करने की आवश्यकता है।


कोसाइन समानता के अन्य नामों में शामिल हैं ओरचिनी समानता और सर्वांगसमता का टकर गुणांक; ओत्सुका-ओचियाई समानता (नीचे देखें) [[बाइनरी डेटा]] पर लागू कोसाइन समानता है।
[[डेटा खनन|डेटा]] माइनिंग के क्षेत्र में क्लस्टर के भीतर सामंजस्य को मापने के लिए प्रोद्योगिकीय का उपयोग किया जाता है।<ref>P.-N. Tan, M. Steinbach & V. Kumar, ''Introduction to Data Mining'', Addison-Wesley (2005), {{ISBN|0-321-32136-7}}, chapter 8; page 500.</ref>
 
कोसाइन समानता का एक लाभ यह है कि इसकी संगणनात्मक जटिलता जो विशेष रूप से [[विरल मैट्रिक्स|असामान्य आव्यूह]] के रूप में होती है और इस प्रकार केवल गैर-शून्य निर्देशांक पर विचार करने की आवश्यकता है।
 
कोसाइन समानता के लिए अन्य नामों में ओतसुका ओरचिनी समानता के समरूपी कोसाइन गुणांक के रूप में सम्मलित होते है। कोसाइन समरूपी [[बाइनरी डेटा|बाइनरी]] आंकड़ों पर लागू किया गया है जिसे नीचे दिखाया गया है


== परिभाषा ==
== परिभाषा ==


यूक्लिडियन वेक्टर#डॉट उत्पाद सूत्र का उपयोग करके दो गैर-शून्य वैक्टरों की कोज्या प्राप्त की जा सकती है:
दो गैर शून्य सदिश की कोसाइन यूक्लिडियन डॉट गुणन फॉर्मूला का उपयोग करके प्राप्त किया जा सकता है।


:<math>\mathbf{A}\cdot\mathbf{B}
:<math>\mathbf{A}\cdot\mathbf{B}
=\left\|\mathbf{A}\right\|\left\|\mathbf{B}\right\|\cos\theta</math>
=\left\|\mathbf{A}\right\|\left\|\mathbf{B}\right\|\cos\theta</math>
गुणों के दो एन-आयामी [[वेक्टर (ज्यामितीय)]] को देखते हुए, 'ए' और 'बी', कोसाइन समानता, {{math|cos(θ)}}, एक डॉट उत्पाद और परिमाण (गणित) #यूक्लिडियन वेक्टर स्पेस का उपयोग करके दर्शाया गया है
दो n आयामी [[वेक्टर (ज्यामितीय)|सदिश (ज्यामितीय)]] के गुण को देखते हुए A और B कोसाइन समानता {{math|cos(θ)}}, एक सदिश गुणन और परिमाण (गणित) का उपयोग करके दर्शाया जाता है।


:<math>\text{cosine similarity} =S_C (A,B):= \cos(\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i  B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}}  \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} },</math>
:<math>\text{cosine similarity} =S_C (A,B):= \cos(\theta) = {\mathbf{A} \cdot \mathbf{B} \over \|\mathbf{A}\| \|\mathbf{B}\|} = \frac{ \sum\limits_{i=1}^{n}{A_i  B_i} }{ \sqrt{\sum\limits_{i=1}^{n}{A_i^2}}  \sqrt{\sum\limits_{i=1}^{n}{B_i^2}} },</math>
कहाँ <math>A_i</math> और <math>B_i</math> हैं <math>i</math>वें यूक्लिडियन वेक्टर#सदिशों का अपघटन <math>\mathbf{A}</math> और <math>\mathbf{B}</math>, क्रमश।
जहाँ <math>A_i</math> और <math>B_i</math> क्रमशः यूक्लिडियन सदिशों <math>\mathbf{A}</math> और <math>\mathbf{B}</math> के <math>i</math>वें घटकों के रूप में होते है।
 
परिणामी समानता -1 से लेकर होती है जिसका अर्थ बिल्कुल विपरीत होता है, 1 का अर्थ बिल्कुल समान होता है, 0 के साथ [[ओर्थोगोनालिटी]] या अलंकरण का संकेत मिलता है, जबकि बीच के मान मध्यवर्ती समानता या असमानता का संकेत देते हैं।


[[अनुमानित स्ट्रिंग मिलान]] के लिए, विशेषता वेक्टर ए और बी आमतौर पर दस्तावेजों के टीएफ-आईडीएफ वैक्टर होते हैं। कोसाइन समानता को तुलना के दौरान [[सामान्यीकरण (सांख्यिकी)]] दस्तावेज़ लंबाई की एक विधि के रूप में देखा जा सकता है। सूचना पुनर्प्राप्ति के मामले में, दो दस्तावेज़ों की कोसाइन समानता की सीमा होगी <math>0 \to 1</math>, क्योंकि पद आवृत्ति ऋणात्मक नहीं हो सकती। tf-idf|TF-IDF वज़न का उपयोग करते समय यह सही रहता है। दो टर्म फ़्रीक्वेंसी वैक्टर के बीच का कोण 90° से ज़्यादा नहीं हो सकता।
परिणामी समानता -1 से लेकर होती है जिसका अर्थ बिल्कुल विपरीत होता है और 1 का अर्थ बिल्कुल समान होता है और इस प्रकार 0 के साथ [[ओर्थोगोनालिटी|लंबकोणीयता]] या सहसंबंध का संकेत मिलता है, जबकि बीच के मान मध्यवर्ती समानता या असमानता का संकेत देते हैं।


यदि विशेषता सदिशों को सदिश माध्यों को घटाकर सामान्यीकृत किया जाता है (उदा., <math>A - \bar{A}</math>), माप को केंद्रित कोसाइन समानता कहा जाता है और [[पियर्सन सहसंबंध गुणांक]] के बराबर है। केंद्रीकरण के उदाहरण के लिए, <math>\text{if}\, A = [A_1, A_2]^T, \text{ then } \bar{A} = \left[\frac{(A_1+A_2)}{2},\frac{(A_1+A_2)}{2}\right]^T, \text{ so } A-\bar{A}=  \left[\frac{(A_1-A_2)}{2},\frac{(-A_1+A_2)}{2}\right]^T.</math>
[[पाठ मिलान]] के लिए, सामान्यतया विशेषता सदिश A और B दस्तावेजों के आवृत्ति सदिश शब्द के रूप में होते हैं। कोसाइन समानता को तुलना के समय [[सामान्यीकरण (सांख्यिकी)]] दस्तावेज़ लंबाई की एक विधि के रूप में देखा जा सकता है। सूचना पुनर्प्राप्ति के स्थितियों में दो दस्तावेज़ों की कोसाइन समानता की सीमा <math>0 \to 1</math> के रूप में होती है, क्योंकि शब्द आवृत्ति ऋणात्मक नहीं हो सकती। यह टीएफ-आईडीएफ (शब्द आवृत्ति व्युत्क्रम दस्तावेज़ आवृत्ति) भार का उपयोग करते समय सही साबित होता है। दो शब्द आवृत्ति वैक्टर के बीच का कोण 90 डिग्री से अधिक नहीं हो सकता


यदि सदिश के घटाव द्वारा गुणनफल सदिश को सामान्यीकृत किया जाता है, अर्थात <math>A - \bar{A}</math>), तो माप को केंद्रित कोसाइन समानता कहा जाता है और [[पियर्सन सहसंबंध गुणांक]] के बराबर होता है। केंद्रीकरण के उदाहरण के लिए इस रूप में होते है, <math>\text{if}\, A = [A_1, A_2]^T, \text{ then } \bar{A} = \left[\frac{(A_1+A_2)}{2},\frac{(A_1+A_2)}{2}\right]^T, \text{ so } A-\bar{A}=  \left[\frac{(A_1-A_2)}{2},\frac{(-A_1+A_2)}{2}\right]^T.</math>


=== कोसाइन दूरी ===
=== कोसाइन दूरी ===


शब्द कोसाइन दूरी<ref>{{cite web |url=https://reference.wolfram.com/language/ref/CosineDistance.html |title=कोसाइनडिस्टैंक - वोल्फ्राम लैंग्वेज डॉक्यूमेंटेशन|author=Wolfram Research (2007) |website=wolfram.com}}</ref> आमतौर पर सकारात्मक स्थान में कोज्या समानता के पूरक के लिए उपयोग किया जाता है, अर्थात
शब्द कोसाइन दूरी<ref>{{cite web |url=https://reference.wolfram.com/language/ref/CosineDistance.html |title=कोसाइनडिस्टैंक - वोल्फ्राम लैंग्वेज डॉक्यूमेंटेशन|author=Wolfram Research (2007) |website=wolfram.com}}</ref> सामान्यतः सकारात्मक क्षेत्र में कोसाइन समानता के पूरक के लिए उपयोग किया जाता है।


: <math> \text{cosine distance} = D_C(A,B) := 1 - S_C(A,B).</math> यह ध्यान रखना महत्वपूर्ण है कि कोसाइन दूरी एक वास्तविक [[दूरी मीट्रिक]] नहीं है क्योंकि यह त्रिकोण असमानता संपत्ति को प्रदर्शित नहीं करती है - या अधिक औपचारिक रूप से, श्वार्ज़ असमानता - और यह संयोग स्वयंसिद्ध का उल्लंघन करती है। इसे देखने का एक तरीका है कोज्या समानता # गुण कि कोसाइन दूरी वर्ग की यूक्लिडियन दूरी का आधा है <math>L_2</math> सदिशों का सामान्यीकरण, और यूक्लिडियन दूरी का वर्ग त्रिभुज असमानता को भी संतुष्ट नहीं करता है। समान क्रम को बनाए रखते हुए त्रिभुज असमानता संपत्ति की मरम्मत के लिए, कोणीय दूरी या कोसाइन समानता # एल 2-सामान्यीकृत यूक्लिडियन दूरी में परिवर्तित करना आवश्यक है। वैकल्पिक रूप से, त्रिकोणीय असमानता जो कोणीय दूरियों के लिए काम करती है, सीधे कोसाइन के संदर्भ में व्यक्त की जा सकती है; कोसाइन समानता #कोज्या समानता के लिए त्रिभुज असमानता देखें।
: <math> \text{cosine distance} = D_C(A,B) := 1 - S_C(A,B).</math>  
:यह ध्यान रखना महत्वपूर्ण है कि कोसाइन दूरी वास्तविक क्षेत्र [[दूरी मीट्रिक|मीट्रिक]] नहीं होता है, क्योंकि इसमें त्रिकोण असमानता गुण को प्रदर्शित नहीं नहीं करती है या फिर औपचारिक रूप से श्वार्ज़ असमानता तथा यह संयोग एक्सिओम का उल्लंघन करती है। यह देखने की एक विधि है कि कोसाइन दूरी सदिश के <math>L_2</math> सामान्यीकरण की यूक्लिडियन दूरी का आधा होता है और और यूक्लिडियन दूरी का वर्ग त्रिभुज असमानता को भी संतुष्ट नहीं करता है और इस प्रकार समान क्रम को बनाए रखते हुए त्रिभुज असमानता गुण की पूर्वावस्था के लिए कोणीय दूरी या यूक्लिडियन दूरी में परिवर्तित कर दिया जाता है और इस प्रकार वैकल्पिक रूप से कोसाइन के संदर्भ में त्रिकोणीय असमानता जो कोणीय दूरियां बनाने के लिए काम करती है वे सीधे कोसाइन के संदर्भ में व्यक्त की जा सकती है। जिसे नीचे दिखाया गया है।


=== कोणीय दूरी और समानता ===
=== कोणीय दूरी और समानता ===


सामान्यीकृत कोण, जिसे किन्हीं दो सदिशों के बीच कोणीय दूरी कहा जाता है <math>A</math> और <math>B</math> एक औपचारिक दूरी मीट्रिक है और इसकी गणना कोसाइन समानता से की जा सकती है।<ref>{{Cite web|title=कोसाइन दूरी, कोसाइन समानता, कोणीय कोसाइन दूरी, कोणीय कोसाइन समानता|url=https://www.itl.nist.gov/div898/software/dataplot/refman2/auxillar/cosdist.htm|access-date=2020-07-11|website=www.itl.nist.gov}}</ref> कोणीय दूरी मीट्रिक के पूरक का उपयोग तब 0 और 1 के बीच घिरे हुए कोणीय समानता फ़ंक्शन को परिभाषित करने के लिए किया जा सकता है।
किसी भी दो वैक्टर <math>A</math> और <math>B</math> के बीच में सामान्य कोण को कोणीय दूरी कहा जाता है और यह औपचारिक दूरी मीट्रिक होता है इसकी गणना कोसाइन समानता से की जा सकती है।<ref>{{Cite web|title=कोसाइन दूरी, कोसाइन समानता, कोणीय कोसाइन दूरी, कोणीय कोसाइन समानता|url=https://www.itl.nist.gov/div898/software/dataplot/refman2/auxillar/cosdist.htm|access-date=2020-07-11|website=www.itl.nist.gov}}</ref> तब कोणीय दूरी मीट्रिक का पूरक का प्रयोग कोणीय समानता फलन को 0 और 1 के बीच परिबद्ध करने के लिए किया जा सकता है।


जब सदिश तत्व धनात्मक या ऋणात्मक हो सकते हैं:
जब सदिश तत्व धनात्मक या ऋणात्मक हो सकते हैं,


:<math>\text{angular distance} = D_{\theta} := \frac{ \arccos( \text{cosine similarity} ) }{ \pi } = \frac{\theta}{\pi}</math>
:<math>\text{angular distance} = D_{\theta} := \frac{ \arccos( \text{cosine similarity} ) }{ \pi } = \frac{\theta}{\pi}</math>
:<math>\text{angular similarity} = S_{\theta} := 1 - \text{angular distance} = 1 - \frac{\theta}{\pi}</math>
:<math>\text{angular similarity} = S_{\theta} := 1 - \text{angular distance} = 1 - \frac{\theta}{\pi}</math>
या, यदि वेक्टर तत्व हमेशा सकारात्मक होते हैं:
यदि सदिश तत्व अधिकांशतः सकारात्मक रूप में होते हैं


:<math>\text{angular distance} = D_{\theta} := \frac{ 2 \cdot \arccos( \text{cosine similarity} ) }{ \pi }  = \frac{2\theta}{\pi}</math>
:<math>\text{angular distance} = D_{\theta} := \frac{ 2 \cdot \arccos( \text{cosine similarity} ) }{ \pi }  = \frac{2\theta}{\pi}</math>
:<math>\text{angular similarity} = S_{\theta} := 1 - \text{angular distance} = 1 - \frac{2\theta}{\pi}</math>
:<math>\text{angular similarity} = S_{\theta} := 1 - \text{angular distance} = 1 - \frac{2\theta}{\pi}</math>
दुर्भाग्य से, व्युत्क्रम कोसाइन की गणना ({{math|arccos}}) फ़ंक्शन धीमा है, ऊपर की अधिक सामान्य (लेकिन मीट्रिक नहीं) कोसाइन दूरी का उपयोग करने की तुलना में कोणीय दूरी का उपयोग अधिक कम्प्यूटेशनल रूप से महंगा है।
दुर्भाग्यवश, व्युत्क्रम कोसाइन ({{math|अरक्कोस}}) फलन की गणना धीमी गति से की जाती है, जिससे अधिक सामान्य मीट्रिक कोसाइन दूरी का उपयोग करने की तुलना में कोणीय दूरी का उपयोग अधिक संगणनात्मक रूप से महंगा हो जाता है।


=== एल<sub>2</sub>सामान्यीकृत यूक्लिडियन दूरी ===
=== L<sub>2</sub>सामान्यीकृत यूक्लिडियन दूरी ===


कोसाइन दूरी के लिए एक और प्रभावी प्रतिनिधि Norm_(mathematics)#Euclidean_norm|<math>L_2</math> सदिशों का सामान्यीकरण, उसके बाद सामान्य [[यूक्लिडियन दूरी]] का अनुप्रयोग। इस तकनीक का उपयोग करते हुए प्रत्येक सदिश में प्रत्येक पद को पहले सदिश के परिमाण से विभाजित किया जाता है, जिससे इकाई लंबाई का सदिश प्राप्त होता है। फिर किन्हीं दो सदिशों के अंत-बिंदुओं पर यूक्लिडियन दूरी एक उचित मीट्रिक है जो सदिशों की किसी भी तुलना के लिए कोसाइन दूरी (यूक्लिडियन दूरी का एक [[मोनोटोनिक परिवर्तन]]; देखें कोसाइन समानता#गुण) के समान क्रम देता है, और इसके अलावा सदिशों की तुलना से बचता है एक उचित मीट्रिक प्राप्त करने के लिए संभावित रूप से महंगे त्रिकोणमितीय संचालन की आवश्यकता होती है। एक बार सामान्यीकरण हो जाने के बाद, वेक्टर स्पेस का उपयोग किसी भी यूक्लिडियन स्पेस के लिए उपलब्ध तकनीकों की पूरी श्रृंखला के साथ किया जा सकता है, विशेष रूप से मानक [[आयामीता में कमी]] तकनीक। यह सामान्यीकृत फॉर्म दूरी अक्सर कई गहन शिक्षण एल्गोरिदम में उपयोग की जाती है।
कोसाइन दूरी के लिए एक और प्रभावी प्रतिनिधि यूक्लिडियन सदिश <math>L_2</math> के सामान्यीकरण द्वारा प्राप्त किया जा सकता है और उसके बाद सामान्य [[यूक्लिडियन दूरी]] के अनुप्रयोग के बाद इस प्रोद्योगिकीय का उपयोग करते है और इस प्रकार प्रत्येक सदिश में प्रत्येक पद को पहले सदिश के परिमाण से विभाजित किया जाता है, जिससे इकाई लंबाई का सदिश प्राप्त होता है। फिर किन्हीं दो सदिशों के अंत-बिंदुओं पर यूक्लिडियन दूरी यथार्थ मीट्रिक के रूप में होता है, जो सदिशों की किसी भी तुलना के लिए कोसाइन दूरी के समान क्रम के रूप में देता है और इस प्रकार यूक्लिडियन दूरी का [[मोनोटोनिक परिवर्तन|एकदिष्ट परिवर्तन]] को इस प्रकार दिखाया जाता है और इसके अतिरिक्त यह सदिशों की तुलना से बचता है और उचित मीट्रिक प्राप्त करने के लिए संभावित रूप से बहुमूल्य त्रिकोणमितीय संचालन की आवश्यकता होती है। एक बार सामान्यीकरण हो जाने के बाद सदिश क्षेत्र का उपयोग किसी भी यूक्लिडियन क्षेत्र के लिए उपलब्ध प्रोद्योगिकीय की पूरी श्रृंखला के साथ किया जाता है और विशेष रूप से मानक [[आयामीता में कमी|विमीयता में कमी]] प्रोद्योगिकीय के रूप में होती है। यह सामान्यीकृत फॉर्म दूरी अधिकांशतः कई गहन शिक्षण कलन विधि में उपयोग की जाती है।


=== ओत्सुका-ओचियाई गुणांक ===
=== ओत्सुका-ओचियाई गुणांक ===
जीव विज्ञान में, एक ऐसी ही अवधारणा है जिसे ओत्सुका-ओचियाई गुणांक के रूप में जाना जाता है।<ref name="Omori">{{cite journal
जीव विज्ञान में, एक ऐसी ही अवधारणा है जिसे ओत्सुका ओचियाई गुणांक के रूप में जाना जाता है।<ref name="Omori">{{cite journal
  | author = Omori, Masae
  | author = Omori, Masae
  | title = Geological idea of Yanosuke Otuka, who built the foundation of neotectonics (geoscientist)
  | title = Geological idea of Yanosuke Otuka, who built the foundation of neotectonics (geoscientist)
Line 62: Line 64:
  | doi = 10.15080/agcjchikyukagaku.58.4_256
  | doi = 10.15080/agcjchikyukagaku.58.4_256
  | url = https://www.jstage.jst.go.jp/article/agcjchikyukagaku/58/4/58_KJ00004410060/_pdf/-char/en
  | url = https://www.jstage.jst.go.jp/article/agcjchikyukagaku/58/4/58_KJ00004410060/_pdf/-char/en
}}</ref> {{lang-ja|大塚 弥之助}})<ref name="Otsuka1936">{{cite journal
}}</ref> जिसका नाम यानोसुके ओत्सुका के नाम पर रखा गया है, जिसे ओत्सुका, ऊत्सुका या ओटुका जापानी और अकीरा ओचियाई जापानी: 落合 明 भी कहा जाता है,<ref name="Ochiai1957">{{cite journal
| author = Otsuka, Yanosuke
| title = The faunal character of the Japanese Pleistocene marine Mollusca, as evidence of the climate having become colder during the Pleistocene in Japan
| journal = Bulletin of the Biogeographical Society of Japan
| year = 1936
| volume = 6
| issue = 16
| pages = 165–170
}}</ref> और अकीरा ओचियाई ({{lang-ja|落合 明}}),<ref name="Ochiai1957">{{cite journal
  | author = Ochiai, Akira
  | author = Ochiai, Akira
  | title = Zoogeographical studies on the soleoid fishes found in Japan and its neighhouring regions-II
  | title = Zoogeographical studies on the soleoid fishes found in Japan and its neighhouring regions-II
Line 81: Line 75:
  | url = https://www.jstage.jst.go.jp/article/suisan1932/22/9/22_9_526/_pdf/-char/en
  | url = https://www.jstage.jst.go.jp/article/suisan1932/22/9/22_9_526/_pdf/-char/en
| doi-access = free
| doi-access = free
  }}</ref> ओचियाई-बार्कमैन के रूप में भी जाना जाता है<ref name="Barkman1958">{{cite book
  }}</ref> ओचियाई-बार्कमैन या ओचियाई गुणांक के रूप में जाना जाता है<ref name="Barkman1958">{{cite book
  | author = Barkman, Jan J.
  | author = Barkman, Jan J.
  | title = Phytosociology and Ecology of Cryptogamic Epiphytes: Including a Taxonomic Survey and Description of Their Vegetation Units in Europe
  | title = Phytosociology and Ecology of Cryptogamic Epiphytes: Including a Taxonomic Survey and Description of Their Vegetation Units in Europe
Line 87: Line 81:
  | year = 1958
  | year = 1958
  | location = Assen
  | location = Assen
}}</ref> या ओचियाई गुणांक,<ref name="Romesburg1984">{{cite book
}}</ref> जिसे इस प्रकार दर्शाया जा सकता है,<ref name="Romesburg1984">{{cite book
  | author = H. Charles Romesburg
  | author = H. Charles Romesburg
  | title = Cluster Analysis for Researchers
  | title = Cluster Analysis for Researchers
Line 95: Line 89:
  | page = 149
  | page = 149
  | url = {{Google books|ZuIPv7OKm10C|page=149|plainurl=yes}}
  | url = {{Google books|ZuIPv7OKm10C|page=149|plainurl=yes}}
}}</ref> जिसे इस प्रकार दर्शाया जा सकता है:
}}</ref>  
:<math>K =\frac{|A \cap B|}{\sqrt{|A| \times |B|}}</math>
:<math>K =\frac{|A \cap B|}{\sqrt{|A| \times |B|}}</math>
यहाँ, <math>A</math> और <math>B</math> [[सेट (गणित)]] हैं, और <math>|A|</math> में तत्वों की संख्या है <math>A</math>. यदि सेट को बिट वैक्टर के रूप में दर्शाया जाता है, तो ओत्सुका-ओचियाई गुणांक कोसाइन समानता के समान देखा जा सकता है।
यहाँ, <math>A</math> और <math>B</math> [[सेट (गणित)|समुच्चय (गणित)]] के रूप में हैं और <math>|A|</math> तत्वों की संख्या है <math>A</math>. यदि समुच्चय को बिट सदिश के रूप में दर्शाया जाता है, तो ओत्सुका-ओचियाई गुणांक कोसाइन समानता के समान देखा जा सकता है।


हाल की एक किताब में,<ref name="Howarth2017">{{cite book
हाल की एक किताब में,<ref name="Howarth2017">{{cite book
Line 110: Line 104:
  | s2cid = 67081034
  | s2cid = 67081034
  | url = {{Google books|MNwlDwAAQBAJ|page=421|plainurl=yes}}
  | url = {{Google books|MNwlDwAAQBAJ|page=421|plainurl=yes}}
}}</ref> गुणांक को ओत्सुका परिवार के नाम वाले एक अन्य जापानी शोधकर्ता को गलत तरीके से आरोपित किया गया है। भ्रम पैदा होता है क्योंकि 1957 में अकीरा ओचियाई गुणांक को केवल ओत्सुका (पहले नाम का उल्लेख नहीं) के लिए जिम्मेदार ठहराते हैं।<ref name="Ochiai1957"/>इकुसो हमाई के एक लेख का हवाला देते हुए ({{lang-ja|浜井 生三}}),<ref name="Hamai1955">{{cite journal
}}</ref> गुणांक को ओत्सुका परिवार के नाम वाले एक अन्य जापानी शोधकर्ता को गलत विधि से आरोपित किया गया है। इससे भ्रम उत्पन्न होता है क्योंकि 1957 में अकीरा ओचियाई गुणांक को केवल ओत्सुका के लिए जिम्मेदार ठहराते हैं। <ref name="Ochiai1957"/> इकुसो हमाई के एक लेख का हवाला देते हुए जापानी लेख में पहले इसका उल्लेख नहीं किया गया है,<ref name="Hamai1955">{{cite journal
  | author = Hamai, Ikuso
  | author = Hamai, Ikuso
  | title = Stratification of community by means of "community coefficient" (continued)
  | title = Stratification of community by means of "community coefficient" (continued)
Line 120: Line 114:
  | doi = 10.18960/seitai.5.1_41
  | doi = 10.18960/seitai.5.1_41
  | url = https://www.jstage.jst.go.jp/article/seitai/5/1/5_KJ00002869450/_pdf/-char/en
  | url = https://www.jstage.jst.go.jp/article/seitai/5/1/5_KJ00002869450/_pdf/-char/en
}}</ref> जो बदले में यानोसुके ओत्सुका के मूल 1936 के लेख का हवाला देते हैं।<ref name="Otsuka1936"/>
}}</ref> जो बदले में यानोसुके ओत्सुका के मूल 1936 के लेख का हवाला देते हैं।<ref name="Otsuka1936">{{cite journal
 
| author = Otsuka, Yanosuke
| title = The faunal character of the Japanese Pleistocene marine Mollusca, as evidence of the climate having become colder during the Pleistocene in Japan
| journal = Bulletin of the Biogeographical Society of Japan
| year = 1936
| volume = 6
| issue = 16
| pages = 165–170
}}</ref>


== गुण ==
== गुण ==


कोसाइन समानता की सबसे उल्लेखनीय संपत्ति यह है कि यह अलग-अलग वेक्टर आयामों की तुलना में निरपेक्ष के बजाय एक रिश्तेदार को दर्शाती है। किसी भी स्थिरांक के लिए <math>a</math> और वेक्टर <math>V</math>, वैक्टर <math>V</math> और <math>aV</math> अधिकतम समान हैं। माप इस प्रकार डेटा के लिए सबसे उपयुक्त है जहां आवृत्ति निरपेक्ष मूल्यों की तुलना में अधिक महत्वपूर्ण है; विशेष रूप से, दस्तावेजों में शब्द आवृत्ति।
कोसाइन समानता का सर्वाधिक उल्लेखनीय गुण यह है कि यह भिन्न -भिन्न सदिश आयामों की तुलना में निरपेक्ष के अतिरिक्त पूर्ण सम्बन्ध को दर्शाता है। किसी भी स्थिरांक <math>a</math> और सदिश <math>V</math> के लिए सदिश <math>V</math> और <math>aV</math> अधिकतम रूप में समान होते हैं। इस प्रकार माप डेटा के लिए सबसे उपयुक्त होता है जहां आवृत्ति निरपेक्ष मूल्यों की तुलना में अधिक महत्वपूर्ण होती है और विशेष रूप से दस्तावेजों में शब्द आवृत्ति के रूप में होती है। चूंकि, जेन्सेन शैनन एसईडी और त्रिकोणीय विचलन जैसे सूचना सिद्धांत में ग्राउंडिंग के साथ हालिया मेट्रिक्स को कम से कम कुछ संदर्भों में अच्छे शब्दार्थ के रूप में दिखाया गया है।<ref>{{cite conference
हालांकि सूचना सिद्धांत में ग्राउंडिंग के साथ हाल ही के मेट्रिक्स, जैसे जेन्सेन-शैनन विचलन | जेन्सेन-शैनन, एसईडी, और त्रिकोणीय विचलन को कम से कम कुछ संदर्भों में बेहतर शब्दार्थ दिखाया गया है।
<ref>{{cite conference
  |url=https://link.springer.com/chapter/10.1007/978-3-319-46759-7_16
  |url=https://link.springer.com/chapter/10.1007/978-3-319-46759-7_16
  |title= A Tale of Four Metrics
  |title= A Tale of Four Metrics
Line 136: Line 135:
  |doi= 10.1007/978-3-319-46759-7_16
  |doi= 10.1007/978-3-319-46759-7_16
  |conference= Similarity Search and Applications
  |conference= Similarity Search and Applications
  |id=}}</ref>
  |id=}}</ref>  
कोसाइन समानता यूक्लिडियन दूरी से निम्नानुसार संबंधित है। यूक्लिडियन दूरी को सामान्य रूप से निरूपित करें <math>\|A - B\|</math>, और उसका निरीक्षण करें
 
कोसाइन समानता यूक्लिडियन दूरी से निम्नानुसार संबंधित होती है। यूक्लिडियन दूरी को सामान्य रूप से <math>\|A - B\|</math> के रूप में निरूपित और निरीक्षण करते है।


:<math>\|A - B\|^2 = (A - B) \cdot (A - B) = \|A\|^2 + \|B\|^2 - 2 (A \cdot B)\ </math> (ध्रुवीकरण पहचान#Relation_to_the_law_of_cosines)
:<math>\|A - B\|^2 = (A - B) \cdot (A - B) = \|A\|^2 + \|B\|^2 - 2 (A \cdot B)\ </math> (ध्रुवीकरण पहचान#Relation_to_the_law_of_cosines)
[[बहुपद विस्तार]] द्वारा। कब {{mvar|A}} और {{mvar|B}} इकाई लंबाई के लिए सामान्यीकृत हैं, <math>\|A\|^2 = \|B\|^2 = 1</math> तो यह अभिव्यक्ति के बराबर है
[[बहुपद विस्तार]] द्वारा जब {{mvar|A}} और {{mvar|B}} इकाई लंबाई <math>\|A\|^2 = \|B\|^2 = 1</math> के लिए सामान्यीकृत किया जाता है, तो यह अभिव्यक्ति  


:<math>2 (1 - \cos(A, B)).</math>
:<math>2 (1 - \cos(A, B)).</math>के बराबर होती है।
संक्षेप में, कोसाइन दूरी को यूक्लिडियन दूरी के रूप में व्यक्त किया जा सकता है
संक्षेप में, कोसाइन दूरी को यूक्लिडियन दूरी के रूप में व्यक्त किया जा सकता है


:<math>D_C(A, B) = \frac{\|A - B\|^2}{2}\quad\mathrm{when}\quad\|A\|^2 = \|B\|^2 = 1</math>.
:<math>D_C(A, B) = \frac{\|A - B\|^2}{2}\quad\mathrm{when}\quad\|A\|^2 = \|B\|^2 = 1</math>.


यूक्लिडियन दूरी को जीवा दूरी कहा जाता है (क्योंकि यह यूनिट सर्कल पर जीवा की लंबाई है) और यह सदिशों के बीच यूक्लिडियन दूरी है जो उनके भीतर वर्ग मानों के इकाई योग के लिए सामान्यीकृत थे।
यूक्लिडियन दूरी को जीवा दूरी कहा जाता है, क्योंकि यह यूनिट वृत्त पर जीवा की लंबाई है और यह सदिशों के बीच यूक्लिडियन दूरी होती है, जो उनके भीतर वर्ग मानों के इकाई योग के लिए सामान्यीकृत रूप में होते है।


'[[अशक्त वितरण]]:' डेटा के लिए जो नकारात्मक और साथ ही सकारात्मक हो सकता है, कोसाइन समानता के लिए अशक्त वितरण दो स्वतंत्र यादृच्छिक इकाई वैक्टर के डॉट उत्पाद का वितरण है। इस बंटन का माध्य शून्य और विचरण है <math>1/n</math> (कहाँ <math>n</math> आयामों की संख्या है), और यद्यपि वितरण -1 और +1 के बीच सीमित है, जैसे <math>n</math> बड़ा होता है वितरण [[सामान्य वितरण]] द्वारा तेजी से अच्छी तरह से अनुमानित है।<ref>{{cite journal
'[[अशक्त वितरण|शून्य वितरण]]:' डेटा, जो कोसाइन समानता के लिए ऋणात्मक तथा धनात्मक हो सकता है, दो स्वतंत्र यादृच्छिक इकाई सदिश के डॉट गुणन का वितरण है। इस बंटन का माध्य शून्य और विचरण <math>1/n</math> के रूप में होता है, जहाँ <math>n</math> आयामों की संख्या है और यद्यपि वितरण -1 और +1 के बीच सीमित रूप में है, जैसे <math>n</math> बड़ा होता है वितरण [[सामान्य वितरण]] द्वारा तेजी से अच्छी तरह से अनुमानित होता है।<ref>{{cite journal
  | author = Spruill, Marcus C.
  | author = Spruill, Marcus C.
  | year = 2007
  | year = 2007
Line 157: Line 157:
  | doi = 10.1214/ECP.v12-1294
  | doi = 10.1214/ECP.v12-1294
| doi-access = free
| doi-access = free
  }}</ref><ref>{{cite web |url=https://stats.stackexchange.com/q/85916 |work=CrossValidated |title=Distribution of dot products between two random unit vectors in RD }}</ref> अन्य प्रकार के डेटा जैसे [[ bitstream ]], जो केवल मान 0 या 1 लेते हैं, अशक्त वितरण एक अलग रूप लेता है और इसका एक गैर-शून्य माध्य हो सकता है।<ref>{{cite journal | author = Graham L. Giller | year = 2012| title = रैंडम बिटस्ट्रीम के सांख्यिकीय गुण और कोसाइन समानता का नमूना वितरण| journal = Giller Investments Research Notes | number = 20121024/1 | doi = 10.2139/ssrn.2167044| s2cid = 123332455}}</ref>
  }}</ref><ref>{{cite web |url=https://stats.stackexchange.com/q/85916 |work=CrossValidated |title=Distribution of dot products between two random unit vectors in RD }}</ref> अन्य प्रकार के डेटा जैसे [[ bitstream |बिटस्ट्रीम]] जो केवल मान 0 या 1 के रूप में लेते हैं, [[अशक्त वितरण|शून्य]] वितरण एक भिन्न के रूप में लेता है और इसका एक गैर-शून्य माध्य होता है।<ref>{{cite journal | author = Graham L. Giller | year = 2012| title = रैंडम बिटस्ट्रीम के सांख्यिकीय गुण और कोसाइन समानता का नमूना वितरण| journal = Giller Investments Research Notes | number = 20121024/1 | doi = 10.2139/ssrn.2167044| s2cid = 123332455}}</ref>
 
 
== कोज्या समानता के लिए त्रिभुज असमानता ==
== कोज्या समानता के लिए त्रिभुज असमानता ==
कोणों के लिए साधारण त्रिभुज असमानता (यानी, एक इकाई हाइपरस्फीयर पर चाप की लंबाई) हमें वह देती है
कोणों के लिए साधारण त्रिभुज में असमानता होती है अर्थात इकाई अति क्षेत्र पर चाप की लंबाई के रूप में हमें देती है
:<math>|~\angle{AC} - \angle{CB}~| \le ~\angle{AB}~ \le ~\angle{AC}~ + ~\angle{CB}~.</math>
:<math>|~\angle{AC} - \angle{CB}~| \le ~\angle{AB}~ \le ~\angle{AC}~ + ~\angle{CB}~.</math>
क्योंकि कोज्या फलन एक कोण के रूप में घटता है {{math|[0, {{pi}}]}} रेडियन बढ़ता है, तो इन असमानताओं की भावना उलट जाती है जब हम प्रत्येक मूल्य का कोसाइन लेते हैं:
क्योंकि कोज्या फलन एक कोण के रूप में घटता है {{math|[0, {{pi}}]}} रेडियन बढ़ता है, तो इन असमानताओं की भावना उलट जाती है जब हम प्रत्येक मान का कोसाइन लेते हैं
:<math>\cos(\angle{AC} - \angle{CB}) \ge \cos(\angle{AB}) \ge \cos(\angle{AC} + \angle{CB}).</math>
:<math>\cos(\angle{AC} - \angle{CB}) \ge \cos(\angle{AB}) \ge \cos(\angle{AC} + \angle{CB}).</math>
कोसाइन जोड़ और घटाव सूत्रों का उपयोग करके, इन दो असमानताओं को मूल कोसाइन के रूप में लिखा जा सकता है,
कोसाइन जोड़ और घटाव सूत्रों का उपयोग करके, इन दो असमानताओं को मूल कोसाइन के रूप में लिखा जा सकता है,
:<math>\cos(A,C) \cdot \cos(C,B) + \sqrt{\left(1-\cos(A,C)^2\right)\cdot\left(1-\cos(C,B)^2\right)} \geq \cos(A,B),</math>
:<math>\cos(A,C) \cdot \cos(C,B) + \sqrt{\left(1-\cos(A,C)^2\right)\cdot\left(1-\cos(C,B)^2\right)} \geq \cos(A,B),</math>
:<math>\cos(A,B) \geq \cos(A,C) \cdot \cos(C,B) - \sqrt{\left(1-\cos(A,C)^2\right)\cdot\left(1-\cos(C,B)^2\right)}.</math>
:<math>\cos(A,B) \geq \cos(A,C) \cdot \cos(C,B) - \sqrt{\left(1-\cos(A,C)^2\right)\cdot\left(1-\cos(C,B)^2\right)}.</math>
त्रिभुज असमानता के इस रूप का उपयोग दो वस्तुओं और बी की न्यूनतम और अधिकतम समानता को सीमित करने के लिए किया जा सकता है यदि किसी संदर्भ वस्तु सी की समानता पहले से ही ज्ञात हो। इसका उपयोग उदाहरण के लिए मीट्रिक डेटा इंडेक्सिंग में किया जाता है, लेकिन इसका उपयोग गोलाकार [[k-मतलब क्लस्टरिंग]] में तेजी लाने के लिए भी किया जाता है<ref>{{Cite journal|last1=Schubert|first1=Erich|last2=Lang|first2=Andreas|last3=Feher|first3=Gloria|date=2021|editor-last=Reyes|editor-first=Nora|editor2-last=Connor|editor2-first=Richard|editor3-last=Kriege|editor3-first=Nils|editor4-last=Kazempour|editor4-first=Daniyal|editor5-last=Bartolini|editor5-first=Ilaria|editor6-last=Schubert|editor6-first=Erich|editor7-last=Chen|editor7-first=Jian-Jia|title=गोलाकार के-मीन्स को तेज करना|url=https://link.springer.com/chapter/10.1007%2F978-3-030-89657-7_17|journal=Similarity Search and Applications|series=Lecture Notes in Computer Science|volume=13058 |language=en|location=Cham|publisher=Springer International Publishing|pages=217–231|doi=10.1007/978-3-030-89657-7_17 |arxiv=2107.04074 |isbn=978-3-030-89657-7|s2cid=235790358 }}</ref> उसी तरह यूक्लिडियन त्रिकोण असमानता का उपयोग नियमित के-साधनों को तेज करने के लिए किया गया है।
त्रिभुज असमानता के इस रूप का उपयोग दो वस्तुओं A और B की न्यूनतम और अधिकतम समानता को सीमित करने के लिए किया जाता है यदि किसी संदर्भ में वस्तु सी की समानता पहले से ही ज्ञात हो तो इसका उपयोग उदाहरण के लिए मीट्रिक डेटा इंडेक्सिंग में किया जाता है, लेकिन इसका उपयोग गोलाकार [[k-मतलब क्लस्टरिंग|k-मध्यपद क्लस्टरिंग]] में तेजी लाने के लिए भी किया जाता है<ref>{{Cite journal|last1=Schubert|first1=Erich|last2=Lang|first2=Andreas|last3=Feher|first3=Gloria|date=2021|editor-last=Reyes|editor-first=Nora|editor2-last=Connor|editor2-first=Richard|editor3-last=Kriege|editor3-first=Nils|editor4-last=Kazempour|editor4-first=Daniyal|editor5-last=Bartolini|editor5-first=Ilaria|editor6-last=Schubert|editor6-first=Erich|editor7-last=Chen|editor7-first=Jian-Jia|title=गोलाकार के-मीन्स को तेज करना|url=https://link.springer.com/chapter/10.1007%2F978-3-030-89657-7_17|journal=Similarity Search and Applications|series=Lecture Notes in Computer Science|volume=13058 |language=en|location=Cham|publisher=Springer International Publishing|pages=217–231|doi=10.1007/978-3-030-89657-7_17 |arxiv=2107.04074 |isbn=978-3-030-89657-7|s2cid=235790358 }}</ref> उसी तरह यूक्लिडियन त्रिकोण असमानता का उपयोग नियमित के साधनों को तेज करने के लिए किया गया है।


== शीतल कोसाइन उपाय ==
== शीतल कोसाइन उपाय ==
दो सदिशों के बीच एक नरम कोसाइन या (नरम समानता) सुविधाओं के जोड़े के बीच समानता पर विचार करता है।<ref>{{cite journal|last1=Sidorov|first1=Grigori|last2=Gelbukh|first2=Alexander|last3=Gómez-Adorno|first3=Helena|last4=Pinto|first4=David|title=Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model|journal=Computación y Sistemas|volume=18|issue=3|pages=491–504|doi=10.13053/CyS-18-3-2043|url=http://cys.cic.ipn.mx/ojs/index.php/CyS/article/view/2043|access-date=7 October 2014|date=29 September 2014}}</ref> पारंपरिक कोसाइन समानता [[ वेक्टर अंतरिक्ष मॉडल ]] (वीएसएम) सुविधाओं को स्वतंत्र या पूरी तरह से अलग मानती है, जबकि सॉफ्ट कोसाइन उपाय वीएसएम में सुविधाओं की समानता पर विचार करने का प्रस्ताव करता है, जो कोसाइन (और सॉफ्ट कोसाइन) की अवधारणा के साथ-साथ विचार को सामान्य बनाने में मदद करता है। (मुलायम) समानता।
सॉफ्ट कोसाइन या दो सदिशों के बीच "सॉफ्ट " समानता विशेषताओं के जोड़ों के बीच समानता पर विचार करता है।<ref>{{cite journal|last1=Sidorov|first1=Grigori|last2=Gelbukh|first2=Alexander|last3=Gómez-Adorno|first3=Helena|last4=Pinto|first4=David|title=Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model|journal=Computación y Sistemas|volume=18|issue=3|pages=491–504|doi=10.13053/CyS-18-3-2043|url=http://cys.cic.ipn.mx/ojs/index.php/CyS/article/view/2043|access-date=7 October 2014|date=29 September 2014}}</ref> संकीर्ण कोसाइन समानता [[ वेक्टर अंतरिक्ष मॉडल |सदिश क्षेत्र मॉडल]] (वीएसएम) के लक्षणों को स्वतंत्र या पूरी तरह से भिन्न मानता है, जबकि सॉफ्ट कोसाइन माप वीएसएम में सुविधाओं की समानता पर विचार करने का प्रस्ताव करता है, जो कोसाइन और सॉफ्ट कोसाइन की अवधारणा के साथ-साथ विचार को सामान्य करने में मदद करता है।  


उदाहरण के लिए, [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) के क्षेत्र में सुविधाओं के बीच समानता काफी सहज है। शब्द, एन-ग्राम|एन-ग्राम, या वाक्यात्मक एन-ग्राम जैसी विशेषताएं<ref>{{cite book|last1=Sidorov|first1=Grigori|title=कम्प्यूटेशनल इंटेलिजेंस में अग्रिम|volume=7630|last2=Velasquez |first2=Francisco|last3= Stamatatos|first3= Efstathios |last4=Gelbukh|first4=Alexander|last5=Chanona-Hernández|first5=Liliana|publisher=LNAI 7630|isbn=978-3-642-37798-3|pages=1–11|doi=10.1007/978-3-642-37798-3_1|series=Lecture Notes in Computer Science|year=2013}}</ref> काफी हद तक समान हो सकते हैं, हालांकि औपचारिक रूप से उन्हें वीएसएम में विभिन्न विशेषताओं के रूप में माना जाता है। उदाहरण के लिए, शब्द "प्ले" और "गेम" अलग-अलग शब्द हैं और इस प्रकार वीएसएम में विभिन्न बिंदुओं पर मैप किए गए; फिर भी वे शब्दार्थ से संबंधित हैं। एन-ग्राम या सिंटैक्टिक एन-ग्राम के मामले में, [[लेवेनशेटिन दूरी]] को लागू किया जा सकता है (वास्तव में, लेवेनशेटिन दूरी को शब्दों पर भी लागू किया जा सकता है)।
उदाहरण के लिए, [[प्राकृतिक भाषा प्रसंस्करण]] (एनएलपी) के क्षेत्र में सुविधाओं के बीच समानता बहुत सहज रूप में होती है और इस प्रकार शब्द एन-ग्राम या सिंटैक्टिक एन-ग्राम जैसी विशेषताएं काफी समान हो सकती हैं<ref>{{cite book|last1=Sidorov|first1=Grigori|title=कम्प्यूटेशनल इंटेलिजेंस में अग्रिम|volume=7630|last2=Velasquez |first2=Francisco|last3= Stamatatos|first3= Efstathios |last4=Gelbukh|first4=Alexander|last5=Chanona-Hernández|first5=Liliana|publisher=LNAI 7630|isbn=978-3-642-37798-3|pages=1–11|doi=10.1007/978-3-642-37798-3_1|series=Lecture Notes in Computer Science|year=2013}}</ref> चूंकि औपचारिक रूप से उन्हें वीएसएम में विभिन्न विशेषताओं के रूप में माना जाता है। उदाहरण के लिए प्ले और गेम भिन्न-भिन्न शब्द होते हैं और इस प्रकार वीएसएम में विभिन्न बिंदुओं पर मैप किए गए; फिर भी वे शब्दार्थ से संबंधित होते है और इस प्रकार एन-ग्राम या सिंटैक्टिक एन-ग्राम के स्थितियों में [[लेवेनशेटिन दूरी]] को लागू किया जा सकता है वास्तव में, लेवेनशेटिन दूरी को शब्दों पर भी लागू किया जा सकता है।


सॉफ्ट कोसाइन की गणना के लिए, मैट्रिक्स {{math|'''s'''}} का उपयोग सुविधाओं के बीच समानता को इंगित करने के लिए किया जाता है। इसकी गणना लेवेनशेटिन दूरी, [[ शब्दतंत्र ]] समानता, या अन्य समानता उपायों के माध्यम से की जा सकती है। फिर हम इस मैट्रिक्स से गुणा करते हैं।
सॉफ्ट कोसाइन की गणना के लिए आव्यूह {{math|'''s'''}} सुविधाओं के बीच समानता को इंगित करने के लिए उपयोग किया जाता है। इसकी गणना लेवेनशेटिन दूरी[[ शब्दतंत्र | वर्डनेट]] समानता या अन्य समानता के उपायों के माध्यम से की जा सकती है। फिर हम इस आव्यूह से गुणा करते हैं।


दो दिया {{math|''N''}}-आयाम वैक्टर <math>a</math> और <math>b</math>, सॉफ्ट कोसाइन समानता की गणना निम्नानुसार की जाती है:
दो दिया {{math|''N''}}-आयाम सदिश <math>a</math> और <math>b</math>, सॉफ्ट कोसाइन समानता की गणना निम्नानुसार की जाती है


:<math>\begin{align}
:<math>\begin{align}
Line 184: Line 182:
\end{align}
\end{align}
</math>
</math>
कहाँ {{math|''s<sub>ij</sub>'' {{=}} similarity(feature<sub>''i''</sub>, feature<sub>''j''</sub>)}}.
जहाँ {{math|''s<sub>ij</sub>'' {{=}} similarity(feature<sub>''i''</sub>, feature<sub>''j''</sub>)}}.


यदि सुविधाओं के बीच कोई समानता नहीं है ({{math|''s<sub>ii</sub>'' {{=}} 1}}, {{math|''s<sub>ij</sub>'' {{=}} 0}} के लिए {{math|''i'' ≠ ''j''}}), दिया गया समीकरण पारंपरिक कोसाइन समानता सूत्र के बराबर है।
यदि लक्षण ({{math|''s<sub>ii</sub>'' {{=}} 1}}, {{math|''s<sub>ij</sub>'' {{=}} 0}} के लिए {{math|''i'' ≠ ''j''}}), के बीच कोई समानता नहीं है, तो दिया गया समीकरण पारंपरिक कोसाइन समानता सूत्र के बराबर है।


इस उपाय की [[समय जटिलता]] द्विघात है, जो इसे वास्तविक दुनिया के कार्यों पर लागू करती है। ध्यान दें कि जटिलता को सबक्वाड्रैटिक में कम किया जा सकता है।<ref>{{cite conference | last1 = Novotný | first1 = Vít | conference = The 27th ACM International Conference on Information and Knowledge Management | date = 2018 | location = Torun, Italy | title = सॉफ्ट कोसाइन उपाय के लिए कार्यान्वयन नोट्स| arxiv = 1808.09407 | pages = 1639–1642 | publisher = Association for Computing Machinery | doi = 10.1145/3269206.3269317 | isbn = 978-1-4503-6014-2 }}</ref> ऐसी सॉफ्ट कोसाइन समानता का एक कुशल कार्यान्वयन [[Gensim]] ओपन सोर्स लाइब्रेरी में शामिल है।
इस उपाय की [[समय जटिलता]] द्विघात के रूप में है, जो इसे वास्तविक दुनिया के कार्यों पर लागू करती है। ध्यान दें कि जटिलता को उपद्विघात तक कम किया जा सकता है।<ref>{{cite conference | last1 = Novotný | first1 = Vít | conference = The 27th ACM International Conference on Information and Knowledge Management | date = 2018 | location = Torun, Italy | title = सॉफ्ट कोसाइन उपाय के लिए कार्यान्वयन नोट्स| arxiv = 1808.09407 | pages = 1639–1642 | publisher = Association for Computing Machinery | doi = 10.1145/3269206.3269317 | isbn = 978-1-4503-6014-2 }}</ref> [[जेनसिम]] ओपन सोर्स लाइब्रेरी में इस तरह के सॉफ्ट कोसाइन समानता के एक कुशल कार्यान्वयन को सम्मलित किया गया है।


== यह भी देखें ==
== यह भी देखें ==
Line 195: Line 193:
* [[सह - संबंध]]
* [[सह - संबंध]]
* [[जैकार्ड इंडेक्स]]
* [[जैकार्ड इंडेक्स]]
* [[सिमरणक]]
* [[सिमरणक|सिमरैंक]]
* सूचना की पुनर्प्राप्ति
* सूचना की पुनर्प्राप्ति


Line 208: Line 206:
{{Machine learning evaluation metrics}}
{{Machine learning evaluation metrics}}


{{DEFAULTSORT:Cosine Similarity}}[[Category: सूचना पुनर्प्राप्ति तकनीक]] [[Category: समानता के उपाय]] [[Category: डेटा विश्लेषण]]
{{DEFAULTSORT:Cosine Similarity}}
 
 


[[Category: Machine Translated Page]]
[[Category:CS1 English-language sources (en)]]
[[Category:Created On 07/05/2023]]
[[Category:Collapse templates|Cosine Similarity]]
[[Category:Created On 07/05/2023|Cosine Similarity]]
[[Category:Lua-based templates|Cosine Similarity]]
[[Category:Machine Translated Page|Cosine Similarity]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists|Cosine Similarity]]
[[Category:Pages with script errors|Cosine Similarity]]
[[Category:Sidebars with styles needing conversion|Cosine Similarity]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready|Cosine Similarity]]
[[Category:Templates generating microformats|Cosine Similarity]]
[[Category:Templates that add a tracking category|Cosine Similarity]]
[[Category:Templates that are not mobile friendly|Cosine Similarity]]
[[Category:Templates that generate short descriptions|Cosine Similarity]]
[[Category:Templates using TemplateData|Cosine Similarity]]
[[Category:Wikipedia metatemplates|Cosine Similarity]]
[[Category:डेटा विश्लेषण|Cosine Similarity]]
[[Category:समानता के उपाय|Cosine Similarity]]
[[Category:सूचना पुनर्प्राप्ति तकनीक|Cosine Similarity]]

Latest revision as of 16:55, 17 May 2023

डेटा विश्लेषण में, कोसाइन समानता आंतरिक गुणन क्षेत्र में परिभाषित दो गैर-शून्य सदिश के बीच समानता का माप है। कोसाइन समानता सदिशों के बीच के कोण की कोज्या होती है; अर्थात्, यह उनकी लंबाई के गुणनफल से विभाजित सदिशों का डॉट गुणनफल है। इससे यह पता चलता है कि कोज्या समानता सदिशों के परिमाण पर निर्भर नहीं करती है, लेकिन केवल उनके कोण पर निर्भर करती है। कोसाइन समानता अधिकांशतः अंतराल से संबंधित होती है। उदाहरण के लिए दो समानुपाती सदिशों में 1 की कोज्या समानता होती है और इस प्रकार दो लंबकोणीय सदिशों की कोसाइन समानता 0 होती है और दो विपरीत सदिश में -1 की समानता होती है। कुछ संदर्भों में, सदिशों के घटक मान ऋणात्मक नहीं हो सकते है और जिस स्थिति में कोसाइन समानता .के रूप में सीमित होती है

उदाहरण के लिए सूचना पुनर्प्राप्ति और पाठ माइनिंग में, प्रत्येक शब्द को भिन्न निर्देशांक दिया जाता है और दस्तावेज़ में प्रत्येक शब्द की घटनाओं की संख्या के सदिश द्वारा दस्तावेज़ का प्रतिनिधित्व किया जाता है। कोसाइन समानता तब इस बात का उपयोगी माप देता है कि उनकी विषय वस्तु के संदर्भ में और दस्तावेज़ों की लंबाई के अनुसार स्वतंत्र रूप से दो दस्तावेज़ों के समान होने की कितनी संभावना होती है।[1]

डेटा माइनिंग के क्षेत्र में क्लस्टर के भीतर सामंजस्य को मापने के लिए प्रोद्योगिकीय का उपयोग किया जाता है।[2]

कोसाइन समानता का एक लाभ यह है कि इसकी संगणनात्मक जटिलता जो विशेष रूप से असामान्य आव्यूह के रूप में होती है और इस प्रकार केवल गैर-शून्य निर्देशांक पर विचार करने की आवश्यकता है।

कोसाइन समानता के लिए अन्य नामों में ओतसुका ओरचिनी समानता के समरूपी कोसाइन गुणांक के रूप में सम्मलित होते है। कोसाइन समरूपी बाइनरी आंकड़ों पर लागू किया गया है जिसे नीचे दिखाया गया है

परिभाषा

दो गैर शून्य सदिश की कोसाइन यूक्लिडियन डॉट गुणन फॉर्मूला का उपयोग करके प्राप्त किया जा सकता है।

दो n आयामी सदिश (ज्यामितीय) के गुण को देखते हुए A और B कोसाइन समानता cos(θ), एक सदिश गुणन और परिमाण (गणित) का उपयोग करके दर्शाया जाता है।

जहाँ और क्रमशः यूक्लिडियन सदिशों और के वें घटकों के रूप में होते है।

परिणामी समानता -1 से लेकर होती है जिसका अर्थ बिल्कुल विपरीत होता है और 1 का अर्थ बिल्कुल समान होता है और इस प्रकार 0 के साथ लंबकोणीयता या सहसंबंध का संकेत मिलता है, जबकि बीच के मान मध्यवर्ती समानता या असमानता का संकेत देते हैं।

पाठ मिलान के लिए, सामान्यतया विशेषता सदिश A और B दस्तावेजों के आवृत्ति सदिश शब्द के रूप में होते हैं। कोसाइन समानता को तुलना के समय सामान्यीकरण (सांख्यिकी) दस्तावेज़ लंबाई की एक विधि के रूप में देखा जा सकता है। सूचना पुनर्प्राप्ति के स्थितियों में दो दस्तावेज़ों की कोसाइन समानता की सीमा के रूप में होती है, क्योंकि शब्द आवृत्ति ऋणात्मक नहीं हो सकती। यह टीएफ-आईडीएफ (शब्द आवृत्ति व्युत्क्रम दस्तावेज़ आवृत्ति) भार का उपयोग करते समय सही साबित होता है। दो शब्द आवृत्ति वैक्टर के बीच का कोण 90 डिग्री से अधिक नहीं हो सकता

यदि सदिश के घटाव द्वारा गुणनफल सदिश को सामान्यीकृत किया जाता है, अर्थात ), तो माप को केंद्रित कोसाइन समानता कहा जाता है और पियर्सन सहसंबंध गुणांक के बराबर होता है। केंद्रीकरण के उदाहरण के लिए इस रूप में होते है,

कोसाइन दूरी

शब्द कोसाइन दूरी[3] सामान्यतः सकारात्मक क्षेत्र में कोसाइन समानता के पूरक के लिए उपयोग किया जाता है।

यह ध्यान रखना महत्वपूर्ण है कि कोसाइन दूरी वास्तविक क्षेत्र मीट्रिक नहीं होता है, क्योंकि इसमें त्रिकोण असमानता गुण को प्रदर्शित नहीं नहीं करती है या फिर औपचारिक रूप से श्वार्ज़ असमानता तथा यह संयोग एक्सिओम का उल्लंघन करती है। यह देखने की एक विधि है कि कोसाइन दूरी सदिश के सामान्यीकरण की यूक्लिडियन दूरी का आधा होता है और और यूक्लिडियन दूरी का वर्ग त्रिभुज असमानता को भी संतुष्ट नहीं करता है और इस प्रकार समान क्रम को बनाए रखते हुए त्रिभुज असमानता गुण की पूर्वावस्था के लिए कोणीय दूरी या यूक्लिडियन दूरी में परिवर्तित कर दिया जाता है और इस प्रकार वैकल्पिक रूप से कोसाइन के संदर्भ में त्रिकोणीय असमानता जो कोणीय दूरियां बनाने के लिए काम करती है वे सीधे कोसाइन के संदर्भ में व्यक्त की जा सकती है। जिसे नीचे दिखाया गया है।

कोणीय दूरी और समानता

किसी भी दो वैक्टर और के बीच में सामान्य कोण को कोणीय दूरी कहा जाता है और यह औपचारिक दूरी मीट्रिक होता है इसकी गणना कोसाइन समानता से की जा सकती है।[4] तब कोणीय दूरी मीट्रिक का पूरक का प्रयोग कोणीय समानता फलन को 0 और 1 के बीच परिबद्ध करने के लिए किया जा सकता है।

जब सदिश तत्व धनात्मक या ऋणात्मक हो सकते हैं,

यदि सदिश तत्व अधिकांशतः सकारात्मक रूप में होते हैं

दुर्भाग्यवश, व्युत्क्रम कोसाइन (अरक्कोस) फलन की गणना धीमी गति से की जाती है, जिससे अधिक सामान्य मीट्रिक कोसाइन दूरी का उपयोग करने की तुलना में कोणीय दूरी का उपयोग अधिक संगणनात्मक रूप से महंगा हो जाता है।

L2सामान्यीकृत यूक्लिडियन दूरी

कोसाइन दूरी के लिए एक और प्रभावी प्रतिनिधि यूक्लिडियन सदिश के सामान्यीकरण द्वारा प्राप्त किया जा सकता है और उसके बाद सामान्य यूक्लिडियन दूरी के अनुप्रयोग के बाद इस प्रोद्योगिकीय का उपयोग करते है और इस प्रकार प्रत्येक सदिश में प्रत्येक पद को पहले सदिश के परिमाण से विभाजित किया जाता है, जिससे इकाई लंबाई का सदिश प्राप्त होता है। फिर किन्हीं दो सदिशों के अंत-बिंदुओं पर यूक्लिडियन दूरी यथार्थ मीट्रिक के रूप में होता है, जो सदिशों की किसी भी तुलना के लिए कोसाइन दूरी के समान क्रम के रूप में देता है और इस प्रकार यूक्लिडियन दूरी का एकदिष्ट परिवर्तन को इस प्रकार दिखाया जाता है और इसके अतिरिक्त यह सदिशों की तुलना से बचता है और उचित मीट्रिक प्राप्त करने के लिए संभावित रूप से बहुमूल्य त्रिकोणमितीय संचालन की आवश्यकता होती है। एक बार सामान्यीकरण हो जाने के बाद सदिश क्षेत्र का उपयोग किसी भी यूक्लिडियन क्षेत्र के लिए उपलब्ध प्रोद्योगिकीय की पूरी श्रृंखला के साथ किया जाता है और विशेष रूप से मानक विमीयता में कमी प्रोद्योगिकीय के रूप में होती है। यह सामान्यीकृत फॉर्म दूरी अधिकांशतः कई गहन शिक्षण कलन विधि में उपयोग की जाती है।

ओत्सुका-ओचियाई गुणांक

जीव विज्ञान में, एक ऐसी ही अवधारणा है जिसे ओत्सुका ओचियाई गुणांक के रूप में जाना जाता है।[5] जिसका नाम यानोसुके ओत्सुका के नाम पर रखा गया है, जिसे ओत्सुका, ऊत्सुका या ओटुका जापानी और अकीरा ओचियाई जापानी: 落合 明 भी कहा जाता है,[6] ओचियाई-बार्कमैन या ओचियाई गुणांक के रूप में जाना जाता है[7] जिसे इस प्रकार दर्शाया जा सकता है,[8]

यहाँ, और समुच्चय (गणित) के रूप में हैं और तत्वों की संख्या है . यदि समुच्चय को बिट सदिश के रूप में दर्शाया जाता है, तो ओत्सुका-ओचियाई गुणांक कोसाइन समानता के समान देखा जा सकता है।

हाल की एक किताब में,[9] गुणांक को ओत्सुका परिवार के नाम वाले एक अन्य जापानी शोधकर्ता को गलत विधि से आरोपित किया गया है। इससे भ्रम उत्पन्न होता है क्योंकि 1957 में अकीरा ओचियाई गुणांक को केवल ओत्सुका के लिए जिम्मेदार ठहराते हैं। [6] इकुसो हमाई के एक लेख का हवाला देते हुए जापानी लेख में पहले इसका उल्लेख नहीं किया गया है,[10] जो बदले में यानोसुके ओत्सुका के मूल 1936 के लेख का हवाला देते हैं।[11]

गुण

कोसाइन समानता का सर्वाधिक उल्लेखनीय गुण यह है कि यह भिन्न -भिन्न सदिश आयामों की तुलना में निरपेक्ष के अतिरिक्त पूर्ण सम्बन्ध को दर्शाता है। किसी भी स्थिरांक और सदिश के लिए सदिश और अधिकतम रूप में समान होते हैं। इस प्रकार माप डेटा के लिए सबसे उपयुक्त होता है जहां आवृत्ति निरपेक्ष मूल्यों की तुलना में अधिक महत्वपूर्ण होती है और विशेष रूप से दस्तावेजों में शब्द आवृत्ति के रूप में होती है। चूंकि, जेन्सेन शैनन एसईडी और त्रिकोणीय विचलन जैसे सूचना सिद्धांत में ग्राउंडिंग के साथ हालिया मेट्रिक्स को कम से कम कुछ संदर्भों में अच्छे शब्दार्थ के रूप में दिखाया गया है।[12]

कोसाइन समानता यूक्लिडियन दूरी से निम्नानुसार संबंधित होती है। यूक्लिडियन दूरी को सामान्य रूप से के रूप में निरूपित और निरीक्षण करते है।

(ध्रुवीकरण पहचान#Relation_to_the_law_of_cosines)

बहुपद विस्तार द्वारा जब A और B इकाई लंबाई के लिए सामान्यीकृत किया जाता है, तो यह अभिव्यक्ति

के बराबर होती है।

संक्षेप में, कोसाइन दूरी को यूक्लिडियन दूरी के रूप में व्यक्त किया जा सकता है

.

यूक्लिडियन दूरी को जीवा दूरी कहा जाता है, क्योंकि यह यूनिट वृत्त पर जीवा की लंबाई है और यह सदिशों के बीच यूक्लिडियन दूरी होती है, जो उनके भीतर वर्ग मानों के इकाई योग के लिए सामान्यीकृत रूप में होते है।

'शून्य वितरण:' डेटा, जो कोसाइन समानता के लिए ऋणात्मक तथा धनात्मक हो सकता है, दो स्वतंत्र यादृच्छिक इकाई सदिश के डॉट गुणन का वितरण है। इस बंटन का माध्य शून्य और विचरण के रूप में होता है, जहाँ आयामों की संख्या है और यद्यपि वितरण -1 और +1 के बीच सीमित रूप में है, जैसे बड़ा होता है वितरण सामान्य वितरण द्वारा तेजी से अच्छी तरह से अनुमानित होता है।[13][14] अन्य प्रकार के डेटा जैसे बिटस्ट्रीम जो केवल मान 0 या 1 के रूप में लेते हैं, शून्य वितरण एक भिन्न के रूप में लेता है और इसका एक गैर-शून्य माध्य होता है।[15]

कोज्या समानता के लिए त्रिभुज असमानता

कोणों के लिए साधारण त्रिभुज में असमानता होती है अर्थात इकाई अति क्षेत्र पर चाप की लंबाई के रूप में हमें देती है

क्योंकि कोज्या फलन एक कोण के रूप में घटता है [0, π] रेडियन बढ़ता है, तो इन असमानताओं की भावना उलट जाती है जब हम प्रत्येक मान का कोसाइन लेते हैं

कोसाइन जोड़ और घटाव सूत्रों का उपयोग करके, इन दो असमानताओं को मूल कोसाइन के रूप में लिखा जा सकता है,

त्रिभुज असमानता के इस रूप का उपयोग दो वस्तुओं A और B की न्यूनतम और अधिकतम समानता को सीमित करने के लिए किया जाता है यदि किसी संदर्भ में वस्तु सी की समानता पहले से ही ज्ञात हो तो इसका उपयोग उदाहरण के लिए मीट्रिक डेटा इंडेक्सिंग में किया जाता है, लेकिन इसका उपयोग गोलाकार k-मध्यपद क्लस्टरिंग में तेजी लाने के लिए भी किया जाता है[16] उसी तरह यूक्लिडियन त्रिकोण असमानता का उपयोग नियमित के साधनों को तेज करने के लिए किया गया है।

शीतल कोसाइन उपाय

सॉफ्ट कोसाइन या दो सदिशों के बीच "सॉफ्ट " समानता विशेषताओं के जोड़ों के बीच समानता पर विचार करता है।[17] संकीर्ण कोसाइन समानता सदिश क्षेत्र मॉडल (वीएसएम) के लक्षणों को स्वतंत्र या पूरी तरह से भिन्न मानता है, जबकि सॉफ्ट कोसाइन माप वीएसएम में सुविधाओं की समानता पर विचार करने का प्रस्ताव करता है, जो कोसाइन और सॉफ्ट कोसाइन की अवधारणा के साथ-साथ विचार को सामान्य करने में मदद करता है।

उदाहरण के लिए, प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सुविधाओं के बीच समानता बहुत सहज रूप में होती है और इस प्रकार शब्द एन-ग्राम या सिंटैक्टिक एन-ग्राम जैसी विशेषताएं काफी समान हो सकती हैं[18] चूंकि औपचारिक रूप से उन्हें वीएसएम में विभिन्न विशेषताओं के रूप में माना जाता है। उदाहरण के लिए प्ले और गेम भिन्न-भिन्न शब्द होते हैं और इस प्रकार वीएसएम में विभिन्न बिंदुओं पर मैप किए गए; फिर भी वे शब्दार्थ से संबंधित होते है और इस प्रकार एन-ग्राम या सिंटैक्टिक एन-ग्राम के स्थितियों में लेवेनशेटिन दूरी को लागू किया जा सकता है वास्तव में, लेवेनशेटिन दूरी को शब्दों पर भी लागू किया जा सकता है।

सॉफ्ट कोसाइन की गणना के लिए आव्यूह s सुविधाओं के बीच समानता को इंगित करने के लिए उपयोग किया जाता है। इसकी गणना लेवेनशेटिन दूरी वर्डनेट समानता या अन्य समानता के उपायों के माध्यम से की जा सकती है। फिर हम इस आव्यूह से गुणा करते हैं।

दो दिया N-आयाम सदिश और , सॉफ्ट कोसाइन समानता की गणना निम्नानुसार की जाती है

जहाँ sij = similarity(featurei, featurej).

यदि लक्षण (sii = 1, sij = 0 के लिए ij), के बीच कोई समानता नहीं है, तो दिया गया समीकरण पारंपरिक कोसाइन समानता सूत्र के बराबर है।

इस उपाय की समय जटिलता द्विघात के रूप में है, जो इसे वास्तविक दुनिया के कार्यों पर लागू करती है। ध्यान दें कि जटिलता को उपद्विघात तक कम किया जा सकता है।[19] जेनसिम ओपन सोर्स लाइब्रेरी में इस तरह के सॉफ्ट कोसाइन समानता के एक कुशल कार्यान्वयन को सम्मलित किया गया है।

यह भी देखें

संदर्भ

  1. Singhal, Amit (2001). "Modern Information Retrieval: A Brief Overview". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
  2. P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.
  3. Wolfram Research (2007). "कोसाइनडिस्टैंक - वोल्फ्राम लैंग्वेज डॉक्यूमेंटेशन". wolfram.com.
  4. "कोसाइन दूरी, कोसाइन समानता, कोणीय कोसाइन दूरी, कोणीय कोसाइन समानता". www.itl.nist.gov. Retrieved 2020-07-11.
  5. Omori, Masae (2004). "Geological idea of Yanosuke Otuka, who built the foundation of neotectonics (geoscientist)". Earth Science. 58 (4): 256–259. doi:10.15080/agcjchikyukagaku.58.4_256.
  6. 6.0 6.1 Ochiai, Akira (1957). "Zoogeographical studies on the soleoid fishes found in Japan and its neighhouring regions-II". Bulletin of the Japanese Society of Scientific Fisheries. 22 (9): 526–530. doi:10.2331/suisan.22.526.
  7. Barkman, Jan J. (1958). Phytosociology and Ecology of Cryptogamic Epiphytes: Including a Taxonomic Survey and Description of Their Vegetation Units in Europe. Assen: Van Gorcum.
  8. H. Charles Romesburg (1984). Cluster Analysis for Researchers. Belmont, California: Lifetime Learning Publications. p. 149.
  9. Howarth, Richard J. (2017). Dictionary of Mathematical Geosciences: With Historical Notes. Cham: Springer. p. 421. doi:10.1007/978-3-319-57315-1. ISBN 978-3-319-57314-4. S2CID 67081034.
  10. Hamai, Ikuso (1955). "Stratification of community by means of "community coefficient" (continued)". Japanese Journal of Ecology. 5 (1): 41–45. doi:10.18960/seitai.5.1_41.
  11. Otsuka, Yanosuke (1936). "The faunal character of the Japanese Pleistocene marine Mollusca, as evidence of the climate having become colder during the Pleistocene in Japan". Bulletin of the Biogeographical Society of Japan. 6 (16): 165–170.
  12. Connor, Richard (2016). A Tale of Four Metrics. Similarity Search and Applications. Tokyo: Springer. doi:10.1007/978-3-319-46759-7_16.
  13. Spruill, Marcus C. (2007). "Asymptotic distribution of coordinates on high dimensional spheres". Electronic Communications in Probability. 12: 234–247. doi:10.1214/ECP.v12-1294.
  14. "Distribution of dot products between two random unit vectors in RD". CrossValidated.
  15. Graham L. Giller (2012). "रैंडम बिटस्ट्रीम के सांख्यिकीय गुण और कोसाइन समानता का नमूना वितरण". Giller Investments Research Notes (20121024/1). doi:10.2139/ssrn.2167044. S2CID 123332455.
  16. Schubert, Erich; Lang, Andreas; Feher, Gloria (2021). Reyes, Nora; Connor, Richard; Kriege, Nils; Kazempour, Daniyal; Bartolini, Ilaria; Schubert, Erich; Chen, Jian-Jia (eds.). "गोलाकार के-मीन्स को तेज करना". Similarity Search and Applications. Lecture Notes in Computer Science (in English). Cham: Springer International Publishing. 13058: 217–231. arXiv:2107.04074. doi:10.1007/978-3-030-89657-7_17. ISBN 978-3-030-89657-7. S2CID 235790358.
  17. Sidorov, Grigori; Gelbukh, Alexander; Gómez-Adorno, Helena; Pinto, David (29 September 2014). "Soft Similarity and Soft Cosine Measure: Similarity of Features in Vector Space Model". Computación y Sistemas. 18 (3): 491–504. doi:10.13053/CyS-18-3-2043. Retrieved 7 October 2014.
  18. Sidorov, Grigori; Velasquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alexander; Chanona-Hernández, Liliana (2013). कम्प्यूटेशनल इंटेलिजेंस में अग्रिम. Lecture Notes in Computer Science. Vol. 7630. LNAI 7630. pp. 1–11. doi:10.1007/978-3-642-37798-3_1. ISBN 978-3-642-37798-3.
  19. Novotný, Vít (2018). सॉफ्ट कोसाइन उपाय के लिए कार्यान्वयन नोट्स. The 27th ACM International Conference on Information and Knowledge Management. Torun, Italy: Association for Computing Machinery. pp. 1639–1642. arXiv:1808.09407. doi:10.1145/3269206.3269317. ISBN 978-1-4503-6014-2.


बाहरी संबंध