स्ट्रिंग मीट्रिक: Difference between revisions
No edit summary |
|||
Line 1: | Line 1: | ||
{{redirect| | {{redirect|स्ट्रिंग दूरी|वाद्य यंत्रों में तार और अंगुलियों के मध्य की दूरी | ||
|क्रिया (संगीत)}} | |||
गणित और [[कंप्यूटर विज्ञान]] में, एक स्ट्रिंग मीट्रिक (जिसे स्ट्रिंग समानता मीट्रिक या स्ट्रिंग [[दूरी]] फ़ंक्शन के रूप में भी जाना जाता है) एक [[मीट्रिक (गणित)]] है जो अनुमानित [[स्ट्रिंग मिलान]] या तुलना के लिए दो [[स्ट्रिंग (कंप्यूटर विज्ञान)]] के बीच की दूरी (प्रतिलोम समानता) को मापता है। [[अनुमानित स्ट्रिंग मिलान]]। एक स्ट्रिंग ''मीट्रिक'' के लिए एक आवश्यकता (उदाहरण के लिए स्ट्रिंग मिलान के विपरीत) त्रिकोण असमानता की पूर्ति है। उदाहरण के लिए, तार सैम और सैमुअल को करीब माना जा सकता है।<ref>{{cite journal | गणित और [[कंप्यूटर विज्ञान]] में, एक स्ट्रिंग मीट्रिक (जिसे स्ट्रिंग समानता मीट्रिक या स्ट्रिंग [[दूरी]] फ़ंक्शन के रूप में भी जाना जाता है) एक [[मीट्रिक (गणित)]] है जो अनुमानित [[स्ट्रिंग मिलान]] या तुलना के लिए दो [[स्ट्रिंग (कंप्यूटर विज्ञान)]] के बीच की दूरी (प्रतिलोम समानता) को मापता है। [[अनुमानित स्ट्रिंग मिलान]]। एक स्ट्रिंग ''मीट्रिक'' के लिए एक आवश्यकता (उदाहरण के लिए स्ट्रिंग मिलान के विपरीत) त्रिकोण असमानता की पूर्ति है। उदाहरण के लिए, तार सैम और सैमुअल को करीब माना जा सकता है।<ref>{{cite journal | ||
Line 50: | Line 51: | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
! | ! नाम | ||
! | ! विवरण | ||
! | ! उदाहरण | ||
|- | |- | ||
|[[Hamming distance]] | |[[Hamming distance|आलोचनात्मक दूरी]] | ||
| | | केवल समान लंबाई के तार के लिए। परिवर्तित वर्णों की संख्या। | ||
| "''' | | "'''करोलिन'''" और "'''कैथरीन'''" 3 है। | ||
|- | |- | ||
|[[Levenshtein distance]] | |[[Levenshtein distance|लेवेनशेटिन]] [[Hamming distance|दूरी]] और [[Damerau–Levenshtein distance|दमेरौ–लेवेनशेटिन दूरी]] | ||
| | | हैमिंग दूरी का सामान्यीकरण जो अलग-अलग लंबाई के तारों की अनुमति देता है, और (डेमरौ के साथ) पारदर्शिता के लिए | ||
| | | किटेन और सिटींग 3 की दूरी है। | ||
# | # किटेन → सिटींग ("k" के लिए "s" का प्रतिस्थापन) | ||
# | # सिटींग → सिटींग ("e" के लिए "i" का प्रतिस्थापन") | ||
# | # सिटींग → सिटींग (अंत में "g" का सम्मिलन). | ||
|- | |- | ||
|[[Jaro–Winkler distance]] | |[[Jaro–Winkler distance|जारो–विंकलर]] [[Levenshtein distance|दूरी]] | ||
| | | | ||
| | | जारोविंक्लरडिस्ट ("मार्था", "मार्था")= | ||
:<math>d_j = \frac{1}{3}\left(\frac{m}{|s_1|} + \frac{m}{|s_2|} + \frac{m-t}{m}\right) = \frac{1}{3}\left(\frac{6}{6} + \frac{6}{6} + \frac{6-\frac{2}{2}}{6}\right) = 0.944</math> | :<math>d_j = \frac{1}{3}\left(\frac{m}{|s_1|} + \frac{m}{|s_2|} + \frac{m-t}{m}\right) = \frac{1}{3}\left(\frac{6}{6} + \frac{6}{6} + \frac{6-\frac{2}{2}}{6}\right) = 0.944</math> | ||
* <math>m</math> | * <math>m</math> मेल खाने वाले वर्णों की संख्या है; | ||
* | * पारदर्शिता की आधी संख्या है ("मार्था" [3]! =<code>H, "मारहटा"[3]!=T</code>).<math>t</math> | ||
<!--|- | <!--|- | ||
|[[Simple matching coefficient]] (SMC) | |[[Simple matching coefficient]] (SMC) | ||
Line 79: | Line 80: | ||
|--> | |--> | ||
|- | |- | ||
|[[Most frequent k characters]] | |[[Most frequent k characters|सबसे लगातार k वर्ण]] | ||
| | | | ||
| | |सबसे फ्रीक कुंजी समानता('<span style= color:red; >r</span><span style= color:#0082ff >e</span>s<span style= color:#0082ff >e</span>a<span शैली = रंग: लाल; | ||
<!--|- | <!--|- | ||
|[[Tversky index]] | |[[Tversky index]] |
Revision as of 01:36, 28 April 2023
गणित और कंप्यूटर विज्ञान में, एक स्ट्रिंग मीट्रिक (जिसे स्ट्रिंग समानता मीट्रिक या स्ट्रिंग दूरी फ़ंक्शन के रूप में भी जाना जाता है) एक मीट्रिक (गणित) है जो अनुमानित स्ट्रिंग मिलान या तुलना के लिए दो स्ट्रिंग (कंप्यूटर विज्ञान) के बीच की दूरी (प्रतिलोम समानता) को मापता है। अनुमानित स्ट्रिंग मिलान। एक स्ट्रिंग मीट्रिक के लिए एक आवश्यकता (उदाहरण के लिए स्ट्रिंग मिलान के विपरीत) त्रिकोण असमानता की पूर्ति है। उदाहरण के लिए, तार सैम और सैमुअल को करीब माना जा सकता है।[1] एक स्ट्रिंग मीट्रिक एक संख्या प्रदान करता है जो दूरी के एल्गोरिथम-विशिष्ट संकेत को दर्शाता है।
सबसे व्यापक रूप से ज्ञात स्ट्रिंग मीट्रिक एक अल्पविकसित है जिसे लेवेनशेटिन दूरी (जिसे संपादन दूरी भी कहा जाता है) कहा जाता है।[2] यह दो इनपुट स्ट्रिंग्स के बीच संचालित होता है, एक इनपुट स्ट्रिंग को दूसरे में बदलने के लिए आवश्यक प्रतिस्थापन और विलोपन की संख्या के बराबर संख्या लौटाता है। सरलीकृत स्ट्रिंग मेट्रिक्स जैसे कि लेवेनशेटिन दूरी का विस्तार ध्वन्यात्मक, टोकन (पार्सर), व्याकरणिक और सांख्यिकीय तुलना के चरित्र-आधारित तरीकों को शामिल करने के लिए किया गया है।
सूचना एकीकरण में स्ट्रिंग मेट्रिक्स का अत्यधिक उपयोग किया जाता है और वर्तमान में धोखाधड़ी का पता लगाने, फिंगरप्रिंट विश्लेषण, साहित्यिक चोरी का पता लगाने, सत्तामीमांसा विलय, डीएनए विश्लेषण, आरएनए विश्लेषण, छवि विश्लेषण, साक्ष्य-आधारित यंत्र अधिगम , डेटाबेस डेटा डुप्लिकेशन के लिए डेटा विश्लेषण तकनीकों सहित क्षेत्रों में उपयोग किया जाता है। डेटा खनन, वृद्धिशील खोज , डेटा एकीकरण, मालवेयर डिटेक्शन, [3] और शब्दार्थ ज्ञान एकीकरण।
स्ट्रिंग मेट्रिक्स की सूची
- लेवेनशेटिन दूरी, या इसका सामान्यीकरण संपादन दूरी
- डमेराउ-लेवेनशेटिन दूरी
- सोरेनसेन-डाइस गुणांक
- ब्लॉक दूरी या L1 दूरी या शहर ब्लॉक दूरी
- हैमिंग दूरी
- सरल मिलान गुणांक (एसएमसी)
- जैकार्ड समानता या जैकार्ड गुणांक या टैनिमोटो गुणांक
- टावर्सकी इंडेक्स
- ओवरलैप गुणांक
- परिवर्तनशील दूरी[4]
- हेलिंजर दूरी या भट्टाचार्य दूरी
- सूचना त्रिज्या (जेन्सेन-शैनन विचलन)
- तिरछा विचलन[4]* भ्रम की संभावना[4]* केंडल ताऊ दूरी, कुल्बैक-लीब्लर विचलन का एक अनुमान
- Fellegi और Sunters मेट्रिक (SFS)[4]* अधिकतम मिलान[4]* व्याकरण आधारित दूरी[5]
- टीएफ-आईडीएफ दूरी मीट्रिक[6]
ऐसे कार्य भी मौजूद हैं जो तारों के बीच असमानता को मापते हैं, लेकिन जरूरी नहीं कि त्रिकोण असमानता को पूरा करें, और जैसे कि गणितीय अर्थ में मीट्रिक नहीं हैं। जारो-विंकलर दूरी इस तरह के फ़ंक्शन का एक उदाहरण है।
चयनित स्ट्रिंग उपाय उदाहरण
नाम | विवरण | उदाहरण |
---|---|---|
आलोचनात्मक दूरी | केवल समान लंबाई के तार के लिए। परिवर्तित वर्णों की संख्या। | "करोलिन" और "कैथरीन" 3 है। |
लेवेनशेटिन दूरी और दमेरौ–लेवेनशेटिन दूरी | हैमिंग दूरी का सामान्यीकरण जो अलग-अलग लंबाई के तारों की अनुमति देता है, और (डेमरौ के साथ) पारदर्शिता के लिए | किटेन और सिटींग 3 की दूरी है।
|
जारो–विंकलर दूरी | जारोविंक्लरडिस्ट ("मार्था", "मार्था")=
| |
सबसे लगातार k वर्ण | सबसे फ्रीक कुंजी समानता('resea<span शैली = रंग: लाल; |
संदर्भ
- ↑ Lu, Jiaheng; et al. (2013). "String similarity measures and joins with synonyms". Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data: 373–384. doi:10.1145/2463676.2465313. ISBN 9781450320375. S2CID 2091942.
- ↑ Navarro, Gonzalo (2001). "A guided tour to approximate string matching". ACM Computing Surveys. 33 (1): 31–88. doi:10.1145/375360.375365. hdl:10533/172862. S2CID 207551224.
- ↑ Shlomi Dolev; Mohammad, Ghanayim; Alexander, Binun; Sergey, Frenkel; Yeali, S. Sun (2017). "मैलवेयर क्लस्टरिंग और ऑनलाइन पहचान में जैककार्ड और संपादन दूरी का संबंध". 16th IEEE International Symposium on Network Computing and Applications: 369–373.
- ↑ 4.0 4.1 4.2 4.3 4.4 Sam's String Metrics - Computational Linguistics and Phonetics
- ↑ Russell, David J., et al. "A grammar-based distance metric enables fast and accurate clustering of large sets of 16S sequences." BMC bioinformatics 11.1 (2010): 1-14.
- ↑ Cohen, William; Ravikumar, Pradeep; Fienberg, Stephen (2003-08-01). "नाम-मिलान कार्यों के लिए स्ट्रिंग डिस्टेंस मेट्रिक्स की तुलना।": 73–78.
{{cite journal}}
: Cite journal requires|journal=
(help)
बाहरी संबंध
- String Similarity Metrics for Information Integration A fairly complete overview Archive index at the Wayback Machine
- Carnegie Mellon University open source library
- StringMetric project a Scala library of string metrics and phonetic algorithms
- Natural project a JavaScript natural language processing library which includes implementations of popular string metrics