अव्यक्त शब्दार्थ विश्लेषण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{short description|Technique in natural language processing}}
{{short description|Technique in natural language processing}}
{{semantics}}
{{semantics}}
अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, आलेखो के एक सेट के बीच संबंधों का विश्लेषण करने और आलेखो और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मेट्रिक्स जिसमें प्रति आलेख (डॉक्यूमेंट) रो में शब्द गणना होती है, रो अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक आलेख का प्रतिनिधित्व करते हैं कि प्रत्येक आलेख को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे विलक्षण मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए रो की संख्या को कम करने के लिए किया जाता है। आलेखो की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।<ref>{{cite journal | title=अव्यक्त शब्दार्थ विश्लेषण| author=Susan T. Dumais |year=2005 | doi=10.1002/aris.1440380105 | journal=Annual Review of Information Science and Technology | volume=38 | pages=188–230}}</ref>
'''अव्यक्त सिमेंटिक विश्लेषण (एलएसए)''' प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, आलेखो के एक सेट के बीच संबंधों का विश्लेषण करने और आलेखो और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मेट्रिक्स जिसमें प्रति आलेख (डॉक्यूमेंट) रो में शब्द गणना होती है, रो अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक आलेख का प्रतिनिधित्व करते हैं कि प्रत्येक आलेख को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए रो की संख्या को कम करने के लिए किया जाता है। आलेखो की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।<ref>{{cite journal | title=अव्यक्त शब्दार्थ विश्लेषण| author=Susan T. Dumais |year=2005 | doi=10.1002/aris.1440380105 | journal=Annual Review of Information Science and Technology | volume=38 | pages=188–230}}</ref>


1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।<ref>{{cite web | url=http://lsa.colorado.edu/ | title=The Latent Semantic Indexing home page}}</ref>
1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।<ref>{{cite web | url=http://lsa.colorado.edu/ | title=The Latent Semantic Indexing home page}}</ref>




Line 16: Line 16:
यह मेट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मेट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।
यह मेट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मेट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।


=== श्रेणी निम्नन ===
=== श्रेणी निम्नन ===
घटना मेट्रिक्स (आव्यूह) के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक [[निम्न-श्रेणी सन्निकटन]] पाता है।<ref>Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, {{ISBN|978-1-4471-2226-5}} {{page needed|date=January 2012}}</ref> इन अनुमानों के विभिन्न कारण हो सकते हैं:
घटना मेट्रिक्स (आव्यूह) के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक [[निम्न-श्रेणी सन्निकटन]] पाता है।<ref>Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, {{ISBN|978-1-4471-2226-5}} {{page needed|date=January 2012}}</ref> इन अनुमानों के विभिन्न कारण हो सकते हैं:


* मूल [[शब्द-दस्तावेज़ मैट्रिक्स|शब्द-आलेख मेट्रिक्स]] को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस स्थिति में, अनुमानित निम्न पद मेट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक हानि) के रूप में की जाती है।
* मूल [[शब्द-दस्तावेज़ मैट्रिक्स|शब्द-आलेख मेट्रिक्स]] को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस स्थिति में, अनुमानित निम्न पद मेट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक हानि) के रूप में की जाती है।
* मूल शब्द-आलेख मेट्रिक्स को रव माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक इंस्टैंस को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मेट्रिक्स को रव रहित मेट्रिक्स (मूल से अपेक्षाकृत अधिक मेट्रिक्स) के रूप में व्याख्या किया जाता है।
* मूल शब्द-आलेख मेट्रिक्स को रव माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक इंस्टैंस को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मेट्रिक्स को रव रहित मेट्रिक्स (मूल से अपेक्षाकृत अधिक मेट्रिक्स) के रूप में व्याख्या किया जाता है।
* मूल शब्द-आलेख मेट्रिक्स को वास्तविक शब्द-आलेख मेट्रिक्स के सापेक्ष अत्यधिक विरल मेट्रिक्स माना जाता है। अर्थात्, मूल मेट्रिक्स प्रत्येक आलेख में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक आलेख से संबंधित सभी शब्दों में रुचि हो सकती है - सामान्य रूप से सिनोनीमी के कारण बहुत बड़ा सेट होता है।
* मूल शब्द-आलेख मेट्रिक्स को वास्तविक शब्द-आलेख मेट्रिक्स के सापेक्ष अत्यधिक विरल मेट्रिक्स माना जाता है। अर्थात्, मूल मेट्रिक्स प्रत्येक आलेख में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक आलेख से संबंधित सभी शब्दों में रुचि हो सकती है - सामान्य रूप से सिनोनीमी के कारण बहुत बड़ा सेट होता है।


श्रेणी कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:
श्रेणी कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:
Line 28: Line 28:


=== व्युत्पत्ति ===
=== व्युत्पत्ति ===
मान लीजिए <math>X</math> एक मेट्रिक्स है, जहां तत्व <math>(i,j)</math> आलेख j में पद i की घटना का वर्णन करता है। उदाहरण के लिए, यह आवृत्ति हो सकती है। <math>X</math> इस तरह दिखेगा:
मान लीजिए <math>X</math> एक मेट्रिक्स है, जहां तत्व <math>(i,j)</math> आलेख j में पद i की घटना का वर्णन करता है। उदाहरण के लिए, यह आवृत्ति हो सकती है। <math>X</math> इस तरह दिखेगा:


:<math>
:<math>
Line 44: Line 44:
\end{matrix}
\end{matrix}
</math>
</math>
इस मेट्रिक्स में एक रो एक शब्द के अनुरूप एक सदिश होगी, जो प्रत्येक आलेख से अपना संबंध देती है:
इस मेट्रिक्स में एक रो एक शब्द के अनुरूप एक वेक्टर होगी, जो प्रत्येक आलेख से अपना संबंध देती है:


:<math>\textbf{t}_i^T = \begin{bmatrix} x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \end{bmatrix}</math>
:<math>\textbf{t}_i^T = \begin{bmatrix} x_{i,1} & \dots & x_{i,j} & \dots & x_{i,n} \end{bmatrix}</math>
इसी तरह, इस मेट्रिक्स में एक कॉलम एक आलेख के अनुरूप एक सदिश होगा, जो प्रत्येक शब्द के संबंध को बताता है:
इसी तरह, इस मेट्रिक्स में एक कॉलम एक आलेख के अनुरूप एक वेक्टर होगा, जो प्रत्येक शब्द के संबंध को बताता है:


:<math>\textbf{d}_j = \begin{bmatrix}
:<math>\textbf{d}_j = \begin{bmatrix}
Line 56: Line 56:
x_{m,j} \\
x_{m,j} \\
  \end{bmatrix}</math>
  \end{bmatrix}</math>
अब [[डॉट उत्पाद|बिंदु-गुणनफल]] <math>\textbf{t}_i^T \textbf{t}_p</math> दो पद सदिश के बीच आलेखो के समुच्चय पर शर्तों के बीच सहसंबंध देता है। मेट्रिक्स-गुणनफल <math>X X^T</math> इन सभी बिन्दु-गुणनफल को सम्मिलित करता है। तत्व <math>(i,p)</math> जो तत्व <math>(p,i)</math> के बराबर है बिंदु-गुणनफल <math>\textbf{t}_i^T \textbf{t}_p</math> (<math> = \textbf{t}_p^T \textbf{t}_i</math>)सम्मिलित है। इसी तरह, मेट्रिक्स <math>X^T X</math> सभी आलेख सदिश के बीच बिन्दु-गुणनफल को सम्मिलित करता है, शर्तों <math>\textbf{d}_j^T \textbf{d}_q = \textbf{d}_q^T \textbf{d}_j</math> पर उनका सहसंबंध देता है।  
अब [[डॉट उत्पाद|बिंदु-गुणनफल]] <math>\textbf{t}_i^T \textbf{t}_p</math> दो पद वेक्टर के बीच आलेखो के समुच्चय पर शर्तों के बीच सहसंबंध देता है। मेट्रिक्स-गुणनफल <math>X X^T</math> इन सभी बिन्दु-गुणनफल को सम्मिलित करता है। तत्व <math>(i,p)</math> जो तत्व <math>(p,i)</math> के बराबर है बिंदु-गुणनफल <math>\textbf{t}_i^T \textbf{t}_p</math> (<math> = \textbf{t}_p^T \textbf{t}_i</math>)सम्मिलित है। इसी तरह, मेट्रिक्स <math>X^T X</math> सभी आलेख वेक्टर के बीच बिन्दु-गुणनफल को सम्मिलित करता है, शर्तों <math>\textbf{d}_j^T \textbf{d}_q = \textbf{d}_q^T \textbf{d}_j</math> पर उनका सहसंबंध देता है।  


अब, रैखिक बीजगणित के सिद्धांत से, <math>X</math> का अपघटन सम्मिलित है जैसे कि <math>U</math> और <math>V</math> [[ऑर्थोगोनल मैट्रिक्स|लंबकोणीय मेट्रिक्स]] हैं और <math>\Sigma</math> एक [[विकर्ण मैट्रिक्स|विकर्ण मेट्रिक्स]] है। इसे एक विलक्षण मान अपघटन (एसवीडी) कहा जाता है:
अब, रैखिक बीजगणित के सिद्धांत से, <math>X</math> का अपघटन सम्मिलित है जैसे कि <math>U</math> और <math>V</math> [[ऑर्थोगोनल मैट्रिक्स|लंबकोणीय मेट्रिक्स]] हैं और <math>\Sigma</math> एक [[विकर्ण मैट्रिक्स|विकर्ण मेट्रिक्स]] है। इसे एक अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है:


:<math>
:<math>
Line 73: Line 73:
\end{matrix}
\end{matrix}
</math>
</math>
चूँकि <math>\Sigma \Sigma^T</math> और <math>\Sigma^T \Sigma</math> विकर्ण हैं हम देखते हैं कि <math>U</math> के ईजेनसदिश होने चाहिए, जबकि <math>V</math> को <math>X X^T</math>का आइजनसदिश <math>X^T X</math> की गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं, या समान रूप से <math>\Sigma \Sigma^T</math> या समान रूप से गैर-शून्य प्रविष्टियों द्वारा <math>\Sigma^T\Sigma</math> अब अपघटन इस तरह दिखता है:
चूँकि <math>\Sigma \Sigma^T</math> और <math>\Sigma^T \Sigma</math> विकर्ण हैं हम देखते हैं कि <math>U</math> के ईजेनसदिश होने चाहिए, जबकि <math>V</math> को <math>X X^T</math>का आइजनसदिश <math>X^T X</math> की गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं, या समान रूप से <math>\Sigma \Sigma^T</math> या समान रूप से गैर-शून्य प्रविष्टियों द्वारा <math>\Sigma^T\Sigma</math> अब अपघटन इस तरह दिखता है:


:<math>
:<math>
Line 117: Line 117:
\end{matrix}
\end{matrix}
</math>
</math>
मान <math>\sigma_1, \dots, \sigma_l</math> अव्युत्क्रमणीय मान कहलाते हैं, और <math>u_1, \dots, u_l</math> और <math>v_1, \dots, v_l</math> बाएँ और दाएँ अव्युत्क्रमणीय सदिश है। ध्यान दें कि <math>U</math> का एकमात्र भाग जो <math>\textbf{t}_i</math> में योगदान देता है वह <math>i\textrm{'th}</math> रो है। है। मान लीजिए कि इस रो सदिश को <math>\hat{\textrm{t}}^T_i</math>कहा जाता है। इसी तरह <math>V^T</math> का एकमात्र भाग जो <math>\textbf{d}_j</math> में योगदान देता है, वह <math>j\textrm{'th}</math> कॉलम <math>\hat{ \textrm{d}}_j</math> ये आइजनसदिश नहीं हैं, लेकिन सभी आइजनसदिश पर निर्भर करते हैं।
मान <math>\sigma_1, \dots, \sigma_l</math> अव्युत्क्रमणीय मान कहलाते हैं, और <math>u_1, \dots, u_l</math> और <math>v_1, \dots, v_l</math> बाएँ और दाएँ अव्युत्क्रमणीय वेक्टर है। ध्यान दें कि <math>U</math> का एकमात्र भाग जो <math>\textbf{t}_i</math> में योगदान देता है वह <math>i\textrm{'th}</math> रो है। है। मान लीजिए कि इस रो वेक्टर को <math>\hat{\textrm{t}}^T_i</math>कहा जाता है। इसी तरह <math>V^T</math> का एकमात्र भाग जो <math>\textbf{d}_j</math> में योगदान देता है, वह <math>j\textrm{'th}</math> कॉलम <math>\hat{ \textrm{d}}_j</math> ये आइजनसदिश नहीं हैं, लेकिन सभी आइजनसदिश पर निर्भर करते हैं।


यह पता चला है कि जब आप <math>k</math> सबसे बड़ा अव्युत्क्रमणीय मान चयन करते हैं, और <math>U</math> और <math>V</math> से उनके संबंधित अव्युत्क्रमणीय सदिश, आपको सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ पद k सन्निकटन X मिलता है। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और आलेख सदिश को "सिमेंटिक समष्टि" के रूप में देख सकते हैं। रो "पद" सदिश <math>\hat{\textbf{t}}^T_i</math> फिर <math>k</math> प्रविष्टियां इसे निम्न-आयामी समष्टि पर मानचित्रण करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी समष्टि के निम्न-आयामी सन्निकटन हैं। इसी तरह, "आलेख" सदिश <math>\hat{\textbf{d}}_j</math> इस निम्न-आयामी समष्टि में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं
यह पता चला है कि जब आप <math>k</math> सबसे बड़ा अव्युत्क्रमणीय मान चयन करते हैं, और <math>U</math> और <math>V</math> से उनके संबंधित अव्युत्क्रमणीय वेक्टर, आपको सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ पद k सन्निकटन X मिलता है। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और आलेख वेक्टर को "सिमेंटिक समष्टि" के रूप में देख सकते हैं। रो "पद" वेक्टर <math>\hat{\textbf{t}}^T_i</math> फिर <math>k</math> प्रविष्टियां इसे निम्न-आयामी समष्टि पर मानचित्रण करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी समष्टि के निम्न-आयामी सन्निकटन हैं। इसी तरह, "आलेख" वेक्टर <math>\hat{\textbf{d}}_j</math> इस निम्न-आयामी समष्टि में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं


:<math>X_k = U_k \Sigma_k V_k^T</math>
:<math>X_k = U_k \Sigma_k V_k^T</math>
अब आप निम्न कार्य कर सकते हैं:
अब आप निम्न कार्य कर सकते हैं:
* सदिशों <math>j</math> और <math>q</math> की तुलना करके देखें कि कैसे संबंधित आलेख <math>\Sigma_k \cdot \hat{\textbf{d}}_j </math> और <math>\Sigma_k \cdot \hat{\textbf{d}}_q </math> विशेष रूप से कोज्या समानता द्वारा निम्न-आयामी समष्टि में हैं
* सदिशों <math>j</math> और <math>q</math> की तुलना करके देखें कि कैसे संबंधित आलेख <math>\Sigma_k \cdot \hat{\textbf{d}}_j </math> और <math>\Sigma_k \cdot \hat{\textbf{d}}_q </math> विशेष रूप से कोज्या समानता द्वारा निम्न-आयामी समष्टि में हैं
* वैक्टर <math>i</math> और <math>p</math> की तुलना करके पदों <math>\Sigma_k \cdot \hat{\textbf{t}}_i</math> और <math>\Sigma_k \cdot \hat{\textbf{t}}_p</math> की तुलना करना। ध्यान दें कि <math>\hat{\textbf{t}}</math> अब एक कॉलम सदिश है।
* वैक्टर <math>i</math> और <math>p</math> की तुलना करके पदों <math>\Sigma_k \cdot \hat{\textbf{t}}_i</math> और <math>\Sigma_k \cdot \hat{\textbf{t}}_p</math> की तुलना करना। ध्यान दें कि <math>\hat{\textbf{t}}</math> अब एक कॉलम वेक्टर है।
* आलेखो और पद सदिश प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे -साधनों का उपयोग करके क्लस्टर किया जा सकता है।
* आलेखो और पद वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे -साधनों का उपयोग करके क्लस्टर किया जा सकता है।
* किसी प्रश्न को देखते हुए, इसे एक लघु आलेख के रूप में देखें, और निम्न-आयामी समष्टि में अपने दस्तावेज़ों से इसकी तुलना करें।
* किसी प्रश्न को देखते हुए, इसे एक लघु आलेख के रूप में देखें, और निम्न-आयामी समष्टि में अपने दस्तावेज़ों से इसकी तुलना करें।


Line 133: Line 133:
यहाँ ध्यान दें कि विकर्ण मेट्रिक्स <math>\Sigma_k</math>का व्युत्क्रम मेट्रिक्स के अंदर प्रत्येक अशून्य मान को प्रतिवर्त करके पाया जा सकता है।
यहाँ ध्यान दें कि विकर्ण मेट्रिक्स <math>\Sigma_k</math>का व्युत्क्रम मेट्रिक्स के अंदर प्रत्येक अशून्य मान को प्रतिवर्त करके पाया जा सकता है।


इसका तात्पर्य है कि यदि आपके पास एक प्रश्न सदिश  <math>q</math> है, आपको स्थानांतरण <math>\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}</math> करना होगा इससे पहले कि आप कम-आयामी समष्टि में आलेख सदिश के साथ इसकी तुलना करें। आप छद्म पद सदिश के लिए भी ऐसा कर सकते हैं:
इसका तात्पर्य है कि यदि आपके पास एक प्रश्न वेक्टर <math>q</math> है, आपको स्थानांतरण <math>\hat{\textbf{q}} = \Sigma_k^{-1} U_k^T \textbf{q}</math> करना होगा इससे पहले कि आप कम-आयामी समष्टि में आलेख वेक्टर के साथ इसकी तुलना करें। आप छद्म पद वेक्टर के लिए भी ऐसा कर सकते हैं:


:<math>\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T</math>
:<math>\textbf{t}_i^T = \hat{\textbf{t}}_i^T \Sigma_k V_k^T</math>
Line 147: Line 147:
* शब्दों (सिनोनीमी और पॉलीसेमी) के बीच संबंध खोजें।
* शब्दों (सिनोनीमी और पॉलीसेमी) के बीच संबंध खोजें।
* शर्तों की एक प्रश्न को देखते हुए, इसे निम्न-आयामी समष्टि में अनुवादित करें, और अनुरूप वाले आलेख (सूचना पुनर्प्राप्ति) खोजें।
* शर्तों की एक प्रश्न को देखते हुए, इसे निम्न-आयामी समष्टि में अनुवादित करें, और अनुरूप वाले आलेख (सूचना पुनर्प्राप्ति) खोजें।
* सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच (अर्थात ज्ञान कोष के संदर्भ में) सबसे अच्छी समानता खोजें, उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल है।<ref name="Alain2009">{{cite journal | url=http://hal.archives-ouvertes.fr/docs/00/38/41/43/PDF/eLSA1-brm20.pdf | title=एलएसए बहुविकल्पीय प्रश्नों के उत्तर देने वाले मॉडल पर ट्यून किए गए मापदंडों का प्रभाव|author1=Alain Lifchitz |author2=Sandra Jhean-Larose |author3=Guy Denhière | journal=Behavior Research Methods | volume=41 | issue=4 | pages=1201–1209 | year=2009  | doi=10.3758/BRM.41.4.1201 | pmid=19897829 | arxiv=0811.0146 | s2cid=480826 | doi-access=free }}</ref>
* सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच (अर्थात ज्ञान कोष के संदर्भ में) सबसे अच्छी समानता खोजें, उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल है।<ref name="Alain2009">{{cite journal | url=http://hal.archives-ouvertes.fr/docs/00/38/41/43/PDF/eLSA1-brm20.pdf | title=एलएसए बहुविकल्पीय प्रश्नों के उत्तर देने वाले मॉडल पर ट्यून किए गए मापदंडों का प्रभाव|author1=Alain Lifchitz |author2=Sandra Jhean-Larose |author3=Guy Denhière | journal=Behavior Research Methods | volume=41 | issue=4 | pages=1201–1209 | year=2009  | doi=10.3758/BRM.41.4.1201 | pmid=19897829 | arxiv=0811.0146 | s2cid=480826 | doi-access=free }}</ref>
* मशीन अधिगम / टेक्स्ट माइनिंग सिस्टम के फीचर समष्टि का विस्तार करें। <ref name="Galvez2017">{{cite journal | title=स्वचालित स्टॉक भविष्यवाणी प्रणाली में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना|author1=Ramiro H. Gálvez |author2=Agustín Gravano | journal=Journal of Computational Science | volume=19 | pages=1877–7503 | year=2017  | doi=10.1016/j.jocs.2017.01.001}}</ref>
* मशीन अधिगम / टेक्स्ट माइनिंग सिस्टम के फीचर समष्टि का विस्तार करें। <ref name="Galvez2017">{{cite journal | title=स्वचालित स्टॉक भविष्यवाणी प्रणाली में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना|author1=Ramiro H. Gálvez |author2=Agustín Gravano | journal=Journal of Computational Science | volume=19 | pages=1877–7503 | year=2017  | doi=10.1016/j.jocs.2017.01.001}}</ref>
* टेक्स्ट कोष में शब्द संघ का विश्लेषण करें। <ref name="Altszyler2017">{{cite journal | title=The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text |author1=Altszyler, E. |author2=Ribeiro, S. | author3= Sigman, M.|author4=Fernández Slezak, D. | journal=Consciousness and Cognition | volume=56 | pages=178–187 | year=2017 | doi=10.1016/j.concog.2017.09.004| pmid=28943127 | arxiv=1610.01520 |s2cid=195347873 }}</ref>
* टेक्स्ट कोष में शब्द संघ का विश्लेषण करें। <ref name="Altszyler2017">{{cite journal | title=The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text |author1=Altszyler, E. |author2=Ribeiro, S. | author3= Sigman, M.|author4=Fernández Slezak, D. | journal=Consciousness and Cognition | volume=56 | pages=178–187 | year=2017 | doi=10.1016/j.concog.2017.09.004| pmid=28943127 | arxiv=1610.01520 |s2cid=195347873 }}</ref>
Line 171: Line 171:
== कार्यान्वयन ==
== कार्यान्वयन ==


विलक्षण मान अपघटन सामान्य रूप से बड़े मेट्रिक्स विधियों (उदाहरण के लिए, [[लैंक्ज़ोस विधि]]यों) का उपयोग करके गणना की जाती है, लेकिन एक [[तंत्रिका नेटवर्क]] जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए मेमोरी में बड़े पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है।<ref name="Genevi2005">{{cite conference | url=http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | title=अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम| author1=Geneviève Gorrell | author2=Brandyn Webb | book-title=Interspeech'2005 | year=2005 | url-status=dead | archive-url=https://web.archive.org/web/20081221063926/http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | archive-date=2008-12-21 }}</ref> हाल ही में एक तेज़, वृद्धिशील, कम-मेमोरी, बड़ा-मेट्रिक्स विलक्षण मान अपघटन एल्गोरिथम विकसित किया गया है।<ref name="brand2006">{{cite journal | url=http://www.merl.com/reports/docs/TR2006-059.pdf | title=थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन| author=Matthew Brand | journal=Linear Algebra and Its Applications | volume=415 | pages=20–30 | year=2006 | doi=10.1016/j.laa.2005.07.021 | doi-access=free }}</ref> [http://web.mit.edu/~wingated/www/resources.html मैटलैब] और [http://radimrehurek.com/gensim पायथन] इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक परिशुद्ध समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए वृद्धि हुई है; इंस्टैंस के लिए, समानांतर ईजेनमान अपघटन करने के लिए एक समानांतर एआरपीएसीके एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए विलक्षण मान अपघटन संगणना लागत को गति देना संभव है।<ref>{{cite book | doi = 10.1109/ICCSNT.2011.6182070 | title=मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन| journal=Proceedings of 2011 International Conference on Computer Science and Network Technology | pages=739–741 | year=2011 | last1 = Ding | first1 = Yaguang | last2 = Zhu | first2 = Guofeng | last3 = Cui | first3 = Chenyang | last4 = Zhou | first4 = Jian | last5 = Tao | first5 = Liang| isbn=978-1-4577-1587-7 | s2cid=15281129 }}</ref>
अव्युत्क्रमणीय मान अपघटन सामान्य रूप से बड़े मेट्रिक्स विधियों (उदाहरण के लिए, [[लैंक्ज़ोस विधि]]यों) का उपयोग करके गणना की जाती है, लेकिन एक [[तंत्रिका नेटवर्क]] जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए मेमोरी में बड़े पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है।<ref name="Genevi2005">{{cite conference | url=http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | title=अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम| author1=Geneviève Gorrell | author2=Brandyn Webb | book-title=Interspeech'2005 | year=2005 | url-status=dead | archive-url=https://web.archive.org/web/20081221063926/http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | archive-date=2008-12-21 }}</ref> हाल ही में एक तेज़, वृद्धिशील, कम-मेमोरी, बड़ा-मेट्रिक्स अव्युत्क्रमणीय मान अपघटन एल्गोरिथम विकसित किया गया है।<ref name="brand2006">{{cite journal | url=http://www.merl.com/reports/docs/TR2006-059.pdf | title=थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन| author=Matthew Brand | journal=Linear Algebra and Its Applications | volume=415 | pages=20–30 | year=2006 | doi=10.1016/j.laa.2005.07.021 | doi-access=free }}</ref> [http://web.mit.edu/~wingated/www/resources.html मैटलैब] और [http://radimrehurek.com/gensim पायथन] इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक परिशुद्ध समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए वृद्धि हुई है; इंस्टैंस के लिए, समानांतर ईजेनमान अपघटन करने के लिए एक समानांतर एआरपीएसीके एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए अव्युत्क्रमणीय मान अपघटन संगणना लागत को गति देना संभव है।<ref>{{cite book | doi = 10.1109/ICCSNT.2011.6182070 | title=मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन| journal=Proceedings of 2011 International Conference on Computer Science and Network Technology | pages=739–741 | year=2011 | last1 = Ding | first1 = Yaguang | last2 = Zhu | first2 = Guofeng | last3 = Cui | first3 = Chenyang | last4 = Zhou | first4 = Jian | last5 = Tao | first5 = Liang| isbn=978-1-4577-1587-7 | s2cid=15281129 }}</ref>




Line 183: Line 183:
:घटित होगा। इससे ऐसे परिणाम निकलते हैं जिन्हें गणितीय स्तर पर सही अधीन किया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * car + 0.2828 * '''bottle''') घटक को इस तथ्य के कारण उपयुक्त किया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी भाग होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ "सिमेंटिक साझा<nowiki>''</nowiki> करती हैं अर्थात्, प्रश्नगत भाषा के अंदर, नियुक्त करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।
:घटित होगा। इससे ऐसे परिणाम निकलते हैं जिन्हें गणितीय स्तर पर सही अधीन किया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * car + 0.2828 * '''bottle''') घटक को इस तथ्य के कारण उपयुक्त किया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी भाग होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ "सिमेंटिक साझा<nowiki>''</nowiki> करती हैं अर्थात्, प्रश्नगत भाषा के अंदर, नियुक्त करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।


* अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (अर्थात, एक शब्द के कई अर्थ) पर प्रग्रहण कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को समान अर्थ के रूप में माना जाता है क्योंकि शब्द को समष्टि में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले आलेख में और कुर्सी निर्माता वाले एक अलग आलेख में कुर्सी की घटना को समान माना जाता है। संग्रह में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण सदिश प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए कठिन बना सकता है।<ref name=":0">{{Cite journal|last1=Deerwester|first1=Scott|last2=Dumais|first2=Susan T.|last3=Furnas|first3=George W.|last4=Landauer|first4=Thomas K.|last5=Harshman|first5=Richard|date=1990|title=अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण|journal=Journal of the American Society for Information Science|volume=41|issue=6|pages=391–407|citeseerx=10.1.1.108.8490|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9}}</ref> हालाँकि, प्रभाव प्रायः कम हो जाता है क्योंकि शब्दों में एक संग्रह में एक शब्द बोध होता है अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है।
* अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (अर्थात, एक शब्द के कई अर्थ) पर प्रग्रहण कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को समान अर्थ के रूप में माना जाता है क्योंकि शब्द को समष्टि में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले आलेख में और कुर्सी निर्माता वाले एक अलग आलेख में कुर्सी की घटना को समान माना जाता है। संग्रह में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए कठिन बना सकता है।<ref name=":0">{{Cite journal|last1=Deerwester|first1=Scott|last2=Dumais|first2=Susan T.|last3=Furnas|first3=George W.|last4=Landauer|first4=Thomas K.|last5=Harshman|first5=Richard|date=1990|title=अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण|journal=Journal of the American Society for Information Science|volume=41|issue=6|pages=391–407|citeseerx=10.1.1.108.8490|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9}}</ref> हालाँकि, प्रभाव प्रायः कम हो जाता है क्योंकि शब्दों में एक संग्रह में एक शब्द बोध होता है अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है।
* शब्दों के बैग मॉडल (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्दों के बैग मॉडल (बीओडब्ल्यू) की कुछ सीमाओं को संबोधित करने के लिए, मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ शब्दों के बीच उच्च-क्रम सह-घटनाओं को खोजने के लिए किया जा सकता है।<ref>{{cite journal|title=ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन|first1=Vida|last1=Abedi|first2=Mohammed|last2=Yeasin|first3=Ramin|last3=Zand|date=27 November 2014|volume=12|issue=1|pages=324|doi=10.1186/s12967-014-0324-9|pmid=25428570|pmc=4252998|journal=Journal of Translational Medicine}}</ref>
* शब्दों के बैग मॉडल (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्दों के बैग मॉडल (बीओडब्ल्यू) की कुछ सीमाओं को संबोधित करने के लिए, मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ शब्दों के बीच उच्च-क्रम सह-घटनाओं को खोजने के लिए किया जा सकता है।<ref>{{cite journal|title=ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन|first1=Vida|last1=Abedi|first2=Mohammed|last2=Yeasin|first3=Ramin|last3=Zand|date=27 November 2014|volume=12|issue=1|pages=324|doi=10.1186/s12967-014-0324-9|pmid=25428570|pmc=4252998|journal=Journal of Translational Medicine}}</ref>
* अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से अनुरूप नहीं होता: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और आलेख एक संयुक्त गॉसियन मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉसॉन वितरण देखा गया है। इस प्रकार, एक नया विकल्प संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो एक बहुराष्ट्रीय मॉडल पर आधारित है, जो मानक अव्यक्त सिमेंटिक विश्लेषण की तुलना में अपेक्षाकृत अधिक परिणाम देता है।<ref name="Thomas1999">{{cite conference|title=संभाव्य अव्यक्त शब्दार्थ विश्लेषण|author=Thomas Hofmann|book-title=Uncertainty in Artificial Intelligence|year=1999|arxiv = 1301.6705}}</ref>
* अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से अनुरूप नहीं होता: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और आलेख एक संयुक्त गॉसियन मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉसॉन वितरण देखा गया है। इस प्रकार, एक नया विकल्प संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो एक बहुराष्ट्रीय मॉडल पर आधारित है, जो मानक अव्यक्त सिमेंटिक विश्लेषण की तुलना में अपेक्षाकृत अधिक परिणाम देता है।<ref name="Thomas1999">{{cite conference|title=संभाव्य अव्यक्त शब्दार्थ विश्लेषण|author=Thomas Hofmann|book-title=Uncertainty in Artificial Intelligence|year=1999|arxiv = 1301.6705}}</ref>




Line 191: Line 191:


=== सिमेंटिक हैशिंग ===
=== सिमेंटिक हैशिंग ===
सिमेंटिक हैशिंग में <ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.</ref> आलेखो को एक तंत्रिका नेटवर्क के माध्यम से मेमोरी एड्रैस पर मानचित्रण किया जाता है ताकि सिमेंटिक के समान आलेख पास के एड्रैस पर स्थित हों। [[ध्यान लगा के पढ़ना या सीखना]] अनिवार्य रूप से आलेखो के एक बड़े सेट से प्राप्त शब्द-गणना सदिश का एक [[ग्राफिकल मॉडल]] बनाता है। जांच आलेख के समान दस्तावेज़ों को केवल उन सभी एड्रैस तक पहुँचने के द्वारा पाया जा सकता है जो जांच आलेख के एड्रैस से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका [[स्थानीयता संवेदनशील हैशिंग]] की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ सम्मिलित तरीका है। {{clarify |date=November 2019 |reason=This implies that the fastest method currently known is slower than an older method, which is impossible. }}
सिमेंटिक हैशिंग में <ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.</ref> आलेखो को एक तंत्रिका नेटवर्क के माध्यम से मेमोरी एड्रैस पर मानचित्रण किया जाता है ताकि सिमेंटिक के समान आलेख पास के एड्रैस पर स्थित हों। [[ध्यान लगा के पढ़ना या सीखना]] अनिवार्य रूप से आलेखो के एक बड़े सेट से प्राप्त शब्द-गणना वेक्टर का एक [[ग्राफिकल मॉडल]] बनाता है। जांच आलेख के समान दस्तावेज़ों को केवल उन सभी एड्रैस तक पहुँचने के द्वारा पाया जा सकता है जो जांच आलेख के एड्रैस से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका [[स्थानीयता संवेदनशील हैशिंग]] की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ सम्मिलित तरीका है। {{clarify |date=November 2019 |reason=This implies that the fastest method currently known is slower than an older method, which is impossible. }}


=== अव्यक्त सिमेंटिक इंडेक्सिंग ===
=== अव्यक्त सिमेंटिक इंडेक्सिंग ===
अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे विलक्षण मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और [[अवधारणा]]ओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। अव्यक्त सिमेंटिक इंडेक्सिंग की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके [[टेक्स्ट कॉर्पस|टेक्स्ट संग्रह]] की वैचारिक वस्तु को निकालने की इसकी क्षमता है।<ref name=deerwester1988>Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे अव्युत्क्रमणीय मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और [[अवधारणा]]ओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। अव्यक्त सिमेंटिक इंडेक्सिंग की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके [[टेक्स्ट कॉर्पस|टेक्स्ट संग्रह]] की वैचारिक वस्तु को निकालने की इसकी क्षमता है।<ref name=deerwester1988>Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.</ref>


अव्यक्त सिमेंटिक इंडेक्सिंग [[पत्राचार विश्लेषण]] का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है।<ref>{{cite book
अव्यक्त सिमेंटिक इंडेक्सिंग [[पत्राचार विश्लेषण]] का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है।<ref>{{cite book
Line 203: Line 203:
  }}</ref> 1970 के दशक के प्रारंभ में, आलेखो में शब्द गणना से निर्मित एक [[आकस्मिक तालिका|आकस्मिक सारणी]] है।
  }}</ref> 1970 के दशक के प्रारंभ में, आलेखो में शब्द गणना से निर्मित एक [[आकस्मिक तालिका|आकस्मिक सारणी]] है।


शब्दार्थ से संबंधित शब्दों को सहसंबंधित करने की क्षमता के कारण "अव्यक्त सिमेंटिक इंडेक्सिंग" कहा जाता है, जो टेक्स्ट के संग्रह में अव्यक्त हैं, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर प्रयुक्त किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को प्रदर्शित करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे सामान्य रूप से संदर्भित किया जाता है। अवधारणा खोज के रूप में अव्यक्त सिमेंटिक इंडेक्सिंग से गुजरने वाले आलेखो के एक सेट के विपरीत प्रश्न, या अवधारणा खोज, ऐसे परिणाम वापस जाएंगे, जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, तथापि परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या पद साझा न करें।
शब्दार्थ से संबंधित शब्दों को सहसंबंधित करने की क्षमता के कारण "अव्यक्त सिमेंटिक इंडेक्सिंग" कहा जाता है, जो टेक्स्ट के संग्रह में अव्यक्त हैं, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर प्रयुक्त किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को प्रदर्शित करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे सामान्य रूप से संदर्भित किया जाता है। अवधारणा खोज के रूप में अव्यक्त सिमेंटिक इंडेक्सिंग से गुजरने वाले आलेखो के एक सेट के विपरीत प्रश्न, या अवधारणा खोज, ऐसे परिणाम वापस जाएंगे, जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, तथापि परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या पद साझा न करें।


== अव्यक्त सिमेंटिक इंडेक्सिंग के लाभ ==
== अव्यक्त सिमेंटिक इंडेक्सिंग के लाभ ==


अव्यक्त सिमेंटिक इंडेक्सिंग मूल्यांकन संशोधनों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में सहायता करता है, [[बूलियन खोज]] और सदिश समष्टि मॉडल की सबसे समस्याग्रस्त प्रतिबंध में से एक है।<ref name=":0" /> आलेखो के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी प्रायः बेमेल का कारण होता है।<ref>{{Cite journal | last1 = Furnas | first1 = G. W. | last2 = Landauer | first2 = T. K. | last3 = Gomez | first3 = L. M. | last4 = Dumais | first4 = S. T. | title = मानव-प्रणाली संचार में शब्दावली समस्या| doi = 10.1145/32206.32212 | journal = Communications of the ACM | volume = 30 | issue = 11 | pages = 964–971 | year = 1987 | citeseerx = 10.1.1.118.4768 | s2cid = 3002280 }}</ref> परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न प्रायः अप्रासंगिक परिणाम वापस करते हैं और प्रासंगिक जानकारी नष्ट कर देते हैं।
अव्यक्त सिमेंटिक इंडेक्सिंग मूल्यांकन संशोधनों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में सहायता करता है, [[बूलियन खोज]] और वेक्टर समष्टि मॉडल की सबसे समस्याग्रस्त प्रतिबंध में से एक है।<ref name=":0" /> आलेखो के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी प्रायः बेमेल का कारण होता है।<ref>{{Cite journal | last1 = Furnas | first1 = G. W. | last2 = Landauer | first2 = T. K. | last3 = Gomez | first3 = L. M. | last4 = Dumais | first4 = S. T. | title = मानव-प्रणाली संचार में शब्दावली समस्या| doi = 10.1145/32206.32212 | journal = Communications of the ACM | volume = 30 | issue = 11 | pages = 964–971 | year = 1987 | citeseerx = 10.1.1.118.4768 | s2cid = 3002280 }}</ref> परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न प्रायः अप्रासंगिक परिणाम वापस करते हैं और प्रासंगिक जानकारी नष्ट कर देते हैं।


अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित [[दस्तावेज़ वर्गीकरण|आलेख वर्गीकरण]] करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि अव्यक्त सिमेंटिक इंडेक्सिंग और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।<ref name="landauer2008">Landauer, T., et al., [http://papers.nips.cc/paper/1468-learning-human-like-knowledge-by-singular-value-decomposition-a-progress-report.pdf Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report], M. I. Jordan, M. J. Kearns & [[Sara Solla|S. A. Solla]] (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.</ref> आलेख वर्गीकरण श्रेणियों की वैचारिक वस्तु की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।<ref>{{Cite book | last1 = Dumais | first1 = S. | last2 = Platt | first2 = J. | last3 = Heckerman | first3 = D. | last4 = Sahami | first4 = M. | chapter = Inductive learning algorithms and representations for text categorization | doi = 10.1145/288627.288651 | title = Proceedings of the seventh international conference on Information and knowledge management - CIKM '98 | pages = [https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 148] | year = 1998 | isbn = 978-1581130614 | chapter-url = http://research.microsoft.com/en-us/um/people/jplatt/cikm98.pdf | citeseerx = 10.1.1.80.8909 | s2cid = 617436 | url = https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 }}</ref> अव्यक्त सिमेंटिक इंडेक्सिंग प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग करता है। वर्गीकरण प्रसंस्करण के समय, वर्गीकृत किए जा रहे आलेखो में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) आलेखो को उन अवधारणाओं के बीच समानता के आधार पर निर्दिष्ट की जाती है जो उनमें सम्मिलित होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण आलेखो में होती है।
अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित [[दस्तावेज़ वर्गीकरण|आलेख वर्गीकरण]] करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि अव्यक्त सिमेंटिक इंडेक्सिंग और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।<ref name="landauer2008">Landauer, T., et al., [http://papers.nips.cc/paper/1468-learning-human-like-knowledge-by-singular-value-decomposition-a-progress-report.pdf Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report], M. I. Jordan, M. J. Kearns & [[Sara Solla|S. A. Solla]] (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.</ref> आलेख वर्गीकरण श्रेणियों की वैचारिक वस्तु की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।<ref>{{Cite book | last1 = Dumais | first1 = S. | last2 = Platt | first2 = J. | last3 = Heckerman | first3 = D. | last4 = Sahami | first4 = M. | chapter = Inductive learning algorithms and representations for text categorization | doi = 10.1145/288627.288651 | title = Proceedings of the seventh international conference on Information and knowledge management - CIKM '98 | pages = [https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 148] | year = 1998 | isbn = 978-1581130614 | chapter-url = http://research.microsoft.com/en-us/um/people/jplatt/cikm98.pdf | citeseerx = 10.1.1.80.8909 | s2cid = 617436 | url = https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 }}</ref> अव्यक्त सिमेंटिक इंडेक्सिंग प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग करता है। वर्गीकरण प्रसंस्करण के समय, वर्गीकृत किए जा रहे आलेखो में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) आलेखो को उन अवधारणाओं के बीच समानता के आधार पर निर्दिष्ट की जाती है जो उनमें सम्मिलित होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण आलेखो में होती है।
Line 213: Line 213:
आलेखो की वैचारिक वस्तु के आधार पर गतिशील क्लस्टरिंग भी अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह आलेखो का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के समय यह बहुत उपयोगी है।
आलेखो की वैचारिक वस्तु के आधार पर गतिशील क्लस्टरिंग भी अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह आलेखो का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के समय यह बहुत उपयोगी है।


क्योंकि यह प्रबलता से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और शब्दसंग्रह के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक वस्तु को प्राप्त करने में सक्षम बनाता है।अव्यक्त सिमेंटिक इंडेक्सिंग क्रॉस-भाषाई [[अवधारणा खोज]] और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम वापस किए जाएंगे, तथापि वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।{{Citation needed|date=July 2015}}
क्योंकि यह प्रबलता से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और शब्दसंग्रह के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक वस्तु को प्राप्त करने में सक्षम बनाता है।अव्यक्त सिमेंटिक इंडेक्सिंग क्रॉस-भाषाई [[अवधारणा खोज]] और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम वापस किए जाएंगे, तथापि वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।{{Citation needed|date=July 2015}}


अव्यक्त सिमेंटिक इंडेक्सिंग केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह यादृच्छिक वर्ण स्ट्रिंग भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग सदिश समष्टि में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन एब्सट्रेक्ट के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और एब्सट्रेक्ट में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर अव्यक्त सिमेंटिक इंडेक्सिंग जीन को प्रभावी रूप से वर्गीकृत करने में सक्षम है।<ref>{{Cite journal | last1 = Homayouni | first1 = R. | last2 = Heinrich | first2 = K. | last3 = Wei | first3 = L. | last4 = Berry | first4 = M. W. | title = मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग| doi = 10.1093/bioinformatics/bth464 | journal = Bioinformatics | volume = 21 | issue = 1 | pages = 104–115 | year = 2004 | pmid =  15308538| doi-access = free }}</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह यादृच्छिक वर्ण स्ट्रिंग भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन एब्सट्रेक्ट के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और एब्सट्रेक्ट में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर अव्यक्त सिमेंटिक इंडेक्सिंग जीन को प्रभावी रूप से वर्गीकृत करने में सक्षम है।<ref>{{Cite journal | last1 = Homayouni | first1 = R. | last2 = Heinrich | first2 = K. | last3 = Wei | first3 = L. | last4 = Berry | first4 = M. W. | title = मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग| doi = 10.1093/bioinformatics/bth464 | journal = Bioinformatics | volume = 21 | issue = 1 | pages = 104–115 | year = 2004 | pmid =  15308538| doi-access = free }}</ref>


अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और रव के प्रति बहुत सहिष्णु दिखाया गया है अर्थात, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि सम्मिलित है।<ref>{{Cite book | last1 = Price | first1 = R. J. | last2 = Zukas | first2 = A. E. | chapter = Application of Latent Semantic Indexing to Processing of Noisy Text | doi = 10.1007/11427995_68 | title = खुफिया और सुरक्षा सूचना विज्ञान| series = Lecture Notes in Computer Science | volume = 3495 | pages = 602 | year = 2005 | isbn = 978-3-540-25999-2 }}</ref> ऑप्टिकल वर्ण पहचान (ओसीआर) और वाक से-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले एप्लीकेशन के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी रूप से निर्धारित है।
अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और रव के प्रति बहुत सहिष्णु दिखाया गया है अर्थात, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि सम्मिलित है।<ref>{{Cite book | last1 = Price | first1 = R. J. | last2 = Zukas | first2 = A. E. | chapter = Application of Latent Semantic Indexing to Processing of Noisy Text | doi = 10.1007/11427995_68 | title = खुफिया और सुरक्षा सूचना विज्ञान| series = Lecture Notes in Computer Science | volume = 3495 | pages = 602 | year = 2005 | isbn = 978-3-540-25999-2 }}</ref> ऑप्टिकल वर्ण पहचान (ओसीआर) और वाक से-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले एप्लीकेशन के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी रूप से निर्धारित है।


अव्यक्त सिमेंटिक इंडेक्सिंग के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, मुक्त रूप टिप्पणी, ईमेल, वेब-आधारित वस्तु आदि के साथ काम कर सकता है।
अव्यक्त सिमेंटिक इंडेक्सिंग के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, मुक्त रूप टिप्पणी, ईमेल, वेब-आधारित वस्तु आदि के साथ काम कर सकता है।
Line 227: Line 227:
== अव्यक्त सिमेंटिक इंडेक्सिंग समयरेखा ==
== अव्यक्त सिमेंटिक इंडेक्सिंग समयरेखा ==


*1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और (एच. बोरको और एम. बर्निक) परीक्षण किया गया
*1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और (एच. बोरको और एम. बर्निक) परीक्षण किया गया
*1988 - अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक पर सेमिनल पत्र प्रकाशित किया।<ref name=deerwester1988/>
*1988 - अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक पर सेमिनल पत्र प्रकाशित किया।<ref name=deerwester1988/>
*1989 - मूल पेटेंट प्रदान किया गया <ref name="deerwester1988" />
*1989 - मूल पेटेंट प्रदान किया गया <ref name="deerwester1988" />
*1992 - समीक्षकों को लेख सौंपने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग था।<ref>{{cite book|last1=Dumais |first1=S. |last2=Nielsen |first2=J. |title=समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना|journal=Proceedings of the Fifteenth Annual International Conference on Research and Development in Information Retrieval|year=1992|pages=233–244|doi=10.1145/133160.133205|isbn=978-0897915236 |citeseerx=10.1.1.16.9793 |s2cid=15038631 }}</ref>
*1992 - समीक्षकों को लेख सौंपने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग था।<ref>{{cite book|last1=Dumais |first1=S. |last2=Nielsen |first2=J. |title=समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना|journal=Proceedings of the Fifteenth Annual International Conference on Research and Development in Information Retrieval|year=1992|pages=233–244|doi=10.1145/133160.133205|isbn=978-0897915236 |citeseerx=10.1.1.16.9793 |s2cid=15038631 }}</ref>
*1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (लैंडौएर एट अल) के क्रॉस-भाषी एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
*1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (लैंडौएर एट अल) के क्रॉस-भाषी एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
*1995 - निबंधों की ग्रेडिंग के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.) किया गया था
*1995 - निबंधों की ग्रेडिंग के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.) किया गया था
*1999 - असंरचित टेक्स्ट के विश्लेषण के लिए गुप्त समुदाय के लिए अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक का पहला कार्यान्वयन ([[विज्ञान अनुप्रयोग अंतर्राष्ट्रीय निगम|विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम]]) किया गया था।
*1999 - असंरचित टेक्स्ट के विश्लेषण के लिए इंटेलिजेंस समुदाय के लिए अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक का पहला कार्यान्वयन ([[विज्ञान अनुप्रयोग अंतर्राष्ट्रीय निगम|विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम]]) किया गया था।
*2002 - गुप्त-आधारित सरकारी संस्था (एसएआईसी) को अव्यक्त सिमेंटिक इंडेक्सिंग-आधारित उत्पाद की पेशकश थी
*2002 - इंटेलिजेंस-आधारित सरकारी संस्था (एसएआईसी) को अव्यक्त सिमेंटिक इंडेक्सिंग-आधारित उत्पाद की पेशकश थी


== अव्यक्त सिमेंटिक इंडेक्सिंग का गणित ==
== अव्यक्त सिमेंटिक इंडेक्सिंग का गणित ==


टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य रूप से, प्रक्रिया में भारित शब्द-आलेख मेट्रिक्स का निर्माण करना, मेट्रिक्स पर एक विलक्षण मान अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मेट्रिक्स का उपयोग करना सम्मिलित है।
टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य रूप से, प्रक्रिया में भारित शब्द-आलेख मेट्रिक्स का निर्माण करना, मेट्रिक्स पर एक अव्युत्क्रमणीय मान अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मेट्रिक्स का उपयोग करना सम्मिलित है।


=== पद-आलेख मेट्रिक्स ===
=== पद-आलेख मेट्रिक्स ===


अव्यक्त सिमेंटिक इंडेक्सिंग पद-आलेख मेट्रिक्स , <math>A</math> के निर्माण से प्रारंभ होता है जिसकी घटनाओं की पहचान करने के लिए <math>m</math> के संग्रह के अंदर अद्वितीय शब्द <math>n</math> आलेख है। एक शब्द-आलेख मेट्रिक्स में, प्रत्येक पद को एक रो द्वारा दर्शाया जाता है, और प्रत्येक आलेख को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मेट्रिक्स सेल के साथ <math>a_{ij}</math> प्रारंभ में संकेतित आलेख में संबंधित शब्द कितनी बार प्रकट होता है, इसका <math>\mathrm{tf_{ij}}</math> द्वारा प्रतिनिधित्व करता है। यह मेट्रिक्स सामान्य रूप से बहुत बड़ा और बहुत विरल होता है।
अव्यक्त सिमेंटिक इंडेक्सिंग पद-आलेख मेट्रिक्स, <math>A</math> के निर्माण से प्रारंभ होता है जिसकी घटनाओं की पहचान करने के लिए <math>m</math> के संग्रह के अंदर अद्वितीय शब्द <math>n</math> आलेख है। एक शब्द-आलेख मेट्रिक्स में, प्रत्येक पद को एक रो द्वारा दर्शाया जाता है, और प्रत्येक आलेख को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मेट्रिक्स सेल के साथ <math>a_{ij}</math> प्रारंभ में संकेतित आलेख में संबंधित शब्द कितनी बार प्रकट होता है, इसका <math>\mathrm{tf_{ij}}</math> द्वारा प्रतिनिधित्व करता है। यह मेट्रिक्स सामान्य रूप से बहुत बड़ा और बहुत विरल होता है।


पद-आलेख मेट्रिक्स के निर्माण के बाद, डेटा को स्थित करने के लिए स्थानीय और सार्वभौमिक भारण फलन को उस पर प्रयुक्त किया जा सकता है। वेटिंग फ़ंक्शन (भारण फलन) प्रत्येक सेल को <math>a_{ij}</math> का <math>A</math> मे रूपांतरित करते हैं, एक स्थानीय शब्द भार <math>l_{ij}</math> का गुणनफल होने के लिए, जो किसी आलेख में किसी शब्द <math>g_i</math> की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, जो आलेखो के संपूर्ण संग्रह के अंदर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।
पद-आलेख मेट्रिक्स के निर्माण के बाद, डेटा को स्थित करने के लिए स्थानीय और सार्वभौमिक वेटिंग फ़ंक्शंस को उस पर प्रयुक्त किया जा सकता है। वेटिंग फ़ंक्शन (भारण फलन) प्रत्येक सेल को <math>a_{ij}</math> का <math>A</math> मे रूपांतरित करते हैं, एक स्थानीय शब्द भार <math>l_{ij}</math> का गुणनफल होने के लिए, जो किसी आलेख में किसी शब्द <math>g_i</math> की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, जो आलेखो के संपूर्ण संग्रह के अंदर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।


कुछ सामान्य स्थानीय वेटिंग फ़ंक्शंस<ref>
कुछ सामान्य स्थानीय वेटिंग फ़ंक्शंस<ref>
Line 251: Line 251:
{| style="width:60%" cellpadding="25" cellspacing="5" align="center"
{| style="width:60%" cellpadding="25" cellspacing="5" align="center"
|-
|-
|  style="width:22%" | '''Binary''' ||
|  style="width:22%" | '''बाइनरी'''||
| <math>l_{ij} = 1</math> if the term exists in the document, or else <math>0</math>
| <math>l_{ij} = 1</math> यदि शब्द दस्तावेज़ में सम्मिलित है, या अन्य <math>0</math>
|-
|-
|  style="width:22%" |'''TermFrequency'''
|  style="width:22%" |'''पद आवृत्ति'''
|
|
| <math>l_{ij} = \mathrm{tf}_{ij}</math>, the number of occurrences of term <math>i</math> in document <math>j</math>
| <math>l_{ij} = \mathrm{tf}_{ij}</math>, दस्तावेज़ में <math>i</math> शब्द की घटनाओं की संख्या <math>j</math>
|-
|-
|  style="width:22%" | '''Log''' ||
|  style="width:22%" | '''Log''' ||
| <math>l_{ij} = \log(\mathrm{tf}_{ij} + 1)</math>
| <math>l_{ij} = \log(\mathrm{tf}_{ij} + 1)</math>
|-
|-
|  style="width:22%" | '''Augnorm''' ||
|  style="width:22%" | '''अगनॉर्म''' ||
| <math>l_{ij} = \frac{\Big(\frac{\mathrm{tf}_{ij}}{\max_i(\mathrm{tf}_{ij})}\Big) + 1}{2}</math>
| <math>l_{ij} = \frac{\Big(\frac{\mathrm{tf}_{ij}}{\max_i(\mathrm{tf}_{ij})}\Big) + 1}{2}</math>
|}
|}
कुछ सामान्य सार्वभौमिक भारण फलन को निम्न सारणी में परिभाषित किया गया है।
कुछ सामान्य सार्वभौमिक वेटिंग फ़ंक्शंस को निम्न सारणी में परिभाषित किया गया है।


{| style="width:60%" cellpadding="25" cellspacing="5" align="center"
{| style="width:60%" cellpadding="25" cellspacing="5" align="center"
|-
|-
| style="width:22%" | '''Binary''' ||
| style="width:22%" | '''बाइनरी''' ||
| <math>g_i = 1</math>
| <math>g_i = 1</math>
|-
|-
| style="width:22%" | '''Normal''' ||
| style="width:22%" | '''सामान्य''' ||
| <math>g_i = \frac{1}{\sqrt{\sum_j \mathrm{tf}_{ij}^2}}</math>
| <math>g_i = \frac{1}{\sqrt{\sum_j \mathrm{tf}_{ij}^2}}</math>
|-
|-
| style="width:22%" | '''GfIdf''' ||
| style="width:22%" | '''जी.एफ.आई.डी.एफ''' ||
| <math>g_i = \mathrm{gf}_i / \mathrm{df}_i</math>, where <math>\mathrm{gf}_i</math> is the total number of times term <math>i</math> occurs in the whole collection, and <math>\mathrm{df}_i</math> is the number of documents in which term <math>i</math> occurs.
| <math>g_i = \mathrm{gf}_i / \mathrm{df}_i</math>, जहां <math>\mathrm{gf}_i</math> पूरे संग्रह में पद <math>i</math> की कुल संख्या है, और <math>\mathrm{df}_i</math> दस्तावेजों की संख्या है जिसमें पद <math>i</math> होता है।
|-
|-
| style="width:22%" | '''[[Tf–idf#Inverse document frequency 2|Idf (Inverse Document Frequency)]]''' ||
| style="width:22%" | '''[[Tf–idf#Inverse document frequency 2|आईडीएफ (प्रतिवर्त दस्तावेज़ आवृत्ति)]]''' ||
| <math>g_i = \log_2 \frac{n}{1+ \mathrm{df}_i}</math>
| <math>g_i = \log_2 \frac{n}{1+ \mathrm{df}_i}</math>
|-
|-
| style="width:22%" | '''Entropy''' ||
| style="width:22%" | '''एन्ट्रापी''' ||
| <math>g_i = 1 + \sum_j \frac{p_{ij} \log p_{ij}}{\log n}</math>, where <math>p_{ij} = \frac{\mathrm{tf}_{ij}}{\mathrm{gf}_i}</math>
| <math>g_i = 1 + \sum_j \frac{p_{ij} \log p_{ij}}{\log n}</math>, जहां <math>p_{ij} = \frac{\mathrm{tf}_{ij}}{\mathrm{gf}_i}</math>
|}
|}
अव्यक्त सिमेंटिक इंडेक्सिंग के साथ अनुभवजन्य अध्ययन प्रकाशित करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं।<ref>Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.</ref> दूसरे शब्दों में, प्रत्येक प्रविष्टि <math>a_{ij}</math> का <math>A</math> के रूप में गणना की जाती है:
अव्यक्त सिमेंटिक इंडेक्सिंग के साथ अनुभवजन्य अध्ययन प्रकाशित करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं।<ref>Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.</ref> दूसरे शब्दों में, प्रत्येक प्रविष्टि <math>a_{ij}</math> का <math>A</math> के रूप में गणना की जाती है:
Line 289: Line 289:




=== पद-कम विलक्षण मान अपघटन ===
=== पद-कम अव्युत्क्रमणीय मान अपघटन ===


टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मेट्रिक्स पर एक पद-कम, विलक्षण मान अपघटन किया जाता है। एसवीडी अव्यक्त सिमेंटिक इंडेक्सिंग की नींव रखता है।<ref>Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., [http://delab.csd.auth.gr/~dimitris/courses/ir_spring06/page_rank_computing/01cc99333c00501ddab030.pdf Using Linear Algebra for Intelligent Information Retrieval], December 1994, SIAM Review 37:4 (1995), pp. 573–595.</ref> यह टर्म और डॉक्यूमेंट वेक्टर समष्टि की गणना सिंगल पद आवृत्ती मैट्रिक्स '''A''', को तीन अन्य मेट्रिसेस में करके करता है- और  a '''m''' द्वारा '''r''' पद -संकल्पना वेक्टर मैट्रिक्स T, a '''r''' द्वारा r अव्युत्क्रमणीय मान मैट्रिक्स '''S''', और '''a''' '''n''' द्वारा '''r''' संकल्पना- दस्तावेज़ वेक्टर मैट्रिक्स '''D''', जो निम्नलिखित संबंधों को संतुष्ट करता है:
टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मेट्रिक्स पर एक पद-कम, अव्युत्क्रमणीय मान अपघटन किया जाता है। एसवीडी अव्यक्त सिमेंटिक इंडेक्सिंग की नींव रखता है।<ref>Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., [http://delab.csd.auth.gr/~dimitris/courses/ir_spring06/page_rank_computing/01cc99333c00501ddab030.pdf Using Linear Algebra for Intelligent Information Retrieval], December 1994, SIAM Review 37:4 (1995), pp. 573–595.</ref> यह पद और आलेख वेक्टर समष्टि की गणना एकल पद आवृत्ती मैट्रिक्स '''A''', को तीन अन्य मेट्रिसेस- a '''m''' द्वारा '''r''' पद -संकल्पना वेक्टर मैट्रिक्स T, a '''r''' द्वारा r अव्युत्क्रमणीय मान मैट्रिक्स '''S''', और '''a''' '''n''' द्वारा '''r''' संकल्पना- दस्तावेज़ वेक्टर मैट्रिक्स '''D''' में करके करता है, जो निम्नलिखित संबंधों को संतुष्ट करता है:


<math>A \approx TSD^T</math>
<math>A \approx TSD^T</math>
Line 299: Line 299:
<math>S_{1,1} \geq S_{2,2} \geq \ldots \geq  S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j</math>
<math>S_{1,1} \geq S_{2,2} \geq \ldots \geq  S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j</math>


सूत्र में, B को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मेट्रिक्स द्वारा '''''m''''' द्वारा आपूर्ति की जाती है, जहाँ ''m'' अद्वितीय शब्दों की संख्या है, और '''''n''''' आलेखो की संख्या है। '''T''' शब्द सदिशों के '''''r''''' मेट्रिक्स द्वारा एक संगणित '''''m''''' है, जहाँ '''''r''''' A की कोटि है—इसके अद्वितीय आयामों की एक माप '''≤ min(''m,n'')''' होती है। '''S''' घटते अव्युत्क्रमणीय मानों का '''''r''''' विकर्ण मेट्रिक्स द्वारा परिकलित '''''r''''' है, और '''D''' आलेख सदिश के '''''r''''' मेट्रिक्स द्वारा परिकलित '''''n''''' है।
सूत्र में, B को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मेट्रिक्स द्वारा '''''m''''' द्वारा आपूर्ति की जाती है, जहाँ ''m'' अद्वितीय शब्दों की संख्या है, और '''''n''''' आलेखो की संख्या है। '''T''' शब्द सदिशों के '''''r''''' मेट्रिक्स द्वारा एक संगणित '''''m''''' है, जहाँ '''''r''''' A की कोटि है—इसके अद्वितीय आयामों की एक माप '''≤ min(''m,n'')''' होती है। '''S''' घटते अव्युत्क्रमणीय मानों का '''''r''''' विकर्ण मेट्रिक्स द्वारा परिकलित '''''r''''' है, और '''D''' आलेख वेक्टर के '''''r''''' मेट्रिक्स द्वारा परिकलित '''''n''''' है।


एसवीडी तब विलक्षण मान अपघटन निम्न एसवीडी है जो केवल सबसे बड़े '''''k''''' « '''''r''''' विकर्ण प्रविष्टियों को अव्युत्क्रमणीय मान मेट्रिक्स '''s''' में रखते हुए पद को कम करने के लिए है, जहाँ '''''k''''' सामान्य रूप से 100 से 300 आयामों के क्रम में होता है। यह प्रभावी रूप से शब्द और आलेख सदिश मेट्रिक्स आकार को क्रमशः '''''m''''' द्वारा '''''k''''' और '''''n''''' द्वारा '''''k''''' तक कम कर देता है। एसवीडी संक्रियक, इस कमी के साथ, '''A''' के मूल समष्टि के रव और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को प्रायः एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :
एसवीडी तब अव्युत्क्रमणीय मान अपघटन निम्न एसवीडी है जो केवल सबसे बड़े '''''k''''' « '''''r''''' विकर्ण प्रविष्टियों को अव्युत्क्रमणीय मान मेट्रिक्स '''s''' में रखते हुए पद को कम करने के लिए है, जहाँ '''''k''''' सामान्य रूप से 100 से 300 आयामों के क्रम में होता है। यह प्रभावी रूप से शब्द और आलेख वेक्टर मेट्रिक्स आकार को क्रमशः '''''m''''' द्वारा '''''k''''' और '''''n''''' द्वारा '''''k''''' तक कम कर देता है। एसवीडी संक्रियक, इस कमी के साथ, '''A''' के मूल समष्टि के रव और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को प्रायः एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :


:'''A ≈ A<sub>''k''</sub> = T<sub>''k''</sub> S<sub>''k''</sub> D<sub>''k''</sub><sup>T</sup>'''
:'''A ≈ A<sub>''k''</sub> = T<sub>''k''</sub> S<sub>''k''</sub> D<sub>''k''</sub><sup>T</sup>'''


'''EDI'''T पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल अव्यक्त सिमेंटिक इंडेक्सिंग एल्गोरिदम केवल पहले ''के'' विलक्षण मूल्यों और शब्द और आलेख सदिश की गणना करते हैं।
पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल अव्यक्त सिमेंटिक इंडेक्सिंग एल्गोरिदम केवल पहले ''के'' अव्युत्क्रमणीय मानो और शब्द और आलेख वेक्टर की गणना करते हैं।


ध्यान दें कि यह पद कमी अनिवार्य रूप से मेट्रिक्स पर [[ प्रमुख कंपोनेंट विश्लेषण | प्रमुख कंपोनेंट विश्लेषण]] (पीसीए) करने के समान है, सिवाय इसके कि पीसीए साधनों को घटा देता है। पीसीए मेट्रिक्स की विरलता खो देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।
ध्यान दें कि यह पद कमी अनिवार्य रूप से मेट्रिक्स '''A''' पर [[ प्रमुख कंपोनेंट विश्लेषण |प्रमुख घटक विश्लेषण]] (पीसीए) करने के समान है, इसके अतिरिक्त कि पीसीए साधनों को कम कर देता है। पीसीए '''A''' मेट्रिक्स की विरलता नष्ट कर देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।


== अव्यक्त सिमेंटिक इंडेक्सिंग सदिश रिक्त समष्टि को पूछताछ और बढ़ाना ==
== अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि की जांच और परिवर्धन ==


परिकलित टी<sub>''k''</sub>और डी<sub>''k''</sub>मैट्रिसेस शब्द और आलेख सदिश रिक्त समष्टि को परिभाषित करते हैं, जो कि संगणित अव्युत्क्रमणीय मानों के साथ, S<sub>''k''</sub>, आलेख संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के अंदर शब्दों या आलेखो की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, सामान्य रूप से संबंधित सदिश के बीच कोण के एक समारोह के रूप में गणना की जाती है।
परिकलित '''T<sub>''k''</sub>''' और '''D<sub>''k''</sub>''' मैट्रिसेस शब्द और आलेख वेक्टर समष्टि को परिभाषित करते हैं, जो कि संगणित अव्युत्क्रमणीय मानों के साथ, S<sub>''k''</sub>, आलेख संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के अंदर शब्दों या आलेखो की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, सामान्य रूप से संबंधित वेक्टर के बीच कोण के एक फ़ंक्शन के रूप में गणना की जाती है।


मौजूदा अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स के आलेख समष्टि के अंदर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले सदिश का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। = टी एस डी के एक साधारण परिवर्तन से<sup>T</sup> समतुल्य D = A में समीकरण<sup>टी</sup> टी एस<sup>−1</sup> समीकरण, एक प्रश्न के लिए या एक नए आलेख के लिए एक नया सदिश, ''d'', A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।<sup>-1</sup>. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न सार्वभौमिक पद वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को जांच या नए आलेख में शर्तों पर प्रयुक्त किया जाता है।
सम्मिलित अव्यक्त सिमेंटिक इंडेक्सिंग अनुक्रम के आलेख समष्टि के अंदर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वेक्टर का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। '''A = T S D<sup>T</sup>''' समीकरण के समतुल्य '''D = A<sup>T</sup> T S<sup>−1</sup>''' समीकरण में एक सरल परिवर्तन, एक प्रश्न के लिए या एक नए आलेख के लिए एक नया वेक्टर '''''d''''', '''A''' में एक नए कॉलम की गणना करके और फिर नए कॉलम को '''T S<sup>−1</sup>''' से गुणा करके बनाया जा सकता है। '''A''' में नए कॉलम की गणना मूल रूप से व्युत्पन्न सार्वभौमिक पद भार का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को जांच या नए आलेख में शर्तों पर प्रयुक्त किया जाता है।


नए खोजे जाने योग्य आलेखो को जोड़ते समय इस तरह कंप्यूटिंग सदिश में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के समय अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए सदिश अभी भी अन्य सभी आलेख सदिश के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।
नए खोजे जाने योग्य आलेखो को जोड़ते समय इस तरह कंप्यूटिंग वेक्टर में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के समय अज्ञात शब्दों को उपेक्षित कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वेक्टर अभी भी अन्य सभी आलेख वेक्टर के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।


इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स के लिए आलेख सदिश समष्टि को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन'' कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए टेक्स्ट की नई सिमेंटिक वस्तु के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में आलेख जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें सम्मिलित शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के अंदर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब आलेखो के एक नए सेट की शर्तों और अवधारणाओं को अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स में सम्मिलित करने की आवश्यकता होती है, तो या तो पद-आलेख मेट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) <ref name="brand2006" /> ज़रूरी है।''
इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग के लिए आलेख वेक्टर समष्टि को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन कहा जाता है। हालांकि फ़ोल्डिंग मे प्रक्रिया नए टेक्स्ट की नई सिमेंटिक वस्तु के लिए अधीन नहीं है, इस तरह से पर्याप्त संख्या में आलेख जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें सम्मिलित शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के अंदर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब आलेखो के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में सम्मिलित करने की आवश्यकता होती है, तो या तो पद-आलेख मेट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अपडेट विधि (जैसे कि वर्णित एक) <ref name="brand2006" /> आवश्यक है।


== अव्यक्त सिमेंटिक इंडेक्सिंग == के अतिरिक्त उपयोग
== अव्यक्त सिमेंटिक इंडेक्सिंग के अतिरिक्त उपयोग ==
 
यह सामान्य रूप से स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में अधिकतम विस्तार हुआ है क्योंकि मापनीयता और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।
यह सामान्य रूप से स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।


अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण एप्लीकेशन में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित आलेख वर्गीकरण के लिए किया गया है।<ref>Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.</ref> नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:
अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण एप्लीकेशन में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित आलेख वर्गीकरण के लिए किया गया है।<ref>Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.</ref> नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:


* सूचना खोज<ref>Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.</ref> ([[इलेक्ट्रॉनिक डिस्कवरी]], सरकार/खुफिया समुदाय, प्रकाशन)
* सूचना खोज<ref>Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.</ref> ([[इलेक्ट्रॉनिक डिस्कवरी|इलेक्ट्रॉनिक खोज]], सरकार/इंटेलिजेंस समुदाय, प्रकाशन)
* [[स्वचालित दस्तावेज़ वर्गीकरण|स्वचालित आलेख वर्गीकरण]] (ईडिस्कवरी, सरकार/खुफिया समुदाय, प्रकाशन)<ref>Foltz, P. W. and Dumais, S. T. [http://courses.ischool.utexas.edu/Turnbull_Don/2004/spring/i385q-dt/readings/Foltz_Dumais-1992-Personalized.pdf Personalized Information Delivery:  An analysis of information filtering methods], Communications of the ACM, 1992, 34(12), 51-60.</ref>
* [[स्वचालित दस्तावेज़ वर्गीकरण|स्वचालित आलेख वर्गीकरण]] (ई-खोज, सरकार/इंटेलिजेंस समुदाय, प्रकाशन)<ref>Foltz, P. W. and Dumais, S. T. [http://courses.ischool.utexas.edu/Turnbull_Don/2004/spring/i385q-dt/readings/Foltz_Dumais-1992-Personalized.pdf Personalized Information Delivery:  An analysis of information filtering methods], Communications of the ACM, 1992, 34(12), 51-60.</ref>
* [[स्वचालित सारांश]]<ref>Gong, Y., and Liu, X., [https://ieeexplore.ieee.org/abstract/document/953917/ Creating Generic Text Summaries], Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.</ref> (ई-खोज, प्रकाशन)
* [[स्वचालित सारांश|टेक्स्ट सारांश]]<ref>Gong, Y., and Liu, X., [https://ieeexplore.ieee.org/abstract/document/953917/ Creating Generic Text Summaries], Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.</ref> (ई-खोज, प्रकाशन)
* रिश्ते की खोज<ref>Bradford, R., [https://www.researchgate.net/profile/Fei_Yue_Wang/publication/317002646_Intelligence_and_Security_InformaticsLecture_Notes_in_Computer_Science_LNCS_3495/links/591d7440aca272d31bcd75a5/Intelligence-and-Security-InformaticsLecture-Notes-in-Computer-Science-LNCS-3495.pdf#page=392 Efficient Discovery of New Information in Large Text Databases], Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.</ref> (सरकार, खुफिया समुदाय, सोशल नेटवर्किंग)
* संबंध की खोज<ref>Bradford, R., [https://www.researchgate.net/profile/Fei_Yue_Wang/publication/317002646_Intelligence_and_Security_InformaticsLecture_Notes_in_Computer_Science_LNCS_3495/links/591d7440aca272d31bcd75a5/Intelligence-and-Security-InformaticsLecture-Notes-in-Computer-Science-LNCS-3495.pdf#page=392 Efficient Discovery of New Information in Large Text Databases], Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.</ref> (सरकार, इंटेलिजेंस समुदाय, सोशल नेटवर्किंग)
* व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण<ref>{{cite book | chapter-url=https://link.springer.com/chapter/10.1007/11760146_84 | doi=10.1007/11760146_84 | chapter=Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks | title=खुफिया और सुरक्षा सूचना विज्ञान| series=Lecture Notes in Computer Science | year=2006 | last1=Bradford | first1=R. B. | volume=3975 | pages=674–675 | isbn=978-3-540-34478-0 }}</ref> (सरकार, खुफिया समुदाय)
* व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण<ref>{{cite book | chapter-url=https://link.springer.com/chapter/10.1007/11760146_84 | doi=10.1007/11760146_84 | chapter=Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks | title=खुफिया और सुरक्षा सूचना विज्ञान| series=Lecture Notes in Computer Science | year=2006 | last1=Bradford | first1=R. B. | volume=3975 | pages=674–675 | isbn=978-3-540-34478-0 }}</ref> (सरकार, इंटेलिजेंस समुदाय)
* समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना<ref>Yarowsky, D., and Florian, R., [https://www.aclweb.org/anthology/W99-0627 Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant], Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.</ref> (सरकार)
* समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना<ref>Yarowsky, D., and Florian, R., [https://www.aclweb.org/anthology/W99-0627 Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant], Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.</ref> (सरकार)
* ऑनलाइन ग्राहक सहायता<ref>Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.</ref> (ग्राहक प्रबंधन)
* ऑनलाइन ग्राहक सहायता<ref>Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.</ref> (ग्राहक प्रबंधन)
Line 336: Line 335:
* सॉफ्टवेयर स्रोत कोड को समझना<ref>{{cite book|author1=Maletic, J. |author2=Marcus, A.|title=कार्यक्रम की समझ को समर्थन देने के लिए स्रोत कोड में समानता की पहचान करने के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग करना|journal=Proceedings of 12th IEEE International Conference on Tools with Artificial Intelligence|location=Vancouver, British Columbia|date=November 13–15, 2000|pages= 46–53|doi=10.1109/TAI.2000.889845|isbn=978-0-7695-0909-9|citeseerx=10.1.1.36.6652|s2cid=10354564}}</ref> (सॉफ्टवेयर इंजीनियरिंग)
* सॉफ्टवेयर स्रोत कोड को समझना<ref>{{cite book|author1=Maletic, J. |author2=Marcus, A.|title=कार्यक्रम की समझ को समर्थन देने के लिए स्रोत कोड में समानता की पहचान करने के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग करना|journal=Proceedings of 12th IEEE International Conference on Tools with Artificial Intelligence|location=Vancouver, British Columbia|date=November 13–15, 2000|pages= 46–53|doi=10.1109/TAI.2000.889845|isbn=978-0-7695-0909-9|citeseerx=10.1.1.36.6652|s2cid=10354564}}</ref> (सॉफ्टवेयर इंजीनियरिंग)
* फ़िल्टरिंग [[स्पैम (इलेक्ट्रॉनिक)]]<ref>Gee, K., [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.57.8321&rep=rep1&type=pdf Using Latent Semantic Indexing to Filter Spam], in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.</ref> (तंत्र अध्यक्ष)
* फ़िल्टरिंग [[स्पैम (इलेक्ट्रॉनिक)]]<ref>Gee, K., [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.57.8321&rep=rep1&type=pdf Using Latent Semantic Indexing to Filter Spam], in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.</ref> (तंत्र अध्यक्ष)
* सूचना दृश्य<ref name="landauer2004">Landauer, T., Laham, D., and Derr, M., [https://www.pnas.org/content/pnas/101/suppl_1/5214.full.pdf From Paragraph to Graph: Latent Semantic Analysis for Information Visualization], Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.</ref>
* सूचना दृश्यता<ref name="landauer2004">Landauer, T., Laham, D., and Derr, M., [https://www.pnas.org/content/pnas/101/suppl_1/5214.full.pdf From Paragraph to Graph: Latent Semantic Analysis for Information Visualization], Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.</ref>
* [[स्वचालित निबंध स्कोरिंग]]<ref>Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., [http://www-psych.nmsu.edu/~pfoltz/reprints/Edmedia99.html Automated Essay Scoring: Applications to Educational Technology], Proceedings of EdMedia,  1999.</ref> (शिक्षा)
* [[स्वचालित निबंध स्कोरिंग]]<ref>Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., [http://www-psych.nmsu.edu/~pfoltz/reprints/Edmedia99.html Automated Essay Scoring: Applications to Educational Technology], Proceedings of EdMedia,  1999.</ref> (शिक्षा)
* [[साहित्य आधारित खोज]]<ref>Gordon, M., and Dumais, S., [https://deepblue.lib.umich.edu/bitstream/handle/2027.42/34255/2_ftp.pdf?sequence=1&isAllowed=y Using Latent Semantic Indexing for Literature Based Discovery], Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.</ref>
* [[साहित्य आधारित खोज]]<ref>Gordon, M., and Dumais, S., [https://deepblue.lib.umich.edu/bitstream/handle/2027.42/34255/2_ftp.pdf?sequence=1&isAllowed=y Using Latent Semantic Indexing for Literature Based Discovery], Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.</ref>
* स्टॉक रिटर्न की भविष्यवाणी<ref name="Galvez2017" />* स्वप्न वस्तु विश्लेषण (मनोविज्ञान) <ref name="Altszyler2017" />
* स्टॉक प्रत्यागम की भविष्यवाणी<ref name="Galvez2017" />
*स्वप्न वस्तु विश्लेषण (मनोविज्ञान) <ref name="Altszyler2017" />


उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक आलेख खोज (ईडिस्कवरी) के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 के प्रारंभ में अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर प्रयुक्त किया गया है।<ref>There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.</ref>
उद्यमों को अभियोग के लिए तैयार करने में सहायता करने के लिए इलेक्ट्रॉनिक आलेख खोज (e-खोज) के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का तेजी से उपयोग किया जा रहा है। e-खोज में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 के प्रारंभ में अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करते हुए अवधारणा-आधारित खोज को e-खोज प्रक्रिया पर प्रयुक्त किया गया है।<ref>There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.</ref>


=== अव्यक्त सिमेंटिक इंडेक्सिंग के लिए चुनौतियां ===
अव्यक्त सिमेंटिक इंडेक्सिंग की प्रारम्भिक चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। अव्यक्त सिमेंटिक इंडेक्सिंग को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।<ref>Karypis, G., Han, E., [https://www.researchgate.net/profile/George_Karypis/publication/2437989_Fast_Supervised_Dimensionality_Reduction_Algorithm_with_Applications_to_Document_Categorization_Retrieval/links/549ee9c80cf267bdb8fdb8e1.pdf Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval], Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.</ref> हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार अधितकम सीमा तक दूर हो गए हैं। कुछ अव्यक्त सिमेंटिक इंडेक्सिंग एप्लीकेशन में मेट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक आलेखो वाले वास्तविक विश्व के एप्लीकेशन सामान्य हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (आलेखो की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन मुक्त स्त्रोत [[gensim|एक राष्ट्र के रूप में]] सॉफ्टवेयर पैकेज में निहित है।<ref name="rehurek2011">{{cite book | chapter=Subspace Tracking for Latent Semantic Analysis | author=Radim Řehůřek | title=सूचना पुनर्प्राप्ति में अग्रिम| journal=सूचना पुनर्प्राप्ति में अग्रिम- 33rd European Conference on IR Research, ECIR 2011 | volume=6611 | pages=289–300 | year=2011 | doi=10.1007/978-3-642-20161-5_29 |series=Lecture Notes in Computer Science|isbn=978-3-642-20160-8}}</ref>


== अव्यक्त सिमेंटिक इंडेक्सिंग == के लिए चुनौतियां
अव्यक्त सिमेंटिक इंडेक्सिंग के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिन रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की स्वीकृति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम सामान्य रूप से मध्यम आकार के आलेख संग्रह (सैकड़ों हजारों आलेख) और बड़े आलेख संग्रह (लाखों आलेख) के लिए संभव्यता 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।<ref>Bradford, R., [https://dl.acm.org/citation.cfm?id=1458105 An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications], Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.</ref> हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि आलेख संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।<ref name="landauer2008b">Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.</ref> अव्यक्त सिमेंटिक इंडेक्सिंग के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या [[कारक विश्लेषण]] के समान बनाए गए विचरण के अनुपात की जाँच करना। सिनोनीमी परीक्षण या अज्ञात शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।<ref>Landauer, T. K., Foltz, P. W., & Laham, D. (1998). [https://mimno.infosci.cornell.edu/info6150/readings/dp1.LSAintro.pdf Introduction to Latent Semantic Analysis]. Discourse Processes, 25, 259-284</ref> जब अव्यक्त सिमेंटिक इंडेक्सिंग विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।
 
अव्यक्त सिमेंटिक इंडेक्सिंग की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। अव्यक्त सिमेंटिक इंडेक्सिंग को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।<ref>Karypis, G., Han, E., [https://www.researchgate.net/profile/George_Karypis/publication/2437989_Fast_Supervised_Dimensionality_Reduction_Algorithm_with_Applications_to_Document_Categorization_Retrieval/links/549ee9c80cf267bdb8fdb8e1.pdf Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval], Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.</ref> हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ अव्यक्त सिमेंटिक इंडेक्सिंग एप्लीकेशन में मेट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक आलेखो वाले वास्तविक दुनिया के एप्लीकेशन आम हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (आलेखो की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स [[gensim]] सॉफ्टवेयर पैकेज में निहित है।<ref name="rehurek2011">{{cite book | chapter=Subspace Tracking for Latent Semantic Analysis | author=Radim Řehůřek | title=सूचना पुनर्प्राप्ति में अग्रिम| journal=सूचना पुनर्प्राप्ति में अग्रिम- 33rd European Conference on IR Research, ECIR 2011 | volume=6611 | pages=289–300 | year=2011 | doi=10.1007/978-3-642-20161-5_29 |series=Lecture Notes in Computer Science|isbn=978-3-642-20160-8}}</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम सामान्य रूप से मध्यम आकार के आलेख संग्रह (सैकड़ों हजारों आलेख) और बड़े आलेख संग्रह (लाखों आलेख) के लिए संभव्यता 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।<ref>Bradford, R., [https://dl.acm.org/citation.cfm?id=1458105 An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications], Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.</ref> हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि आलेख संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।<ref name="landauer2008b">Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.</ref> अव्यक्त सिमेंटिक इंडेक्सिंग के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या [[कारक विश्लेषण]] के समान बनाए गए विचरण के अनुपात की जाँच करना। सिनोनीमी परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।<ref>Landauer, T. K., Foltz, P. W., & Laham, D. (1998). [https://mimno.infosci.cornell.edu/info6150/readings/dp1.LSAintro.pdf Introduction to Latent Semantic Analysis]. Discourse Processes, 25, 259-284</ref> जब अव्यक्त सिमेंटिक इंडेक्सिंग विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।


== यह भी देखें ==
== यह भी देखें ==
* [[कोह-मेट्रिक्स]]
* [[कोह-मेट्रिक्स]]
* [[कंपाउंड टर्म प्रोसेसिंग|कंपाउंड पद प्रोसेसिंग]]
* [[कंपाउंड टर्म प्रोसेसिंग|संयुक्त पद प्रोसेसिंग]]
* वितरण सिमेंटिक
* वितरण सिमेंटिक
* [[स्पष्ट शब्दार्थ विश्लेषण|स्पष्ट सिमेंटिक विश्लेषण]]
* [[स्पष्ट शब्दार्थ विश्लेषण|स्पष्ट सिमेंटिक विश्लेषण]]
Line 359: Line 358:
* संभाव्य अव्यक्त सिमेंटिक विश्लेषण
* संभाव्य अव्यक्त सिमेंटिक विश्लेषण
* [[स्पैमडेक्सिंग]]
* [[स्पैमडेक्सिंग]]
* [[शब्द वेक्टर|शब्द सदिश]]
* [[शब्द वेक्टर]]
* [[विषय मॉडल]]
* [[विषय मॉडल]]
** [[अव्यक्त डिरिचलेट आवंटन]]
** [[अव्यक्त डिरिचलेट आवंटन]]
Line 451: Line 450:


=== वार्ता और प्रदर्शन ===
=== वार्ता और प्रदर्शन ===
* [http://videolectures.net/slsfs05_hofmann_lsvm/ LSA अवलोकन], प्रो. [https://www.inf.ethz.ch/department/facademy-profs/person-detail.html?persid=148752 थॉमस हॉफमैन द्वारा बातचीत ] अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
* [http://videolectures.net/slsfs05_hofmann_lsvm/ LSA अवलोकन], प्रो. [https://www.inf.ethz.ch/department/facademy-profs/person-detail.html?persid=148752 थॉमस हॉफमैन द्वारा बातचीत] अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
* [http://www.semanticquery.com/archive/semanticsearchart/researchLSA.html Windows के लिए C# में पूर्ण LSA नमूना कोड]। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, आलेख-पद मेट्रिक्स और एसवीडी बनाना सम्मिलित है।
* [http://www.semanticquery.com/archive/semanticsearchart/researchLSA.html Windows के लिए C# में पूर्ण LSA नमूना कोड]। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, आलेख-पद मेट्रिक्स और एसवीडी बनाना सम्मिलित है।


Line 471: Line 470:
श्रेणी:सिमेंटिक संबंध
श्रेणी:सिमेंटिक संबंध


 
[[Category:All articles with dead external links]]
[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements]]
[[Category:Articles with dead external links from July 2022]]
[[Category:Articles with unsourced statements from July 2015]]
[[Category:CS1 errors]]
[[Category:Collapse templates]]
[[Category:Created On 24/05/2023]]
[[Category:Created On 24/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Navigational boxes| ]]
[[Category:Navigational boxes without horizontal lists]]
[[Category:Pages with script errors]]
[[Category:Sidebars with styles needing conversion]]
[[Category:Template documentation pages|Documentation/doc]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates generating microformats]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that are not mobile friendly]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Webarchive template wayback links]]
[[Category:Wikipedia articles needing clarification from November 2019]]
[[Category:Wikipedia articles needing page number citations from January 2012]]
[[Category:Wikipedia metatemplates]]

Latest revision as of 17:05, 12 June 2023

अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, आलेखो के एक सेट के बीच संबंधों का विश्लेषण करने और आलेखो और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मेट्रिक्स जिसमें प्रति आलेख (डॉक्यूमेंट) रो में शब्द गणना होती है, रो अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक आलेख का प्रतिनिधित्व करते हैं कि प्रत्येक आलेख को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए रो की संख्या को कम करने के लिए किया जाता है। आलेखो की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।[1]

1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।[2]


अवलोकन

आलेख-शब्द मेट्रिक्स में विषय पहचान प्रक्रिया का एनिमेशन प्रत्येक कॉलम एक आलेख से अनुरूप है, प्रत्येक रो एक शब्द से। एक सेल एक आलेख में एक शब्द के भार को संग्रहीत करता है (जैसे शब्द आवृत्ति-प्रतिवर्त आलेख आवृत्ति द्वारा), डार्क सेल उच्च भार का संकेत देते हैं। अव्यक्त सिमेंटिक विश्लेषण दोनों आलेखो को समूहित करता है जिसमें समान शब्द होते हैं, साथ ही ऐसे शब्द भी होते हैं जो आलेखो के समान सेट में होते हैं। परिणामी पैटर्न का उपयोग अव्यक्त घटकों का पता लगाने के लिए किया जाता है।[3]

घटना मेट्रिक्स

अव्यक्त सिमेंटिक विश्लेषण एक आलेख-शब्द मेट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक विरल मेट्रिक्स है जिसकी रो शर्तों के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मेट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (शब्द आवृत्ति-प्रतिवर्त आलेख आवृत्ति) है: मेट्रिक्स के एक तत्व का भार प्रत्येक आलेख में दिखाई देने वाली संख्या के अनुपात मे होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।

यह मेट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मेट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।

श्रेणी निम्नन

घटना मेट्रिक्स (आव्यूह) के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक निम्न-श्रेणी सन्निकटन पाता है।[4] इन अनुमानों के विभिन्न कारण हो सकते हैं:

  • मूल शब्द-आलेख मेट्रिक्स को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस स्थिति में, अनुमानित निम्न पद मेट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक हानि) के रूप में की जाती है।
  • मूल शब्द-आलेख मेट्रिक्स को रव माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक इंस्टैंस को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मेट्रिक्स को रव रहित मेट्रिक्स (मूल से अपेक्षाकृत अधिक मेट्रिक्स) के रूप में व्याख्या किया जाता है।
  • मूल शब्द-आलेख मेट्रिक्स को वास्तविक शब्द-आलेख मेट्रिक्स के सापेक्ष अत्यधिक विरल मेट्रिक्स माना जाता है। अर्थात्, मूल मेट्रिक्स प्रत्येक आलेख में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक आलेख से संबंधित सभी शब्दों में रुचि हो सकती है - सामान्य रूप से सिनोनीमी के कारण बहुत बड़ा सेट होता है।

श्रेणी कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:

{(car), (truck), (flower)} --> {(1.3452 * car + 0.2828 * truck), (flower)}

यह सिनोनीमी की पहचान करने की समस्या को कम करता है, क्योंकि पद कम करने से समान अर्थ वाले शब्दों से जुड़े आयामों को संयुक्त करने की अपेक्षा की जाती है। यह पॉलीसेमी के साथ समस्या को आंशिक रूप से कम करता है, क्योंकि पॉलीसेमी शब्दों के घटक जो सही दिशा में इंगित करते हैं, उन शब्दों के घटकों में जोड़े जाते हैं जो समान अर्थ साझा करते हैं। इसके विपरीत, घटक जो अन्य दिशाओं में इंगित करते हैं, वे या तो सिर्फ अस्वीकृत कर देते हैं, या सबसे विकृत, इच्छित अर्थ के अनुरूप दिशाओं में घटकों से छोटे होते हैं।

व्युत्पत्ति

मान लीजिए एक मेट्रिक्स है, जहां तत्व आलेख j में पद i की घटना का वर्णन करता है। उदाहरण के लिए, यह आवृत्ति हो सकती है। इस तरह दिखेगा:

इस मेट्रिक्स में एक रो एक शब्द के अनुरूप एक वेक्टर होगी, जो प्रत्येक आलेख से अपना संबंध देती है:

इसी तरह, इस मेट्रिक्स में एक कॉलम एक आलेख के अनुरूप एक वेक्टर होगा, जो प्रत्येक शब्द के संबंध को बताता है:

अब बिंदु-गुणनफल दो पद वेक्टर के बीच आलेखो के समुच्चय पर शर्तों के बीच सहसंबंध देता है। मेट्रिक्स-गुणनफल इन सभी बिन्दु-गुणनफल को सम्मिलित करता है। तत्व जो तत्व के बराबर है बिंदु-गुणनफल ()सम्मिलित है। इसी तरह, मेट्रिक्स सभी आलेख वेक्टर के बीच बिन्दु-गुणनफल को सम्मिलित करता है, शर्तों पर उनका सहसंबंध देता है।

अब, रैखिक बीजगणित के सिद्धांत से, का अपघटन सम्मिलित है जैसे कि और लंबकोणीय मेट्रिक्स हैं और एक विकर्ण मेट्रिक्स है। इसे एक अव्युत्क्रमणीय मान अपघटन (एसवीडी) कहा जाता है:

मेट्रिक्स उत्पाद हमें शब्द और आलेख सहसंबंध देते हैं, फिर बन जाते हैं

चूँकि और विकर्ण हैं हम देखते हैं कि के ईजेनसदिश होने चाहिए, जबकि को का आइजनसदिश की गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं, या समान रूप से या समान रूप से गैर-शून्य प्रविष्टियों द्वारा अब अपघटन इस तरह दिखता है:

मान अव्युत्क्रमणीय मान कहलाते हैं, और और बाएँ और दाएँ अव्युत्क्रमणीय वेक्टर है। ध्यान दें कि का एकमात्र भाग जो में योगदान देता है वह रो है। है। मान लीजिए कि इस रो वेक्टर को कहा जाता है। इसी तरह का एकमात्र भाग जो में योगदान देता है, वह कॉलम ये आइजनसदिश नहीं हैं, लेकिन सभी आइजनसदिश पर निर्भर करते हैं।

यह पता चला है कि जब आप सबसे बड़ा अव्युत्क्रमणीय मान चयन करते हैं, और और से उनके संबंधित अव्युत्क्रमणीय वेक्टर, आपको सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ पद k सन्निकटन X मिलता है। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और आलेख वेक्टर को "सिमेंटिक समष्टि" के रूप में देख सकते हैं। रो "पद" वेक्टर फिर प्रविष्टियां इसे निम्न-आयामी समष्टि पर मानचित्रण करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी समष्टि के निम्न-आयामी सन्निकटन हैं। इसी तरह, "आलेख" वेक्टर इस निम्न-आयामी समष्टि में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं

अब आप निम्न कार्य कर सकते हैं:

  • सदिशों और की तुलना करके देखें कि कैसे संबंधित आलेख और विशेष रूप से कोज्या समानता द्वारा निम्न-आयामी समष्टि में हैं
  • वैक्टर और की तुलना करके पदों और की तुलना करना। ध्यान दें कि अब एक कॉलम वेक्टर है।
  • आलेखो और पद वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे -साधनों का उपयोग करके क्लस्टर किया जा सकता है।
  • किसी प्रश्न को देखते हुए, इसे एक लघु आलेख के रूप में देखें, और निम्न-आयामी समष्टि में अपने दस्तावेज़ों से इसकी तुलना करें।

उत्तरार्द्ध करने के लिए, आपको पहले अपनी जांच को निम्न-आयामी समष्टि में अनुवादित करना होगा। यह तब सामान्य है कि आपको उसी परिवर्तन का उपयोग करना चाहिए जिसका उपयोग आप अपने दस्तावेज़ों पर करते हैं:

यहाँ ध्यान दें कि विकर्ण मेट्रिक्स का व्युत्क्रम मेट्रिक्स के अंदर प्रत्येक अशून्य मान को प्रतिवर्त करके पाया जा सकता है।

इसका तात्पर्य है कि यदि आपके पास एक प्रश्न वेक्टर है, आपको स्थानांतरण करना होगा इससे पहले कि आप कम-आयामी समष्टि में आलेख वेक्टर के साथ इसकी तुलना करें। आप छद्म पद वेक्टर के लिए भी ऐसा कर सकते हैं:


एप्लीकेशन

नए निम्न-आयामी समष्टि का सामान्य रूप से उपयोग किया जा सकता है:

  • निम्न-आयामी समष्टि (डेटा क्लस्टरिंग, आलेख वर्गीकरण) में दस्तावेज़ों की तुलना करें।
  • अनुवादित दस्तावेज़ों के आधार समुच्चय (क्रॉस-भाषा जानकारी पुनर्प्राप्ति) का विश्लेषण करने के बाद, सभी भाषाओं में समान आलेख खोजें।
  • शब्दों (सिनोनीमी और पॉलीसेमी) के बीच संबंध खोजें।
  • शर्तों की एक प्रश्न को देखते हुए, इसे निम्न-आयामी समष्टि में अनुवादित करें, और अनुरूप वाले आलेख (सूचना पुनर्प्राप्ति) खोजें।
  • सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच (अर्थात ज्ञान कोष के संदर्भ में) सबसे अच्छी समानता खोजें, उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल है।[5]
  • मशीन अधिगम / टेक्स्ट माइनिंग सिस्टम के फीचर समष्टि का विस्तार करें। [6]
  • टेक्स्ट कोष में शब्द संघ का विश्लेषण करें। [7]

प्राकृतिक भाषा प्रसंस्करण में सिनोनीमी और बहुरूपी मूलभूत समस्याएं हैं:

  • सिनोनीमी वह घटना है जहाँ विभिन्न शब्द समान विचार का वर्णन करते हैं। इस प्रकार, एक खोज इंजन में एक जांच एक प्रासंगिक आलेख को पुनः प्राप्त करने में विफल हो सकती है जिसमें जांच में दिखाई देने वाले शब्द सम्मिलित नहीं हैं। उदाहरण के लिए, डॉक्टरों के लिए एक खोज चिकित्सक शब्द वाले आलेख को वापस नहीं लौटा सकती है, तथापि शब्दों का अर्थ समान हो।
  • अनेकार्थी शब्द वह परिघटना है जहाँ समान शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक आलेखो को पुनः प्राप्त कर सकती है। उदाहरण के लिए, एक वनस्पति विज्ञानी और एक कंप्यूटर वैज्ञानिक जो "ट्री" शब्द की जांच कर रहे हैं, संभवतः आलेखो के विभिन्न सेट की उपेक्षा रखते हैं।

वाणिज्यिक एप्लीकेशन

पेटेंट के लिए पूर्व कला खोजों को करने में सहायता के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग किया गया है।[8]


मानव मेमोरी में एप्लीकेशन

अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव मेमोरी के अध्ययन में प्रचलित रहा है, विशेष रूप से मुक्त स्मरण और मेमोरी खोज के क्षेत्रों में होते है। दो शब्दों की सिमेंटिक समानता (जैसा कि अव्यक्त सिमेंटिक विश्लेषण द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त स्मरण कार्यों में में वापस बुलाने की संभावना है। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को सिमेंटिक निकटता प्रभाव के रूप में जाना जाता है।[9]

जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को स्मरण करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक सिमेंटिक से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची अनुपयुक्त अंतःक्षेप, जैसा कि उन्हें कहा जाने लगा है, स्मरण करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं।[10]

एक अन्य मॉडल, जिसे शब्द संघ स्थान (डब्ल्यूएएस) कहा जाता है, का उपयोग प्रयोगों की एक श्रृंखला से मुक्त संघ डेटा एकत्र करके मेमोरी अध्ययन में भी किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द युग्म के लिए शब्द संबंधितता के संशोधन सम्मिलित हैं।[11]


कार्यान्वयन

अव्युत्क्रमणीय मान अपघटन सामान्य रूप से बड़े मेट्रिक्स विधियों (उदाहरण के लिए, लैंक्ज़ोस विधियों) का उपयोग करके गणना की जाती है, लेकिन एक तंत्रिका नेटवर्क जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए मेमोरी में बड़े पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है।[12] हाल ही में एक तेज़, वृद्धिशील, कम-मेमोरी, बड़ा-मेट्रिक्स अव्युत्क्रमणीय मान अपघटन एल्गोरिथम विकसित किया गया है।[13] मैटलैब और पायथन इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक परिशुद्ध समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए वृद्धि हुई है; इंस्टैंस के लिए, समानांतर ईजेनमान अपघटन करने के लिए एक समानांतर एआरपीएसीके एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए अव्युत्क्रमणीय मान अपघटन संगणना लागत को गति देना संभव है।[14]


सीमाएं

अव्यक्त सिमेंटिक विश्लेषण की कुछ कमियों में सम्मिलित हैं:

  • परिणामी आयामों की व्याख्या करना कठिन हो सकता है। इंस्टैंस के लिए, में
{(car), (truck), (flower)} ↦ {(1.3452 * car + 0.2828 * truck), (flower)}
(1.3452 * car + 0.2828 * truck) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि स्थिति समीप हैं
{(car), (bottle), (flower)} ↦ {(1.3452 * car + 0.2828 * bottle), (flower)}
घटित होगा। इससे ऐसे परिणाम निकलते हैं जिन्हें गणितीय स्तर पर सही अधीन किया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * car + 0.2828 * bottle) घटक को इस तथ्य के कारण उपयुक्त किया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी भाग होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ "सिमेंटिक साझा'' करती हैं अर्थात्, प्रश्नगत भाषा के अंदर, नियुक्त करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।
  • अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (अर्थात, एक शब्द के कई अर्थ) पर प्रग्रहण कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को समान अर्थ के रूप में माना जाता है क्योंकि शब्द को समष्टि में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले आलेख में और कुर्सी निर्माता वाले एक अलग आलेख में कुर्सी की घटना को समान माना जाता है। संग्रह में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए कठिन बना सकता है।[15] हालाँकि, प्रभाव प्रायः कम हो जाता है क्योंकि शब्दों में एक संग्रह में एक शब्द बोध होता है अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है।
  • शब्दों के बैग मॉडल (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्दों के बैग मॉडल (बीओडब्ल्यू) की कुछ सीमाओं को संबोधित करने के लिए, मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ शब्दों के बीच उच्च-क्रम सह-घटनाओं को खोजने के लिए किया जा सकता है।[16]
  • अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से अनुरूप नहीं होता: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और आलेख एक संयुक्त गॉसियन मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉसॉन वितरण देखा गया है। इस प्रकार, एक नया विकल्प संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो एक बहुराष्ट्रीय मॉडल पर आधारित है, जो मानक अव्यक्त सिमेंटिक विश्लेषण की तुलना में अपेक्षाकृत अधिक परिणाम देता है।[17]


वैकल्पिक तरीके

सिमेंटिक हैशिंग

सिमेंटिक हैशिंग में [18] आलेखो को एक तंत्रिका नेटवर्क के माध्यम से मेमोरी एड्रैस पर मानचित्रण किया जाता है ताकि सिमेंटिक के समान आलेख पास के एड्रैस पर स्थित हों। ध्यान लगा के पढ़ना या सीखना अनिवार्य रूप से आलेखो के एक बड़े सेट से प्राप्त शब्द-गणना वेक्टर का एक ग्राफिकल मॉडल बनाता है। जांच आलेख के समान दस्तावेज़ों को केवल उन सभी एड्रैस तक पहुँचने के द्वारा पाया जा सकता है जो जांच आलेख के एड्रैस से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका स्थानीयता संवेदनशील हैशिंग की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ सम्मिलित तरीका है।[clarification needed]

अव्यक्त सिमेंटिक इंडेक्सिंग

अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे अव्युत्क्रमणीय मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और अवधारणाओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। अव्यक्त सिमेंटिक इंडेक्सिंग की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके टेक्स्ट संग्रह की वैचारिक वस्तु को निकालने की इसकी क्षमता है।[19]

अव्यक्त सिमेंटिक इंडेक्सिंग पत्राचार विश्लेषण का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है।[20] 1970 के दशक के प्रारंभ में, आलेखो में शब्द गणना से निर्मित एक आकस्मिक सारणी है।

शब्दार्थ से संबंधित शब्दों को सहसंबंधित करने की क्षमता के कारण "अव्यक्त सिमेंटिक इंडेक्सिंग" कहा जाता है, जो टेक्स्ट के संग्रह में अव्यक्त हैं, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर प्रयुक्त किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को प्रदर्शित करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे सामान्य रूप से संदर्भित किया जाता है। अवधारणा खोज के रूप में अव्यक्त सिमेंटिक इंडेक्सिंग से गुजरने वाले आलेखो के एक सेट के विपरीत प्रश्न, या अवधारणा खोज, ऐसे परिणाम वापस जाएंगे, जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, तथापि परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या पद साझा न करें।

अव्यक्त सिमेंटिक इंडेक्सिंग के लाभ

अव्यक्त सिमेंटिक इंडेक्सिंग मूल्यांकन संशोधनों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में सहायता करता है, बूलियन खोज और वेक्टर समष्टि मॉडल की सबसे समस्याग्रस्त प्रतिबंध में से एक है।[15] आलेखो के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी प्रायः बेमेल का कारण होता है।[21] परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न प्रायः अप्रासंगिक परिणाम वापस करते हैं और प्रासंगिक जानकारी नष्ट कर देते हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित आलेख वर्गीकरण करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि अव्यक्त सिमेंटिक इंडेक्सिंग और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।[22] आलेख वर्गीकरण श्रेणियों की वैचारिक वस्तु की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।[23] अव्यक्त सिमेंटिक इंडेक्सिंग प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग करता है। वर्गीकरण प्रसंस्करण के समय, वर्गीकृत किए जा रहे आलेखो में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) आलेखो को उन अवधारणाओं के बीच समानता के आधार पर निर्दिष्ट की जाती है जो उनमें सम्मिलित होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण आलेखो में होती है।

आलेखो की वैचारिक वस्तु के आधार पर गतिशील क्लस्टरिंग भी अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण आलेखो का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह आलेखो का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के समय यह बहुत उपयोगी है।

क्योंकि यह प्रबलता से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और शब्दसंग्रह के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक वस्तु को प्राप्त करने में सक्षम बनाता है।अव्यक्त सिमेंटिक इंडेक्सिंग क्रॉस-भाषाई अवधारणा खोज और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम वापस किए जाएंगे, तथापि वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।[citation needed]

अव्यक्त सिमेंटिक इंडेक्सिंग केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह यादृच्छिक वर्ण स्ट्रिंग भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन एब्सट्रेक्ट के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और एब्सट्रेक्ट में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर अव्यक्त सिमेंटिक इंडेक्सिंग जीन को प्रभावी रूप से वर्गीकृत करने में सक्षम है।[24]

अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और रव के प्रति बहुत सहिष्णु दिखाया गया है अर्थात, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि सम्मिलित है।[25] ऑप्टिकल वर्ण पहचान (ओसीआर) और वाक से-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले एप्लीकेशन के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी रूप से निर्धारित है।

अव्यक्त सिमेंटिक इंडेक्सिंग के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, मुक्त रूप टिप्पणी, ईमेल, वेब-आधारित वस्तु आदि के साथ काम कर सकता है।

अव्यक्त सिमेंटिक इंडेक्सिंग कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान प्रमाणित हुआ है।[26][27] तकनीक को कारण, लक्ष्य-उन्मुख और वर्गिकीय समूह जानकारी सहित प्रमुख संबंध जानकारी को प्रग्रहण करने के लिए दिखाया गया है।[28]


अव्यक्त सिमेंटिक इंडेक्सिंग समयरेखा

  • 1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और (एच. बोरको और एम. बर्निक) परीक्षण किया गया
  • 1988 - अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक पर सेमिनल पत्र प्रकाशित किया।[19]
  • 1989 - मूल पेटेंट प्रदान किया गया [19]
  • 1992 - समीक्षकों को लेख सौंपने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग था।[29]
  • 1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (लैंडौएर एट अल) के क्रॉस-भाषी एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
  • 1995 - निबंधों की ग्रेडिंग के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.) किया गया था
  • 1999 - असंरचित टेक्स्ट के विश्लेषण के लिए इंटेलिजेंस समुदाय के लिए अव्यक्त सिमेंटिक इंडेक्सिंग तकनीक का पहला कार्यान्वयन (विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम) किया गया था।
  • 2002 - इंटेलिजेंस-आधारित सरकारी संस्था (एसएआईसी) को अव्यक्त सिमेंटिक इंडेक्सिंग-आधारित उत्पाद की पेशकश थी

अव्यक्त सिमेंटिक इंडेक्सिंग का गणित

टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य रूप से, प्रक्रिया में भारित शब्द-आलेख मेट्रिक्स का निर्माण करना, मेट्रिक्स पर एक अव्युत्क्रमणीय मान अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मेट्रिक्स का उपयोग करना सम्मिलित है।

पद-आलेख मेट्रिक्स

अव्यक्त सिमेंटिक इंडेक्सिंग पद-आलेख मेट्रिक्स, के निर्माण से प्रारंभ होता है जिसकी घटनाओं की पहचान करने के लिए के संग्रह के अंदर अद्वितीय शब्द आलेख है। एक शब्द-आलेख मेट्रिक्स में, प्रत्येक पद को एक रो द्वारा दर्शाया जाता है, और प्रत्येक आलेख को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मेट्रिक्स सेल के साथ प्रारंभ में संकेतित आलेख में संबंधित शब्द कितनी बार प्रकट होता है, इसका द्वारा प्रतिनिधित्व करता है। यह मेट्रिक्स सामान्य रूप से बहुत बड़ा और बहुत विरल होता है।

पद-आलेख मेट्रिक्स के निर्माण के बाद, डेटा को स्थित करने के लिए स्थानीय और सार्वभौमिक वेटिंग फ़ंक्शंस को उस पर प्रयुक्त किया जा सकता है। वेटिंग फ़ंक्शन (भारण फलन) प्रत्येक सेल को का मे रूपांतरित करते हैं, एक स्थानीय शब्द भार का गुणनफल होने के लिए, जो किसी आलेख में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, जो आलेखो के संपूर्ण संग्रह के अंदर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।

कुछ सामान्य स्थानीय वेटिंग फ़ंक्शंस[30] को निम्न सारणी में परिभाषित किया गया है।

बाइनरी यदि शब्द दस्तावेज़ में सम्मिलित है, या अन्य
पद आवृत्ति , दस्तावेज़ में शब्द की घटनाओं की संख्या
Log
अगनॉर्म

कुछ सामान्य सार्वभौमिक वेटिंग फ़ंक्शंस को निम्न सारणी में परिभाषित किया गया है।

बाइनरी
सामान्य
जी.एफ.आई.डी.एफ , जहां पूरे संग्रह में पद की कुल संख्या है, और दस्तावेजों की संख्या है जिसमें पद होता है।
आईडीएफ (प्रतिवर्त दस्तावेज़ आवृत्ति)
एन्ट्रापी , जहां

अव्यक्त सिमेंटिक इंडेक्सिंग के साथ अनुभवजन्य अध्ययन प्रकाशित करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं।[31] दूसरे शब्दों में, प्रत्येक प्रविष्टि का के रूप में गणना की जाती है:


पद-कम अव्युत्क्रमणीय मान अपघटन

टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मेट्रिक्स पर एक पद-कम, अव्युत्क्रमणीय मान अपघटन किया जाता है। एसवीडी अव्यक्त सिमेंटिक इंडेक्सिंग की नींव रखता है।[32] यह पद और आलेख वेक्टर समष्टि की गणना एकल पद आवृत्ती मैट्रिक्स A, को तीन अन्य मेट्रिसेस- a m द्वारा r पद -संकल्पना वेक्टर मैट्रिक्स T, a r द्वारा r अव्युत्क्रमणीय मान मैट्रिक्स S, और a n द्वारा r संकल्पना- दस्तावेज़ वेक्टर मैट्रिक्स D में करके करता है, जो निम्नलिखित संबंधों को संतुष्ट करता है:

सूत्र में, B को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मेट्रिक्स द्वारा m द्वारा आपूर्ति की जाती है, जहाँ m अद्वितीय शब्दों की संख्या है, और n आलेखो की संख्या है। T शब्द सदिशों के r मेट्रिक्स द्वारा एक संगणित m है, जहाँ r A की कोटि है—इसके अद्वितीय आयामों की एक माप ≤ min(m,n) होती है। S घटते अव्युत्क्रमणीय मानों का r विकर्ण मेट्रिक्स द्वारा परिकलित r है, और D आलेख वेक्टर के r मेट्रिक्स द्वारा परिकलित n है।

एसवीडी तब अव्युत्क्रमणीय मान अपघटन निम्न एसवीडी है जो केवल सबसे बड़े k « r विकर्ण प्रविष्टियों को अव्युत्क्रमणीय मान मेट्रिक्स s में रखते हुए पद को कम करने के लिए है, जहाँ k सामान्य रूप से 100 से 300 आयामों के क्रम में होता है। यह प्रभावी रूप से शब्द और आलेख वेक्टर मेट्रिक्स आकार को क्रमशः m द्वारा k और n द्वारा k तक कम कर देता है। एसवीडी संक्रियक, इस कमी के साथ, A के मूल समष्टि के रव और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को प्रायः एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :

A ≈ Ak = Tk Sk DkT

पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल अव्यक्त सिमेंटिक इंडेक्सिंग एल्गोरिदम केवल पहले के अव्युत्क्रमणीय मानो और शब्द और आलेख वेक्टर की गणना करते हैं।

ध्यान दें कि यह पद कमी अनिवार्य रूप से मेट्रिक्स A पर प्रमुख घटक विश्लेषण (पीसीए) करने के समान है, इसके अतिरिक्त कि पीसीए साधनों को कम कर देता है। पीसीए A मेट्रिक्स की विरलता नष्ट कर देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।

अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर समष्टि की जांच और परिवर्धन

परिकलित Tk और Dk मैट्रिसेस शब्द और आलेख वेक्टर समष्टि को परिभाषित करते हैं, जो कि संगणित अव्युत्क्रमणीय मानों के साथ, Sk, आलेख संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के अंदर शब्दों या आलेखो की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, सामान्य रूप से संबंधित वेक्टर के बीच कोण के एक फ़ंक्शन के रूप में गणना की जाती है।

सम्मिलित अव्यक्त सिमेंटिक इंडेक्सिंग अनुक्रम के आलेख समष्टि के अंदर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वेक्टर का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। A = T S DT समीकरण के समतुल्य D = AT T S−1 समीकरण में एक सरल परिवर्तन, एक प्रश्न के लिए या एक नए आलेख के लिए एक नया वेक्टर d, A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S−1 से गुणा करके बनाया जा सकता है। A में नए कॉलम की गणना मूल रूप से व्युत्पन्न सार्वभौमिक पद भार का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को जांच या नए आलेख में शर्तों पर प्रयुक्त किया जाता है।

नए खोजे जाने योग्य आलेखो को जोड़ते समय इस तरह कंप्यूटिंग वेक्टर में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के समय अज्ञात शब्दों को उपेक्षित कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वेक्टर अभी भी अन्य सभी आलेख वेक्टर के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।

इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग के लिए आलेख वेक्टर समष्टि को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन कहा जाता है। हालांकि फ़ोल्डिंग मे प्रक्रिया नए टेक्स्ट की नई सिमेंटिक वस्तु के लिए अधीन नहीं है, इस तरह से पर्याप्त संख्या में आलेख जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें सम्मिलित शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के अंदर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब आलेखो के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में सम्मिलित करने की आवश्यकता होती है, तो या तो पद-आलेख मेट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अपडेट विधि (जैसे कि वर्णित एक) [13] आवश्यक है।

अव्यक्त सिमेंटिक इंडेक्सिंग के अतिरिक्त उपयोग

यह सामान्य रूप से स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में अधिकतम विस्तार हुआ है क्योंकि मापनीयता और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण एप्लीकेशन में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित आलेख वर्गीकरण के लिए किया गया है।[33] नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:

  • सूचना खोज[34] (इलेक्ट्रॉनिक खोज, सरकार/इंटेलिजेंस समुदाय, प्रकाशन)
  • स्वचालित आलेख वर्गीकरण (ई-खोज, सरकार/इंटेलिजेंस समुदाय, प्रकाशन)[35]
  • टेक्स्ट सारांश[36] (ई-खोज, प्रकाशन)
  • संबंध की खोज[37] (सरकार, इंटेलिजेंस समुदाय, सोशल नेटवर्किंग)
  • व्यक्तियों और संगठनों के लिंक चार्ट का स्वत: निर्माण[38] (सरकार, इंटेलिजेंस समुदाय)
  • समीक्षकों के साथ तकनीकी पत्रों और अनुदानों का मिलान करना[39] (सरकार)
  • ऑनलाइन ग्राहक सहायता[40] (ग्राहक प्रबंधन)
  • आलेख ग्रन्थकारिता का निर्धारण[41] (शिक्षा)
  • छवियों का स्वचालित कीवर्ड एनोटेशन[42]
  • सॉफ्टवेयर स्रोत कोड को समझना[43] (सॉफ्टवेयर इंजीनियरिंग)
  • फ़िल्टरिंग स्पैम (इलेक्ट्रॉनिक)[44] (तंत्र अध्यक्ष)
  • सूचना दृश्यता[45]
  • स्वचालित निबंध स्कोरिंग[46] (शिक्षा)
  • साहित्य आधारित खोज[47]
  • स्टॉक प्रत्यागम की भविष्यवाणी[6]
  • स्वप्न वस्तु विश्लेषण (मनोविज्ञान) [7]

उद्यमों को अभियोग के लिए तैयार करने में सहायता करने के लिए इलेक्ट्रॉनिक आलेख खोज (e-खोज) के लिए अव्यक्त सिमेंटिक इंडेक्सिंग का तेजी से उपयोग किया जा रहा है। e-खोज में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 के प्रारंभ में अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग करते हुए अवधारणा-आधारित खोज को e-खोज प्रक्रिया पर प्रयुक्त किया गया है।[48]

अव्यक्त सिमेंटिक इंडेक्सिंग के लिए चुनौतियां

अव्यक्त सिमेंटिक इंडेक्सिंग की प्रारम्भिक चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। अव्यक्त सिमेंटिक इंडेक्सिंग को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।[49] हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार अधितकम सीमा तक दूर हो गए हैं। कुछ अव्यक्त सिमेंटिक इंडेक्सिंग एप्लीकेशन में मेट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक आलेखो वाले वास्तविक विश्व के एप्लीकेशन सामान्य हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (आलेखो की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन मुक्त स्त्रोत एक राष्ट्र के रूप में सॉफ्टवेयर पैकेज में निहित है।[50]

अव्यक्त सिमेंटिक इंडेक्सिंग के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिन रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की स्वीकृति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम सामान्य रूप से मध्यम आकार के आलेख संग्रह (सैकड़ों हजारों आलेख) और बड़े आलेख संग्रह (लाखों आलेख) के लिए संभव्यता 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।[51] हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि आलेख संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।[52] अव्यक्त सिमेंटिक इंडेक्सिंग के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या कारक विश्लेषण के समान बनाए गए विचरण के अनुपात की जाँच करना। सिनोनीमी परीक्षण या अज्ञात शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।[53] जब अव्यक्त सिमेंटिक इंडेक्सिंग विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।

यह भी देखें

संदर्भ

  1. Susan T. Dumais (2005). "अव्यक्त शब्दार्थ विश्लेषण". Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.
  2. "The Latent Semantic Indexing home page".
  3. http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ISBN 978-1-4471-2226-5[page needed]
  5. Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "एलएसए बहुविकल्पीय प्रश्नों के उत्तर देने वाले मॉडल पर ट्यून किए गए मापदंडों का प्रभाव" (PDF). Behavior Research Methods. 41 (4): 1201–1209. arXiv:0811.0146. doi:10.3758/BRM.41.4.1201. PMID 19897829. S2CID 480826.
  6. 6.0 6.1 Ramiro H. Gálvez; Agustín Gravano (2017). "स्वचालित स्टॉक भविष्यवाणी प्रणाली में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  7. 7.0 7.1 Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
  8. Gerry J. Elman (October 2007). "स्वचालित पेटेंट परीक्षा समर्थन - एक प्रस्ताव". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896.
  9. Marc W. Howard; Michael J. Kahana (1999). "फ्री रिकॉल में प्रासंगिक परिवर्तनशीलता और सीरियल स्थिति प्रभाव" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  10. Franklin M. Zaromb; et al. (2006). फ्री रिकॉल में टेम्पोरल एसोसिएशन और प्रायर-लिस्ट घुसपैठ (PDF). Interspeech'2005.
  11. Nelson, Douglas. "यूनिवर्सिटी ऑफ साउथ फ्लोरिडा वर्ड एसोसिएशन, राइम एंड वर्ड फ्रैगमेंट नॉर्म्स". Retrieved May 8, 2011.
  12. Geneviève Gorrell; Brandyn Webb (2005). "अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम" (PDF). Interspeech'2005. Archived from the original (PDF) on 2008-12-21.
  13. 13.0 13.1 Matthew Brand (2006). "थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन" (PDF). Linear Algebra and Its Applications. 415: 20–30. doi:10.1016/j.laa.2005.07.021.
  14. Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन. pp. 739–741. doi:10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID 15281129. {{cite book}}: |journal= ignored (help)
  15. 15.0 15.1 Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण". Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.108.8490. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  16. Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 November 2014). "ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. PMC 4252998. PMID 25428570.
  17. Thomas Hofmann (1999). "संभाव्य अव्यक्त शब्दार्थ विश्लेषण". Uncertainty in Artificial Intelligence. arXiv:1301.6705.
  18. Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.
  19. 19.0 19.1 19.2 Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.
  20. Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
  21. Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "मानव-प्रणाली संचार में शब्दावली समस्या". Communications of the ACM. 30 (11): 964–971. CiteSeerX 10.1.1.118.4768. doi:10.1145/32206.32212. S2CID 3002280.
  22. Landauer, T., et al., Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report, M. I. Jordan, M. J. Kearns & S. A. Solla (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.
  23. Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. pp. 148. CiteSeerX 10.1.1.80.8909. doi:10.1145/288627.288651. ISBN 978-1581130614. S2CID 617436.
  24. Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग". Bioinformatics. 21 (1): 104–115. doi:10.1093/bioinformatics/bth464. PMID 15308538.
  25. Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". खुफिया और सुरक्षा सूचना विज्ञान. Lecture Notes in Computer Science. Vol. 3495. p. 602. doi:10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.
  27. Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling[dead link], Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.
  28. Graesser, A.; Karnavat, A. (2000). "अव्यक्त शब्दार्थ विश्लेषण कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक संरचनाओं को पकड़ता है". Proceedings of CogSci 2000: 184–189. CiteSeerX 10.1.1.23.5444.
  29. Dumais, S.; Nielsen, J. (1992). समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना. pp. 233–244. CiteSeerX 10.1.1.16.9793. doi:10.1145/133160.133205. ISBN 978-0897915236. S2CID 15038631. {{cite book}}: |journal= ignored (help)
  30. Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).
  31. Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.
  32. Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval, December 1994, SIAM Review 37:4 (1995), pp. 573–595.
  33. Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.
  34. Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.
  35. Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.
  36. Gong, Y., and Liu, X., Creating Generic Text Summaries, Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.
  37. Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.
  38. Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". खुफिया और सुरक्षा सूचना विज्ञान. Lecture Notes in Computer Science. Vol. 3975. pp. 674–675. doi:10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant, Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.
  40. Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.
  41. Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.
  42. Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models, Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.
  43. Maletic, J.; Marcus, A. (November 13–15, 2000). कार्यक्रम की समझ को समर्थन देने के लिए स्रोत कोड में समानता की पहचान करने के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग करना. pp. 46–53. CiteSeerX 10.1.1.36.6652. doi:10.1109/TAI.2000.889845. ISBN 978-0-7695-0909-9. S2CID 10354564. {{cite book}}: |journal= ignored (help)CS1 maint: location missing publisher (link)
  44. Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
  45. Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization, Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
  46. Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
  47. Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery, Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.
  48. There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.
  49. Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.
  50. Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". सूचना पुनर्प्राप्ति में अग्रिम. pp. 289–300. doi:10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8. {{cite book}}: |journal= ignored (help)
  51. Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications, Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.
  52. Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.
  53. Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284


अग्रिम पठन


बाहरी संबंध

अव्यक्त सिमेंटिक विश्लेषण पर लेख

  • Latent Semantic Analysis, अव्यक्त सिमेंटिक विश्लेषण पर एक स्कॉलरपीडिया लेख, जिसे अव्यक्त सिमेंटिक विश्लेषण के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।

वार्ता और प्रदर्शन

  • LSA अवलोकन, प्रो. थॉमस हॉफमैन द्वारा बातचीत अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
  • Windows के लिए C# में पूर्ण LSA नमूना कोड। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, आलेख-पद मेट्रिक्स और एसवीडी बनाना सम्मिलित है।

कार्यान्वयन

सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन एप्लीकेशन के कारण, अव्यक्त सिमेंटिक विश्लेषण को कई अलग-अलग प्रकार के एप्लीकेशन का समर्थन करने के लिए प्रयुक्त किया गया है।

  • सेंस क्लस्टर्स, अव्यक्त सिमेंटिक विश्लेषण का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
  • एस-समष्टि पैकेज, अव्यक्त सिमेंटिक विश्लेषण का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
  • सिमेंटिक वेक्टर्स Lucene पद-आलेख मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग प्रयुक्त करता है
  • Infomap Project, LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
  • Text to Matrix Generator, टेक्स्ट संग्रह से शब्द-आलेख मेट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
  • Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन सम्मिलित है।

श्रेणी:सूचना पुनर्प्राप्ति तकनीकें श्रेणी:प्राकृतिक भाषा संसाधन श्रेणी:अव्यक्त चर मॉडल श्रेणी:सिमेंटिक संबंध