अव्यक्त शब्दार्थ विश्लेषण: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Technique in natural language processing}} {{Cleanup bare URLs|date=August 2022}} {{semantics}} अव्यक्त सिमेंटिक विश्...")
 
No edit summary
Line 1: Line 1:
{{short description|Technique in natural language processing}}
{{short description|Technique in natural language processing}}
{{Cleanup bare URLs|date=August 2022}}
{{semantics}}
{{semantics}}
अव्यक्त सिमेंटिक विश्लेषण (एलएसए) [[प्राकृतिक भाषा प्रसंस्करण]] में एक तकनीक है, विशेष रूप से वितरण शब्दार्थ में, दस्तावेजों के एक सेट के बीच संबंधों का विश्लेषण करने और दस्तावेजों और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। एलएसए मानता है कि शब्द जो अर्थ में करीब हैं, पाठ के समान टुकड़ों (वितरण संबंधी शब्दार्थ) में घटित होंगे। एक मैट्रिक्स जिसमें प्रति दस्तावेज़ शब्द गणना होती है (पंक्तियाँ अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक दस्तावेज़ का प्रतिनिधित्व करते हैं) पाठ के एक बड़े टुकड़े से निर्मित होता है और एक गणितीय तकनीक जिसे एकवचन मूल्य अपघटन (एसवीडी) कहा जाता है, का उपयोग समानता संरचना को संरक्षित करते हुए पंक्तियों की संख्या को कम करने के लिए किया जाता है। स्तंभों के बीच। दस्तावेजों की तुलना किन्हीं भी दो स्तंभों के बीच [[कोसाइन समानता]] द्वारा की जाती है। 1 के करीब के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के करीब के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।<ref>{{cite journal | title=अव्यक्त शब्दार्थ विश्लेषण| author=Susan T. Dumais |year=2005 | doi=10.1002/aris.1440380105 | journal=Annual Review of Information Science and Technology | volume=38 | pages=188–230}}</ref>
अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, दस्तावेजों के एक सेट के बीच संबंधों का विश्लेषण करने और दस्तावेजों और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मैट्रिक्स जिसमें प्रति दस्तावेज़ पंक्तियों में शब्द गणना होती है, पंक्तियाँ अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक दस्तावेज़ का प्रतिनिधित्व करते हैं कि प्रत्येक दस्तावेज़ को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे विलक्षण मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए पंक्तियों की संख्या को कम करने के लिए किया जाता है। दस्तावेजों की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।<ref>{{cite journal | title=अव्यक्त शब्दार्थ विश्लेषण| author=Susan T. Dumais |year=2005 | doi=10.1002/aris.1440380105 | journal=Annual Review of Information Science and Technology | volume=38 | pages=188–230}}</ref>
1988 में अव्यक्त सिमेंटिक संरचना का उपयोग कर एक सूचना पुनर्प्राप्ति तकनीक का पेटेंट कराया गया था ([http://patft.uspto.gov/netacgi/nph-Parser?patentnumber=4839853 US पेटेंट 4,839,853], अब समाप्त हो गया है) [[स्कॉट डियरवेस्टर]], [[सुसान डुमिस]], [[जॉर्ज फर्नेस]] द्वारा , [[रिचर्ड हर्षमैन]], [[थॉमस लैंडौएर]], [[करें लोचबाउम]] और [[लिन स्ट्रीटर]]। सूचना पुनर्प्राप्ति के लिए इसके अनुप्रयोग के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (LSI) कहा जाता है।<ref>{{cite web | url=http://lsa.colorado.edu/ | title=The Latent Semantic Indexing home page}}</ref>
 
1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।<ref>{{cite web | url=http://lsa.colorado.edu/ | title=The Latent Semantic Indexing home page}}</ref>
 




== सिंहावलोकन ==
== सिंहावलोकन ==


[[File:Topic model scheme.webm|thumb|600px|thumbसमय=24|प्रारंभ=1|अंत=24|दस्तावेज़-शब्द मैट्रिक्स में विषय पहचान प्रक्रिया का एनिमेशन। प्रत्येक स्तंभ एक दस्तावेज़ से मेल खाता है, प्रत्येक पंक्ति एक शब्द से। एक सेल एक दस्तावेज़ में एक शब्द के भार को संग्रहीत करता है (जैसे [[tf-idf]] द्वारा), डार्क सेल उच्च भार का संकेत देते हैं। एलएसए दोनों दस्तावेजों को समूहित करता है जिसमें समान शब्द होते हैं, साथ ही ऐसे शब्द भी होते हैं जो दस्तावेजों के समान सेट में होते हैं। परिणामी पैटर्न का उपयोग अव्यक्त घटकों का पता लगाने के लिए किया जाता है।<ref>http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html</ref>]]
[[File:Topic model scheme.webm|thumb|600px|दस्तावेज़-शब्द मैट्रिक्स में विषय पहचान प्रक्रिया का एनिमेशन। प्रत्येक कॉलम एक दस्तावेज़ से मेल खाता है, प्रत्येक पंक्ति एक शब्द से। एक सेल एक दस्तावेज़ में एक शब्द के भार को संग्रहीत करता है (जैसे शब्द आवृत्ति-प्रतिवर्त दस्तावेज़ आवृत्ति द्वारा), डार्क सेल उच्च भार का संकेत देते हैं। अव्यक्त सिमेंटिक विश्लेषण दोनों दस्तावेजों को समूहित करता है जिसमें समान शब्द होते हैं, साथ ही ऐसे शब्द भी होते हैं जो दस्तावेजों के समान सेट में होते हैं। परिणामी पैटर्न का उपयोग अव्यक्त घटकों का पता लगाने के लिए किया जाता है।<ref>http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html</ref>]]


=== घटना मैट्रिक्स ===
=== घटना मैट्रिक्स ===
एलएसए एक दस्तावेज़-शब्द मैट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक [[विरल मैट्रिक्स]] है जिसकी पंक्तियाँ [[शब्दावली]] के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मैट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (टर्म फ़्रीक्वेंसी-इनवर्स डॉक्यूमेंट फ़्रीक्वेंसी) है: मैट्रिक्स के एक तत्व का वजन प्रत्येक दस्तावेज़ में दिखाई देने वाली संख्या के अनुपात में होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।
अव्यक्त सिमेंटिक विश्लेषण एक दस्तावेज़-शब्द मैट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक [[विरल मैट्रिक्स]] है जिसकी पंक्तियाँ [[शब्दावली|शर्तों]] के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मैट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (शब्द आवृत्ति-प्रतिवर्त दस्तावेज़ आवृत्ति) है: मैट्रिक्स के एक तत्व का भार प्रत्येक दस्तावेज़ में दिखाई देने वाली संख्या के अनुपात में होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।


यह मैट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मैट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का हमेशा उपयोग नहीं किया जाता है।
यह मैट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मैट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।


=== रैंक कम करना ===
=== रैंक कम करना ===
घटना मैट्रिक्स के निर्माण के बाद, एलएसए एक [[निम्न-श्रेणी सन्निकटन]] पाता है<ref>Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, {{ISBN|978-1-4471-2226-5}} {{page needed|date=January 2012}}</ref> टर्म-डॉक्यूमेंट मैट्रिक्स के लिए। इन अनुमानों के विभिन्न कारण हो सकते हैं:
घटना मैट्रिक्स के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक [[निम्न-श्रेणी सन्निकटन]] पाता है<ref>Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, {{ISBN|978-1-4471-2226-5}} {{page needed|date=January 2012}}</ref> टर्म-डॉक्यूमेंट मैट्रिक्स के लिए। इन अनुमानों के विभिन्न कारण हो सकते हैं:


* मूल [[शब्द-दस्तावेज़ मैट्रिक्स]] को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस मामले में, अनुमानित निम्न रैंक मैट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक बुराई) के रूप में की जाती है।
* मूल [[शब्द-दस्तावेज़ मैट्रिक्स]] को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस मामले में, अनुमानित निम्न रैंक मैट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक बुराई) के रूप में की जाती है।
Line 145: Line 146:




== अनुप्रयोग ==
== एप्लीकेशन ==


नए निम्न-आयामी स्थान का आमतौर पर उपयोग किया जा सकता है:
नए निम्न-आयामी स्थान का आमतौर पर उपयोग किया जा सकता है:
Line 159: Line 160:
* अनेकार्थी शब्द वह परिघटना है जहाँ एक ही शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक दस्तावेजों को पुनः प्राप्त कर सकती है। उदाहरण के लिए, पेड़ शब्द की तलाश में एक वनस्पतिशास्त्री और एक कंप्यूटर वैज्ञानिक शायद दस्तावेज़ों के अलग-अलग सेट चाहते हैं।
* अनेकार्थी शब्द वह परिघटना है जहाँ एक ही शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक दस्तावेजों को पुनः प्राप्त कर सकती है। उदाहरण के लिए, पेड़ शब्द की तलाश में एक वनस्पतिशास्त्री और एक कंप्यूटर वैज्ञानिक शायद दस्तावेज़ों के अलग-अलग सेट चाहते हैं।


=== वाणिज्यिक अनुप्रयोग ===
=== वाणिज्यिक एप्लीकेशन ===


[[पेटेंट]] के लिए [[पूर्व कला]] खोजों को करने में सहायता के लिए एलएसए का उपयोग किया गया है।<ref name="Gerry2007">{{Cite journal | author=Gerry J. Elman | title=स्वचालित पेटेंट परीक्षा समर्थन - एक प्रस्ताव| journal=Biotechnology Law Report | date=October 2007 | doi=10.1089/blr.2007.9896 | volume=26 | issue=5 | pages=435–436 }}</ref>
[[पेटेंट]] के लिए [[पूर्व कला]] खोजों को करने में सहायता के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग किया गया है।<ref name="Gerry2007">{{Cite journal | author=Gerry J. Elman | title=स्वचालित पेटेंट परीक्षा समर्थन - एक प्रस्ताव| journal=Biotechnology Law Report | date=October 2007 | doi=10.1089/blr.2007.9896 | volume=26 | issue=5 | pages=435–436 }}</ref>




=== मानव स्मृति में अनुप्रयोग ===
=== मानव स्मृति में एप्लीकेशन ===


अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव स्मृति के अध्ययन में प्रचलित रहा है, विशेष रूप से [[मुक्त स्मरण]] और स्मृति खोज के क्षेत्रों में। दो शब्दों की शब्दार्थ समानता (जैसा कि एलएसए द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त रिकॉल कार्यों में वापस बुलाया जाएगा। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को [[सिमेंटिक निकटता प्रभाव]] के रूप में जाना जाता है।<ref>{{cite journal | url=http://psycnet.apa.org/journals/xlm/25/4/923.pdf | title=फ्री रिकॉल में प्रासंगिक परिवर्तनशीलता और सीरियल स्थिति प्रभाव|author1=Marc W. Howard |author2=Michael J. Kahana |year=1999}}</ref>
अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव स्मृति के अध्ययन में प्रचलित रहा है, विशेष रूप से [[मुक्त स्मरण]] और स्मृति खोज के क्षेत्रों में। दो शब्दों की सिमेंटिक समानता (जैसा कि अव्यक्त सिमेंटिक विश्लेषण द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त रिकॉल कार्यों में वापस बुलाया जाएगा। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को [[सिमेंटिक निकटता प्रभाव]] के रूप में जाना जाता है।<ref>{{cite journal | url=http://psycnet.apa.org/journals/xlm/25/4/923.pdf | title=फ्री रिकॉल में प्रासंगिक परिवर्तनशीलता और सीरियल स्थिति प्रभाव|author1=Marc W. Howard |author2=Michael J. Kahana |year=1999}}</ref>
जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को याद करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक शब्दार्थ से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची घुसपैठ, जैसा कि उन्हें कहा जाने लगा है, याद करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं।<ref>{{cite conference| url=https://memory.psych.upenn.edu/files/pubs/ZaroEtal06.pdf | title=फ्री रिकॉल में टेम्पोरल एसोसिएशन और प्रायर-लिस्ट घुसपैठ| author=Franklin M. Zaromb| conference=Interspeech'2005|year=2006|display-authors=etal}}</ref>
जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को याद करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक सिमेंटिक से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची घुसपैठ, जैसा कि उन्हें कहा जाने लगा है, याद करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं।<ref>{{cite conference| url=https://memory.psych.upenn.edu/files/pubs/ZaroEtal06.pdf | title=फ्री रिकॉल में टेम्पोरल एसोसिएशन और प्रायर-लिस्ट घुसपैठ| author=Franklin M. Zaromb| conference=Interspeech'2005|year=2006|display-authors=etal}}</ref>
एक अन्य मॉडल, जिसे [[वर्ड एसोसिएशन स्पेस]]ेस (WAS) कहा जाता है, का उपयोग मेमोरी स्टडीज में प्रयोगों की एक श्रृंखला से मुक्त एसोसिएशन डेटा एकत्र करके किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द जोड़े के लिए शब्द संबंधितता के उपाय शामिल हैं।<ref>{{cite web|last=Nelson|first=Douglas|title=यूनिवर्सिटी ऑफ साउथ फ्लोरिडा वर्ड एसोसिएशन, राइम एंड वर्ड फ्रैगमेंट नॉर्म्स|url=http://w3.usf.edu/FreeAssociation/Intro.html|access-date=May 8, 2011}}</ref>
एक अन्य मॉडल, जिसे [[वर्ड एसोसिएशन स्पेस]]ेस (WAS) कहा जाता है, का उपयोग मेमोरी स्टडीज में प्रयोगों की एक श्रृंखला से मुक्त एसोसिएशन डेटा एकत्र करके किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द जोड़े के लिए शब्द संबंधितता के उपाय शामिल हैं।<ref>{{cite web|last=Nelson|first=Douglas|title=यूनिवर्सिटी ऑफ साउथ फ्लोरिडा वर्ड एसोसिएशन, राइम एंड वर्ड फ्रैगमेंट नॉर्म्स|url=http://w3.usf.edu/FreeAssociation/Intro.html|access-date=May 8, 2011}}</ref>


Line 173: Line 174:
== कार्यान्वयन ==
== कार्यान्वयन ==


एकवचन मूल्य अपघटन आमतौर पर बड़े मैट्रिक्स विधियों (उदाहरण के लिए, [[लैंक्ज़ोस विधि]]यों) का उपयोग करके गणना की जाती है, लेकिन एक [[तंत्रिका नेटवर्क]] जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए बड़े, पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। स्मृति में आयोजित।<ref name="Genevi2005">{{cite conference | url=http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | title=अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम| author1=Geneviève Gorrell | author2=Brandyn Webb | book-title=Interspeech'2005 | year=2005 | url-status=dead | archive-url=https://web.archive.org/web/20081221063926/http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | archive-date=2008-12-21 }}</ref>
विलक्षण मान अपघटन आमतौर पर बड़े मैट्रिक्स विधियों (उदाहरण के लिए, [[लैंक्ज़ोस विधि]]यों) का उपयोग करके गणना की जाती है, लेकिन एक [[तंत्रिका नेटवर्क]] जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए बड़े, पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। स्मृति में आयोजित।<ref name="Genevi2005">{{cite conference | url=http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | title=अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम| author1=Geneviève Gorrell | author2=Brandyn Webb | book-title=Interspeech'2005 | year=2005 | url-status=dead | archive-url=https://web.archive.org/web/20081221063926/http://www.dcs.shef.ac.uk/~genevieve/gorrell_webb.pdf | archive-date=2008-12-21 }}</ref>
हाल ही में एक तेज़, वृद्धिशील, कम-स्मृति, बड़ा-मैट्रिक्स SVD एल्गोरिथम विकसित किया गया है।<ref name="brand2006">{{cite journal | url=http://www.merl.com/reports/docs/TR2006-059.pdf | title=थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन| author=Matthew Brand | journal=Linear Algebra and Its Applications | volume=415 | pages=20–30 | year=2006 | doi=10.1016/j.laa.2005.07.021 | doi-access=free }}</ref> [http://web.mit.edu/~wingated/www/resources.html MATLAB] और [http://radimrehurek.com/gensim Python] इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक सटीक समाधान प्रदान करता है।
हाल ही में एक तेज़, वृद्धिशील, कम-स्मृति, बड़ा-मैट्रिक्स विलक्षण मान अपघटन एल्गोरिथम विकसित किया गया है।<ref name="brand2006">{{cite journal | url=http://www.merl.com/reports/docs/TR2006-059.pdf | title=थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन| author=Matthew Brand | journal=Linear Algebra and Its Applications | volume=415 | pages=20–30 | year=2006 | doi=10.1016/j.laa.2005.07.021 | doi-access=free }}</ref> [http://web.mit.edu/~wingated/www/resources.html MATLAB] और [http://radimrehurek.com/gensim Python] इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक सटीक समाधान प्रदान करता है।
हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए प्रगति हुई है; उदाहरण के लिए, समानांतर ईजेनवैल्यू अपघटन करने के लिए एक समानांतर ARPACK एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए SVD संगणना लागत को गति देना संभव है।<ref>{{cite book | doi = 10.1109/ICCSNT.2011.6182070 | title=मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन| journal=Proceedings of 2011 International Conference on Computer Science and Network Technology | pages=739–741 | year=2011 | last1 = Ding | first1 = Yaguang | last2 = Zhu | first2 = Guofeng | last3 = Cui | first3 = Chenyang | last4 = Zhou | first4 = Jian | last5 = Tao | first5 = Liang| isbn=978-1-4577-1587-7 | s2cid=15281129 }}</ref>
हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए प्रगति हुई है; उदाहरण के लिए, समानांतर ईजेनवैल्यू अपघटन करने के लिए एक समानांतर ARPACK एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए विलक्षण मान अपघटन संगणना लागत को गति देना संभव है।<ref>{{cite book | doi = 10.1109/ICCSNT.2011.6182070 | title=मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन| journal=Proceedings of 2011 International Conference on Computer Science and Network Technology | pages=739–741 | year=2011 | last1 = Ding | first1 = Yaguang | last2 = Zhu | first2 = Guofeng | last3 = Cui | first3 = Chenyang | last4 = Zhou | first4 = Jian | last5 = Tao | first5 = Liang| isbn=978-1-4577-1587-7 | s2cid=15281129 }}</ref>




== सीमाएं ==
== सीमाएं ==
एलएसए की कुछ कमियों में शामिल हैं:
अव्यक्त सिमेंटिक विश्लेषण की कुछ कमियों में शामिल हैं:


* परिणामी आयामों की व्याख्या करना कठिन हो सकता है। उदाहरण के लिए, में
* परिणामी आयामों की व्याख्या करना कठिन हो सकता है। उदाहरण के लिए, में
:: {(कार), (ट्रक), (फूल)} ↦ {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}
:: {(कार), (ट्रक), (फूल)} ↦ {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}
:(1.3452 * कार + 0.2828 * ट्रक) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि मामले करीब हैं
:(1.3452 * कार + 0.2828 * ट्रक) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि मामले समीप हैं
:: {(कार), (बोतल), (फूल)} ↦ {(1.3452 * कार + 0.2828 * बोतल), (फूल)}
:: {(कार), (बोतल), (फूल)} ↦ {(1.3452 * कार + 0.2828 * बोतल), (फूल)}
:घटेगा। यह उन परिणामों की ओर ले जाता है जिन्हें गणितीय स्तर पर उचित ठहराया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * कार + 0.2828 * बोतल) घटक को इस तथ्य के कारण उचित ठहराया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी हिस्से होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ शब्दार्थ को साझा करती हैं। अर्थात्, संबंधित भाषा के भीतर, असाइन करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।
:घटेगा। यह उन परिणामों की ओर ले जाता है जिन्हें गणितीय स्तर पर उचित ठहराया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * कार + 0.2828 * बोतल) घटक को इस तथ्य के कारण उचित ठहराया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी हिस्से होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ सिमेंटिक को साझा करती हैं। अर्थात्, संबंधित भाषा के भीतर, असाइन करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।


* एलएसए केवल आंशिक रूप से पॉलीसेमी (यानी, एक शब्द के कई अर्थ) पर कब्जा कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को एक ही अर्थ के रूप में माना जाता है क्योंकि शब्द को अंतरिक्ष में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले दस्तावेज़ में और कुर्सी निर्माता वाले एक अलग दस्तावेज़ में कुर्सी की घटना को समान माना जाता है। कॉर्पस में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए मुश्किल बना सकता है।<ref name=":0">{{Cite journal|last1=Deerwester|first1=Scott|last2=Dumais|first2=Susan T.|last3=Furnas|first3=George W.|last4=Landauer|first4=Thomas K.|last5=Harshman|first5=Richard|date=1990|title=अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण|journal=Journal of the American Society for Information Science|volume=41|issue=6|pages=391–407|citeseerx=10.1.1.108.8490|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9}}</ref> हालाँकि, प्रभाव अक्सर कम हो जाता है क्योंकि शब्दों में एक कॉर्पस में एक शब्द बोध होता है (अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है)।
* अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (यानी, एक शब्द के कई अर्थ) पर कब्जा कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को एक ही अर्थ के रूप में माना जाता है क्योंकि शब्द को अंतरिक्ष में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले दस्तावेज़ में और कुर्सी निर्माता वाले एक अलग दस्तावेज़ में कुर्सी की घटना को समान माना जाता है। कॉर्पस में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए मुश्किल बना सकता है।<ref name=":0">{{Cite journal|last1=Deerwester|first1=Scott|last2=Dumais|first2=Susan T.|last3=Furnas|first3=George W.|last4=Landauer|first4=Thomas K.|last5=Harshman|first5=Richard|date=1990|title=अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण|journal=Journal of the American Society for Information Science|volume=41|issue=6|pages=391–407|citeseerx=10.1.1.108.8490|doi=10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9}}</ref> हालाँकि, प्रभाव अक्सर कम हो जाता है क्योंकि शब्दों में एक कॉर्पस में एक शब्द बोध होता है (अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है)।
* [[शब्द मॉडल का बैग]] (बीओडब्ल्यू) की सीमाएं, जहां एक पाठ को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्द मॉडल (बीओडब्ल्यू) के बैग की कुछ सीमाओं को संबोधित करने के लिए, ए[[ एन ग्राम ]] | मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ उच्च-क्रम के आंकड़ों को खोजने के लिए किया जा सकता है। शब्दों के बीच उच्च-क्रम [[सह-घटना]]एं।<ref>{{cite journal|title=ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन|first1=Vida|last1=Abedi|first2=Mohammed|last2=Yeasin|first3=Ramin|last3=Zand|date=27 November 2014|volume=12|issue=1|pages=324|doi=10.1186/s12967-014-0324-9|pmid=25428570|pmc=4252998|journal=Journal of Translational Medicine}}</ref>
* [[शब्द मॉडल का बैग]] (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्द मॉडल (बीओडब्ल्यू) के बैग की कुछ सीमाओं को संबोधित करने के लिए, ए[[ एन ग्राम ]] | मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ उच्च-क्रम के आंकड़ों को खोजने के लिए किया जा सकता है। शब्दों के बीच उच्च-क्रम [[सह-घटना]]एं।<ref>{{cite journal|title=ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन|first1=Vida|last1=Abedi|first2=Mohammed|last2=Yeasin|first3=Ramin|last3=Zand|date=27 November 2014|volume=12|issue=1|pages=324|doi=10.1186/s12967-014-0324-9|pmid=25428570|pmc=4252998|journal=Journal of Translational Medicine}}</ref>
* एलएसए का [[संभाव्य मॉडल]] देखे गए डेटा से मेल नहीं खाता है: एलएसए मानता है कि शब्द और दस्तावेज़ एक संयुक्त [[सामान्य वितरण]] मॉडल ([[एर्गोडिक परिकल्पना]]) बनाते हैं, जबकि एक पॉइसन वितरण देखा गया है। इस प्रकार, एक नया विकल्प एक बहुराष्ट्रीय वितरण मॉडल के आधार पर संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो मानक एलएसए से बेहतर परिणाम देने के लिए रिपोर्ट किया गया है।<ref name="Thomas1999">{{cite conference|title=संभाव्य अव्यक्त शब्दार्थ विश्लेषण|author=Thomas Hofmann|book-title=Uncertainty in Artificial Intelligence|year=1999|arxiv = 1301.6705}}</ref>
* अव्यक्त सिमेंटिक विश्लेषण का [[संभाव्य मॉडल]] देखे गए डेटा से मेल नहीं खाता है: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और दस्तावेज़ एक संयुक्त [[सामान्य वितरण]] मॉडल ([[एर्गोडिक परिकल्पना]]) बनाते हैं, जबकि एक पॉइसन वितरण देखा गया है। इस प्रकार, एक नया विकल्प एक बहुराष्ट्रीय वितरण मॉडल के आधार पर संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो मानक अव्यक्त सिमेंटिक विश्लेषण से बेहतर परिणाम देने के लिए रिपोर्ट किया गया है।<ref name="Thomas1999">{{cite conference|title=संभाव्य अव्यक्त शब्दार्थ विश्लेषण|author=Thomas Hofmann|book-title=Uncertainty in Artificial Intelligence|year=1999|arxiv = 1301.6705}}</ref>




Line 195: Line 196:


=== सिमेंटिक हैशिंग ===
=== सिमेंटिक हैशिंग ===
सिमेंटिक हैशिंग में <ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.</ref> दस्तावेजों को एक तंत्रिका नेटवर्क के माध्यम से स्मृति पतों पर मैप किया जाता है ताकि शब्दार्थ के समान दस्तावेज पास के पते पर स्थित हों। [[ध्यान लगा के पढ़ना या सीखना]] अनिवार्य रूप से दस्तावेजों के एक बड़े सेट से प्राप्त शब्द-गणना वैक्टर का एक [[ग्राफिकल मॉडल]] बनाता है। क्वेरी दस्तावेज़ के समान दस्तावेज़ों को केवल उन सभी पतों तक पहुँचने के द्वारा पाया जा सकता है जो क्वेरी दस्तावेज़ के पते से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका [[स्थानीयता संवेदनशील हैशिंग]] की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ मौजूदा तरीका है। {{clarify |date=November 2019 |reason=This implies that the fastest method currently known is slower than an older method, which is impossible. }}
सिमेंटिक हैशिंग में <ref>Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.</ref> दस्तावेजों को एक तंत्रिका नेटवर्क के माध्यम से स्मृति पतों पर मैप किया जाता है ताकि सिमेंटिक के समान दस्तावेज पास के पते पर स्थित हों। [[ध्यान लगा के पढ़ना या सीखना]] अनिवार्य रूप से दस्तावेजों के एक बड़े सेट से प्राप्त शब्द-गणना वैक्टर का एक [[ग्राफिकल मॉडल]] बनाता है। क्वेरी दस्तावेज़ के समान दस्तावेज़ों को केवल उन सभी पतों तक पहुँचने के द्वारा पाया जा सकता है जो क्वेरी दस्तावेज़ के पते से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका [[स्थानीयता संवेदनशील हैशिंग]] की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ मौजूदा तरीका है। {{clarify |date=November 2019 |reason=This implies that the fastest method currently known is slower than an older method, which is impossible. }}


=== अव्यक्त सिमेंटिक इंडेक्सिंग ===
=== अव्यक्त सिमेंटिक इंडेक्सिंग ===
अव्यक्त सिमेंटिक इंडेक्सिंग (LSI) एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे एकवचन मूल्य अपघटन (SVD) कहा जाता है ताकि पाठ के असंरचित संग्रह में निहित शब्दावली और [[अवधारणा]]ओं के बीच संबंधों में पैटर्न की पहचान की जा सके। LSI इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। एलएसआई की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके [[टेक्स्ट कॉर्पस]] की वैचारिक सामग्री को निकालने की इसकी क्षमता है।<ref name=deerwester1988>Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे विलक्षण मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और [[अवधारणा]]ओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। एलएसआई की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके [[टेक्स्ट कॉर्पस]] की वैचारिक सामग्री को निकालने की इसकी क्षमता है।<ref name=deerwester1988>Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.</ref>
एलएसआई [[पत्राचार विश्लेषण]] का भी एक अनुप्रयोग है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है<ref>{{ cite book
एलएसआई [[पत्राचार विश्लेषण]] का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है<ref>{{ cite book
  | author = Benzécri, J.-P.
  | author = Benzécri, J.-P.
  | publisher=Dunod |location= Paris, France
  | publisher=Dunod |location= Paris, France
Line 206: Line 207:
  }}</ref> 1970 के दशक की शुरुआत में, दस्तावेजों में शब्द गणना से निर्मित एक [[आकस्मिक तालिका]] के लिए।
  }}</ref> 1970 के दशक की शुरुआत में, दस्तावेजों में शब्द गणना से निर्मित एक [[आकस्मिक तालिका]] के लिए।


बुलाया{{em|latent semantic}} सहसंबद्ध होने की क्षमता के कारण अनुक्रमण {{em|semantically}} संबंधित शब्द हैं {{em|latent}} पाठ के संग्रह में, इसे पहली बार 1980 के दशक के अंत में [[बेलकोर]] में पाठ पर लागू किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण (एलएसए) भी कहा जाता है, पाठ के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त शब्दार्थ संरचना को उजागर करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में पाठ के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे आमतौर पर संदर्भित किया जाता है। अवधारणा खोज के रूप में। एलएसआई से गुजरने वाले दस्तावेजों के एक सेट के खिलाफ प्रश्न, या अवधारणा खोज, ऐसे परिणाम लौटाएंगे जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, भले ही परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या शब्द साझा न करें।
बुलाया{{em|latent semantic}} सहसंबद्ध होने की क्षमता के कारण अनुक्रमण {{em|semantically}} संबंधित शब्द हैं {{em|latent}} टेक्स्ट के संग्रह में, इसे पहली बार 1980 के दशक के अंत में [[बेलकोर]] में टेक्स्ट पर लागू किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त सिमेंटिक संरचना को उजागर करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे आमतौर पर संदर्भित किया जाता है। अवधारणा खोज के रूप में। एलएसआई से गुजरने वाले दस्तावेजों के एक सेट के खिलाफ प्रश्न, या अवधारणा खोज, ऐसे परिणाम लौटाएंगे जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, भले ही परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या शब्द साझा न करें।


== एलएसआई के लाभ ==
== एलएसआई के लाभ ==
Line 212: Line 213:
एलएसआई मूल्यांकन उपायों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में मदद करता है # याद करें, [[बूलियन खोज]] और वेक्टर अंतरिक्ष मॉडल की सबसे समस्याग्रस्त बाधाओं में से एक।<ref name=":0" />  दस्तावेजों के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी अक्सर बेमेल का कारण होता है।<ref>{{Cite journal | last1 = Furnas | first1 = G. W. | last2 = Landauer | first2 = T. K. | last3 = Gomez | first3 = L. M. | last4 = Dumais | first4 = S. T. | title = मानव-प्रणाली संचार में शब्दावली समस्या| doi = 10.1145/32206.32212 | journal = Communications of the ACM | volume = 30 | issue = 11 | pages = 964–971 | year = 1987 | citeseerx = 10.1.1.118.4768 | s2cid = 3002280 }}</ref> परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न अक्सर अप्रासंगिक परिणाम लौटाते हैं और प्रासंगिक जानकारी खो देते हैं।
एलएसआई मूल्यांकन उपायों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में मदद करता है # याद करें, [[बूलियन खोज]] और वेक्टर अंतरिक्ष मॉडल की सबसे समस्याग्रस्त बाधाओं में से एक।<ref name=":0" />  दस्तावेजों के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी अक्सर बेमेल का कारण होता है।<ref>{{Cite journal | last1 = Furnas | first1 = G. W. | last2 = Landauer | first2 = T. K. | last3 = Gomez | first3 = L. M. | last4 = Dumais | first4 = S. T. | title = मानव-प्रणाली संचार में शब्दावली समस्या| doi = 10.1145/32206.32212 | journal = Communications of the ACM | volume = 30 | issue = 11 | pages = 964–971 | year = 1987 | citeseerx = 10.1.1.118.4768 | s2cid = 3002280 }}</ref> परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न अक्सर अप्रासंगिक परिणाम लौटाते हैं और प्रासंगिक जानकारी खो देते हैं।


LSI का उपयोग स्वचालित [[दस्तावेज़ वर्गीकरण]] करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि एलएसआई और मानव जिस तरह से पाठ को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।<ref name=landauer2008>Landauer, T., et al., [http://papers.nips.cc/paper/1468-learning-human-like-knowledge-by-singular-value-decomposition-a-progress-report.pdf Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report], M. I. Jordan, M. J. Kearns & [[Sara Solla|S. A. Solla]] (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.</ref> दस्तावेज़ वर्गीकरण श्रेणियों की वैचारिक सामग्री की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।<ref>{{Cite book | last1 = Dumais | first1 = S. | last2 = Platt | first2 = J. | last3 = Heckerman | first3 = D. | last4 = Sahami | first4 = M. | chapter = Inductive learning algorithms and representations for text categorization | doi = 10.1145/288627.288651 | title = Proceedings of the seventh international conference on Information and knowledge management - CIKM '98 | pages = [https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 148] | year = 1998 | isbn = 978-1581130614 | chapter-url = http://research.microsoft.com/en-us/um/people/jplatt/cikm98.pdf | citeseerx = 10.1.1.80.8909 | s2cid = 617436 | url = https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 }}</ref> एलएसआई प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग करता है। वर्गीकरण प्रसंस्करण के दौरान, वर्गीकृत किए जा रहे दस्तावेजों में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) दस्तावेजों को उन अवधारणाओं के बीच समानता के आधार पर सौंपी जाती है जो उनमें शामिल होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण दस्तावेजों में।
अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित [[दस्तावेज़ वर्गीकरण]] करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि एलएसआई और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।<ref name=landauer2008>Landauer, T., et al., [http://papers.nips.cc/paper/1468-learning-human-like-knowledge-by-singular-value-decomposition-a-progress-report.pdf Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report], M. I. Jordan, M. J. Kearns & [[Sara Solla|S. A. Solla]] (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.</ref> दस्तावेज़ वर्गीकरण श्रेणियों की वैचारिक सामग्री की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।<ref>{{Cite book | last1 = Dumais | first1 = S. | last2 = Platt | first2 = J. | last3 = Heckerman | first3 = D. | last4 = Sahami | first4 = M. | chapter = Inductive learning algorithms and representations for text categorization | doi = 10.1145/288627.288651 | title = Proceedings of the seventh international conference on Information and knowledge management - CIKM '98 | pages = [https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 148] | year = 1998 | isbn = 978-1581130614 | chapter-url = http://research.microsoft.com/en-us/um/people/jplatt/cikm98.pdf | citeseerx = 10.1.1.80.8909 | s2cid = 617436 | url = https://archive.org/details/proceedingsof1990000inte_e1r0/page/148 }}</ref> एलएसआई प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग करता है। वर्गीकरण प्रसंस्करण के दौरान, वर्गीकृत किए जा रहे दस्तावेजों में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) दस्तावेजों को उन अवधारणाओं के बीच समानता के आधार पर सौंपी जाती है जो उनमें शामिल होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण दस्तावेजों में।


दस्तावेजों की वैचारिक सामग्री के आधार पर गतिशील क्लस्टरिंग भी एलएसआई का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह दस्तावेजों का एक तरीका है। असंरचित पाठ के अज्ञात संग्रह से निपटने के दौरान यह बहुत उपयोगी है।
दस्तावेजों की वैचारिक सामग्री के आधार पर गतिशील क्लस्टरिंग भी एलएसआई का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह दस्तावेजों का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के दौरान यह बहुत उपयोगी है।


क्योंकि यह कड़ाई से गणितीय दृष्टिकोण का उपयोग करता है, LSI स्वाभाविक रूप से भाषा से स्वतंत्र है। यह LSI को सहायक संरचनाओं, जैसे शब्दकोशों और थिसौरी के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की शब्दार्थ सामग्री को प्राप्त करने में सक्षम बनाता है। एलएसआई क्रॉस-भाषाई [[अवधारणा खोज]] और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम लौटाए जाएंगे, भले ही वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।{{Citation needed|date=July 2015}}
क्योंकि यह कड़ाई से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और थिसौरी के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक सामग्री को प्राप्त करने में सक्षम बनाता है। एलएसआई क्रॉस-भाषाई [[अवधारणा खोज]] और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम लौटाए जाएंगे, भले ही वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।{{Citation needed|date=July 2015}}


एलएसआई केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह मनमाना चरित्र तार भी संसाधित कर सकता है। पाठ के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को LSI वेक्टर स्पेस में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन सार के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और सार में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर एलएसआई जीन को प्रभावी ढंग से वर्गीकृत करने में सक्षम है।<ref>{{Cite journal | last1 = Homayouni | first1 = R. | last2 = Heinrich | first2 = K. | last3 = Wei | first3 = L. | last4 = Berry | first4 = M. W. | title = मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग| doi = 10.1093/bioinformatics/bth464 | journal = Bioinformatics | volume = 21 | issue = 1 | pages = 104–115 | year = 2004 | pmid =  15308538| doi-access = free }}</ref>
एलएसआई केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह मनमाना चरित्र तार भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर स्पेस में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन सार के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और सार में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर एलएसआई जीन को प्रभावी ढंग से वर्गीकृत करने में सक्षम है।<ref>{{Cite journal | last1 = Homayouni | first1 = R. | last2 = Heinrich | first2 = K. | last3 = Wei | first3 = L. | last4 = Berry | first4 = M. W. | title = मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग| doi = 10.1093/bioinformatics/bth464 | journal = Bioinformatics | volume = 21 | issue = 1 | pages = 104–115 | year = 2004 | pmid =  15308538| doi-access = free }}</ref>
LSI स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और शोर के प्रति बहुत सहिष्णु दिखाया गया है (यानी, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि)।<ref>{{Cite book | last1 = Price | first1 = R. J. | last2 = Zukas | first2 = A. E. | chapter = Application of Latent Semantic Indexing to Processing of Noisy Text | doi = 10.1007/11427995_68 | title = खुफिया और सुरक्षा सूचना विज्ञान| series = Lecture Notes in Computer Science | volume = 3495 | pages = 602 | year = 2005 | isbn = 978-3-540-25999-2 }}</ref> ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) और स्पीच-टू-टेक्स्ट रूपांतरण से प्राप्त पाठ का उपयोग करने वाले अनुप्रयोगों के लिए यह विशेष रूप से महत्वपूर्ण है। LSI विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी ढंग से निपटता है।
अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और शोर के प्रति बहुत सहिष्णु दिखाया गया है (यानी, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि)।<ref>{{Cite book | last1 = Price | first1 = R. J. | last2 = Zukas | first2 = A. E. | chapter = Application of Latent Semantic Indexing to Processing of Noisy Text | doi = 10.1007/11427995_68 | title = खुफिया और सुरक्षा सूचना विज्ञान| series = Lecture Notes in Computer Science | volume = 3495 | pages = 602 | year = 2005 | isbn = 978-3-540-25999-2 }}</ref> ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) और स्पीच-टू-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले अनुप्रयोगों के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी ढंग से निपटता है।


एलएसआई के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, फ्री-फॉर्म नोट्स, ईमेल, वेब-आधारित सामग्री आदि के साथ काम कर सकता है। मूलपाठ।
एलएसआई के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, फ्री-फॉर्म नोट्स, ईमेल, वेब-आधारित सामग्री आदि के साथ काम कर सकता है। मूलपाठ।


LSI कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान साबित हुआ है।<ref>Ding, C., [https://cloudfront.escholarship.org/dist/prd/content/qt0713n15c/qt0713n15c.pdf A Similarity-based Probability Model for Latent Semantic Indexing], Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.</ref><ref>Bartell, B., Cottrell, G., and Belew, R., [http://www.academia.edu/download/31070610/latent_semantic_indexing_is_an_optimal_special_case_of_multidimensional.pdf Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling]{{dead link|date=July 2022|bot=medic}}{{cbignore|bot=medic}}, Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.</ref> तकनीक को कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक जानकारी सहित प्रमुख संबंध जानकारी को कैप्चर करने के लिए दिखाया गया है।<ref>{{cite journal|author1=Graesser, A. |author2=Karnavat, A.|title=अव्यक्त शब्दार्थ विश्लेषण कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक संरचनाओं को पकड़ता है|journal=Proceedings of CogSci 2000|pages=184–189|citeseerx = 10.1.1.23.5444|year = 2000}}</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान साबित हुआ है।<ref>Ding, C., [https://cloudfront.escholarship.org/dist/prd/content/qt0713n15c/qt0713n15c.pdf A Similarity-based Probability Model for Latent Semantic Indexing], Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.</ref><ref>Bartell, B., Cottrell, G., and Belew, R., [http://www.academia.edu/download/31070610/latent_semantic_indexing_is_an_optimal_special_case_of_multidimensional.pdf Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling]{{dead link|date=July 2022|bot=medic}}{{cbignore|bot=medic}}, Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.</ref> तकनीक को कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक जानकारी सहित प्रमुख संबंध जानकारी को कैप्चर करने के लिए दिखाया गया है।<ref>{{cite journal|author1=Graesser, A. |author2=Karnavat, A.|title=अव्यक्त शब्दार्थ विश्लेषण कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक संरचनाओं को पकड़ता है|journal=Proceedings of CogSci 2000|pages=184–189|citeseerx = 10.1.1.23.5444|year = 2000}}</ref>




Line 230: Line 231:
*1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और परीक्षण किया गया (एच. बोरको और एम. बर्निक)
*1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और परीक्षण किया गया (एच. बोरको और एम. बर्निक)
*1988 - एलएसआई तकनीक पर सेमिनल पेपर प्रकाशित <ref name=deerwester1988/>*1989 - मूल पेटेंट प्रदान किया गया <ref name=deerwester1988/>*1992 - समीक्षकों को लेख सौंपने के लिए एलएसआई का पहला प्रयोग<ref>{{cite book|last1=Dumais |first1=S. |last2=Nielsen |first2=J. |title=समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना|journal=Proceedings of the Fifteenth Annual International Conference on Research and Development in Information Retrieval|year=1992|pages=233–244|doi=10.1145/133160.133205|isbn=978-0897915236 |citeseerx=10.1.1.16.9793 |s2cid=15038631 }}</ref>
*1988 - एलएसआई तकनीक पर सेमिनल पेपर प्रकाशित <ref name=deerwester1988/>*1989 - मूल पेटेंट प्रदान किया गया <ref name=deerwester1988/>*1992 - समीक्षकों को लेख सौंपने के लिए एलएसआई का पहला प्रयोग<ref>{{cite book|last1=Dumais |first1=S. |last2=Nielsen |first2=J. |title=समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना|journal=Proceedings of the Fifteenth Annual International Conference on Research and Development in Information Retrieval|year=1992|pages=233–244|doi=10.1145/133160.133205|isbn=978-0897915236 |citeseerx=10.1.1.16.9793 |s2cid=15038631 }}</ref>
*1994 - LSI (Landauer et al.) के क्रॉस-लिंगुअल एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
*1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (Landauer et al.) के क्रॉस-लिंगुअल एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
*1995 - निबंधों की ग्रेडिंग के लिए एलएसआई का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.)
*1995 - निबंधों की ग्रेडिंग के लिए एलएसआई का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.)
*1999 - असंरचित पाठ के विश्लेषण के लिए खुफिया समुदाय के लिए एलएसआई तकनीक का पहला कार्यान्वयन ([[विज्ञान अनुप्रयोग अंतर्राष्ट्रीय निगम]])।
*1999 - असंरचित टेक्स्ट के विश्लेषण के लिए खुफिया समुदाय के लिए एलएसआई तकनीक का पहला कार्यान्वयन ([[विज्ञान अनुप्रयोग अंतर्राष्ट्रीय निगम|विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम]])।
*2002 - खुफिया-आधारित सरकारी एजेंसियों (एसएआईसी) को एलएसआई-आधारित उत्पाद की पेशकश
*2002 - खुफिया-आधारित सरकारी एजेंसियों (एसएआईसी) को एलएसआई-आधारित उत्पाद की पेशकश


== एलएसआई का गणित ==
== एलएसआई का गणित ==


पाठ के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए LSI सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य तौर पर, प्रक्रिया में भारित शब्द-दस्तावेज़ मैट्रिक्स का निर्माण करना, मैट्रिक्स पर एक विलक्षण मूल्य अपघटन करना और पाठ में निहित अवधारणाओं की पहचान करने के लिए मैट्रिक्स का उपयोग करना शामिल है।
टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य तौर पर, प्रक्रिया में भारित शब्द-दस्तावेज़ मैट्रिक्स का निर्माण करना, मैट्रिक्स पर एक विलक्षण मूल्य अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मैट्रिक्स का उपयोग करना शामिल है।


=== टर्म-दस्तावेज़ मैट्रिक्स ===
=== टर्म-दस्तावेज़ मैट्रिक्स ===


LSI टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण से शुरू होता है, <math>A</math>, की घटनाओं की पहचान करने के लिए <math>m</math> के संग्रह के भीतर अद्वितीय शब्द <math>n</math> दस्तावेज़। एक शब्द-दस्तावेज़ मैट्रिक्स में, प्रत्येक पद को एक पंक्ति द्वारा दर्शाया जाता है, और प्रत्येक दस्तावेज़ को एक स्तंभ द्वारा दर्शाया जाता है, प्रत्येक मैट्रिक्स सेल के साथ, <math>a_{ij}</math>, प्रारंभ में संकेतित दस्तावेज़ में संबंधित शब्द कितनी बार प्रकट होता है, इसका प्रतिनिधित्व करता है, <math>\mathrm{tf_{ij}}</math>. यह मैट्रिक्स आमतौर पर बहुत बड़ा और बहुत विरल होता है।
अव्यक्त सिमेंटिक इंडेक्सिंग टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण से शुरू होता है, <math>A</math>, की घटनाओं की पहचान करने के लिए <math>m</math> के संग्रह के भीतर अद्वितीय शब्द <math>n</math> दस्तावेज़। एक शब्द-दस्तावेज़ मैट्रिक्स में, प्रत्येक पद को एक पंक्ति द्वारा दर्शाया जाता है, और प्रत्येक दस्तावेज़ को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मैट्रिक्स सेल के साथ, <math>a_{ij}</math>, प्रारंभ में संकेतित दस्तावेज़ में संबंधित शब्द कितनी बार प्रकट होता है, इसका प्रतिनिधित्व करता है, <math>\mathrm{tf_{ij}}</math>. यह मैट्रिक्स आमतौर पर बहुत बड़ा और बहुत विरल होता है।


टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण के बाद, डेटा को कंडीशन करने के लिए स्थानीय और ग्लोबल वेटिंग फ़ंक्शंस को उस पर लागू किया जा सकता है। वेटिंग फ़ंक्शन प्रत्येक सेल को रूपांतरित करते हैं, <math>a_{ij}</math> का <math>A</math>, एक स्थानीय शब्द भार का गुणनफल होने के लिए, <math>l_{ij}</math>, जो किसी दस्तावेज़ में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, <math>g_i</math>, जो दस्तावेजों के संपूर्ण संग्रह के भीतर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।
टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण के बाद, डेटा को कंडीशन करने के लिए स्थानीय और ग्लोबल वेटिंग फ़ंक्शंस को उस पर लागू किया जा सकता है। वेटिंग फ़ंक्शन प्रत्येक सेल को रूपांतरित करते हैं, <math>a_{ij}</math> का <math>A</math>, एक स्थानीय शब्द भार का गुणनफल होने के लिए, <math>l_{ij}</math>, जो किसी दस्तावेज़ में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, <math>g_i</math>, जो दस्तावेजों के संपूर्ण संग्रह के भीतर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।
Line 287: Line 288:




=== रैंक-कम एकवचन मूल्य अपघटन ===
=== रैंक-कम विलक्षण मान अपघटन ===


पाठ में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मैट्रिक्स पर एक रैंक-कम, एकवचन मूल्य अपघटन किया जाता है। एसवीडी एलएसआई की नींव रखता है।<ref>Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., [http://delab.csd.auth.gr/~dimitris/courses/ir_spring06/page_rank_computing/01cc99333c00501ddab030.pdf Using Linear Algebra for Intelligent Information Retrieval], December 1994, SIAM Review 37:4 (1995), pp. 573–595.</ref> यह एकल शब्द-आवृत्ति मैट्रिक्स का अनुमान लगाकर शब्द और दस्तावेज़ वेक्टर रिक्त स्थान की गणना करता है, <math>A</math>, तीन अन्य मैट्रिसेस में- एक ''एम'' बाय ''आर'' शब्द-अवधारणा वेक्टर मैट्रिक्स <math>T</math>, a ''r'' by ''r'' एकवचन मान मैट्रिक्स <math>S</math>, और a ''n'' by ''r'' अवधारणा-दस्तावेज़ वेक्टर मैट्रिक्स, <math>D</math>, जो निम्नलिखित संबंधों को संतुष्ट करते हैं:
टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मैट्रिक्स पर एक रैंक-कम, विलक्षण मान अपघटन किया जाता है। एसवीडी एलएसआई की नींव रखता है।<ref>Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., [http://delab.csd.auth.gr/~dimitris/courses/ir_spring06/page_rank_computing/01cc99333c00501ddab030.pdf Using Linear Algebra for Intelligent Information Retrieval], December 1994, SIAM Review 37:4 (1995), pp. 573–595.</ref> यह एकल शब्द-आवृत्ति मैट्रिक्स का अनुमान लगाकर शब्द और दस्तावेज़ वेक्टर रिक्त स्थान की गणना करता है, <math>A</math>, तीन अन्य मैट्रिसेस में- एक ''एम'' बाय ''आर'' शब्द-अवधारणा वेक्टर मैट्रिक्स <math>T</math>, a ''r'' by ''r'' एकवचन मान मैट्रिक्स <math>S</math>, और a ''n'' by ''r'' अवधारणा-दस्तावेज़ वेक्टर मैट्रिक्स, <math>D</math>, जो निम्नलिखित संबंधों को संतुष्ट करते हैं:


<math>A \approx TSD^T</math>
<math>A \approx TSD^T</math>
Line 296: Line 297:


<math>S_{1,1} \geq S_{2,2} \geq \ldots \geq  S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j</math>
<math>S_{1,1} \geq S_{2,2} \geq \ldots \geq  S_{r,r} > 0 \quad S_{i,j} = 0 \; \text{where} \; i \neq j</math>
सूत्र में, A को पाठ के संग्रह में शब्द आवृत्तियों के भारित मैट्रिक्स द्वारा ''m'' द्वारा आपूर्ति की जाती है, जहाँ ''m'' अद्वितीय शब्दों की संख्या है, और ''n'' है दस्तावेजों की संख्या। T शब्द सदिशों के ''r'' मैट्रिक्स द्वारा एक संगणित ''m'' है, जहाँ ''r'' A की कोटि है—इसके अद्वितीय आयामों का एक माप ≤ min(''m,n'')। S घटते एकवचन मानों का ''r'' विकर्ण मैट्रिक्स द्वारा परिकलित ''r'' है, और D दस्तावेज़ वैक्टर के ''r'' मैट्रिक्स द्वारा परिकलित ''n'' है।
सूत्र में, A को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मैट्रिक्स द्वारा ''m'' द्वारा आपूर्ति की जाती है, जहाँ ''m'' अद्वितीय शब्दों की संख्या है, और ''n'' है दस्तावेजों की संख्या। T शब्द सदिशों के ''r'' मैट्रिक्स द्वारा एक संगणित ''m'' है, जहाँ ''r'' A की कोटि है—इसके अद्वितीय आयामों का एक माप ≤ min(''m,n'')। S घटते एकवचन मानों का ''r'' विकर्ण मैट्रिक्स द्वारा परिकलित ''r'' है, और D दस्तावेज़ वैक्टर के ''r'' मैट्रिक्स द्वारा परिकलित ''n'' है।


एसवीडी तब एकवचन मूल्य अपघटन # कटा हुआ एसवीडी है जो केवल सबसे बड़े ''के'' «''आर'' विकर्ण प्रविष्टियों को एकवचन मूल्य मैट्रिक्स एस में रखते हुए रैंक को कम करने के लिए है,
एसवीडी तब विलक्षण मान अपघटन # कटा हुआ एसवीडी है जो केवल सबसे बड़े ''के'' «''आर'' विकर्ण प्रविष्टियों को एकवचन मूल्य मैट्रिक्स एस में रखते हुए रैंक को कम करने के लिए है,
जहाँ ''k'' आमतौर पर 100 से 300 आयामों के क्रम में होता है।
जहाँ ''k'' आमतौर पर 100 से 300 आयामों के क्रम में होता है।
यह प्रभावी ढंग से शब्द और दस्तावेज़ वेक्टर मैट्रिक्स आकार को क्रमशः ''m'' द्वारा ''k'' और ''n'' द्वारा ''k'' तक कम कर देता है। एसवीडी ऑपरेशन, इस कमी के साथ, ए के मूल स्थान के शोर और अन्य अवांछनीय कलाकृतियों को कम करते हुए पाठ में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को अक्सर एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :
यह प्रभावी ढंग से शब्द और दस्तावेज़ वेक्टर मैट्रिक्स आकार को क्रमशः ''m'' द्वारा ''k'' और ''n'' द्वारा ''k'' तक कम कर देता है। एसवीडी ऑपरेशन, इस कमी के साथ, ए के मूल स्थान के शोर और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को अक्सर एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :


:::::::ए ≈ ए<sub>''k''</sub> = टी<sub>''k''</sub> S<sub>''k''</sub> D<sub>''k''</sub><sup>टी</सुप>
:::::::ए ≈ ए<sub>''k''</sub> = टी<sub>''k''</sub> S<sub>''k''</sub> D<sub>''k''</sub><sup>टी</सुप>
Line 310: Line 311:
== एलएसआई वेक्टर रिक्त स्थान को पूछताछ और बढ़ाना ==
== एलएसआई वेक्टर रिक्त स्थान को पूछताछ और बढ़ाना ==


परिकलित टी<sub>''k''</sub>और डी<sub>''k''</sub>मैट्रिसेस शब्द और दस्तावेज़ वेक्टर रिक्त स्थान को परिभाषित करते हैं, जो कि संगणित एकवचन मानों के साथ, S<sub>''k''</sub>, दस्तावेज़ संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के भीतर शब्दों या दस्तावेजों की समानता इन स्थानों में एक दूसरे के कितने करीब है, इसका एक कारक है, आमतौर पर संबंधित वैक्टर के बीच कोण के एक समारोह के रूप में गणना की जाती है।
परिकलित टी<sub>''k''</sub>और डी<sub>''k''</sub>मैट्रिसेस शब्द और दस्तावेज़ वेक्टर रिक्त स्थान को परिभाषित करते हैं, जो कि संगणित एकवचन मानों के साथ, S<sub>''k''</sub>, दस्तावेज़ संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के भीतर शब्दों या दस्तावेजों की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, आमतौर पर संबंधित वैक्टर के बीच कोण के एक समारोह के रूप में गणना की जाती है।


मौजूदा एलएसआई इंडेक्स के दस्तावेज़ स्थान के भीतर प्रश्नों के पाठ और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वैक्टरों का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। ए = टी एस डी के एक साधारण परिवर्तन से<sup>T</sup> समतुल्य D = A में समीकरण<sup>टी</sup> टी एस<sup>−1</sup> समीकरण, एक प्रश्न के लिए या एक नए दस्तावेज़ के लिए एक नया वेक्टर, ''d'', A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।<sup>-1</sup>. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न ग्लोबल टर्म वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को क्वेरी या नए दस्तावेज़ में शर्तों पर लागू किया जाता है।
मौजूदा एलएसआई इंडेक्स के दस्तावेज़ स्थान के भीतर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वैक्टरों का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। ए = टी एस डी के एक साधारण परिवर्तन से<sup>T</sup> समतुल्य D = A में समीकरण<sup>टी</sup> टी एस<sup>−1</sup> समीकरण, एक प्रश्न के लिए या एक नए दस्तावेज़ के लिए एक नया वेक्टर, ''d'', A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।<sup>-1</sup>. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न ग्लोबल टर्म वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को क्वेरी या नए दस्तावेज़ में शर्तों पर लागू किया जाता है।


नए खोजे जाने योग्य दस्तावेजों को जोड़ते समय इस तरह कंप्यूटिंग वैक्टरों में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के दौरान अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का पाठ के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए पाठ के लिए गणना किए गए वैक्टर अभी भी अन्य सभी दस्तावेज़ वैक्टरों के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।
नए खोजे जाने योग्य दस्तावेजों को जोड़ते समय इस तरह कंप्यूटिंग वैक्टरों में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के दौरान अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वैक्टर अभी भी अन्य सभी दस्तावेज़ वैक्टरों के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।


इस तरीके से नए दस्तावेज़ों के साथ LSI इंडेक्स के लिए दस्तावेज़ वेक्टर स्पेस को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन'' कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए पाठ की नई शब्दार्थ सामग्री के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में दस्तावेज़ जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें शामिल शब्द और अवधारणाएँ LSI के भीतर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब दस्तावेजों के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में शामिल करने की आवश्यकता होती है, तो या तो टर्म-डॉक्यूमेंट मैट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) <ref name="brand2006"/> ज़रूरी है।
इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स के लिए दस्तावेज़ वेक्टर स्पेस को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन'' कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए टेक्स्ट की नई सिमेंटिक सामग्री के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में दस्तावेज़ जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें शामिल शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के भीतर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब दस्तावेजों के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में शामिल करने की आवश्यकता होती है, तो या तो टर्म-डॉक्यूमेंट मैट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) <ref name="brand2006"/> ज़रूरी है।''


== एलएसआई == के अतिरिक्त उपयोग
== एलएसआई == के अतिरिक्त उपयोग


यह आम तौर पर स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर पाठ के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में LSI के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।
यह आम तौर पर स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।


एलएसआई का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और पाठ प्रसंस्करण अनुप्रयोगों में किया जा रहा है, हालांकि इसका प्राथमिक अनुप्रयोग अवधारणा खोज और स्वचालित दस्तावेज़ वर्गीकरण के लिए किया गया है।<ref>Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.</ref> नीचे कुछ अन्य तरीके दिए गए हैं जिनमें LSI का उपयोग किया जा रहा है:
एलएसआई का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण अनुप्रयोगों में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित दस्तावेज़ वर्गीकरण के लिए किया गया है।<ref>Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.</ref> नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:


* सूचना खोज<ref>Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.</ref> ([[इलेक्ट्रॉनिक डिस्कवरी]], सरकार/खुफिया समुदाय, प्रकाशन)
* सूचना खोज<ref>Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.</ref> ([[इलेक्ट्रॉनिक डिस्कवरी]], सरकार/खुफिया समुदाय, प्रकाशन)
Line 340: Line 341:
* स्टॉक रिटर्न की भविष्यवाणी<ref name="Galvez2017"/>* स्वप्न सामग्री विश्लेषण (मनोविज्ञान) <ref name="Altszyler2017"/>
* स्टॉक रिटर्न की भविष्यवाणी<ref name="Galvez2017"/>* स्वप्न सामग्री विश्लेषण (मनोविज्ञान) <ref name="Altszyler2017"/>


उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक दस्तावेज़ खोज (ईडिस्कवरी) के लिए एलएसआई का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित पाठ के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 की शुरुआत में एलएसआई का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर लागू किया गया है।<ref>There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.</ref>
उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक दस्तावेज़ खोज (ईडिस्कवरी) के लिए एलएसआई का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 की शुरुआत में एलएसआई का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर लागू किया गया है।<ref>There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.</ref>




== एलएसआई == के लिए चुनौतियां
== एलएसआई == के लिए चुनौतियां


LSI की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। एलएसआई को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।<ref>Karypis, G., Han, E., [https://www.researchgate.net/profile/George_Karypis/publication/2437989_Fast_Supervised_Dimensionality_Reduction_Algorithm_with_Applications_to_Document_Categorization_Retrieval/links/549ee9c80cf267bdb8fdb8e1.pdf Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval], Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.</ref> हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ एलएसआई अनुप्रयोगों में मैट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक दस्तावेजों वाले वास्तविक दुनिया के अनुप्रयोग आम हैं। LSI का एक पूरी तरह से स्केलेबल (दस्तावेजों की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स [[gensim]] सॉफ्टवेयर पैकेज में निहित है।<ref name="rehurek2011">{{cite book | chapter=Subspace Tracking for Latent Semantic Analysis | author=Radim Řehůřek | title=सूचना पुनर्प्राप्ति में अग्रिम| journal=सूचना पुनर्प्राप्ति में अग्रिम- 33rd European Conference on IR Research, ECIR 2011 | volume=6611 | pages=289–300 | year=2011 | doi=10.1007/978-3-642-20161-5_29 |series=Lecture Notes in Computer Science|isbn=978-3-642-20160-8}}</ref>
अव्यक्त सिमेंटिक इंडेक्सिंग की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। एलएसआई को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।<ref>Karypis, G., Han, E., [https://www.researchgate.net/profile/George_Karypis/publication/2437989_Fast_Supervised_Dimensionality_Reduction_Algorithm_with_Applications_to_Document_Categorization_Retrieval/links/549ee9c80cf267bdb8fdb8e1.pdf Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval], Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.</ref> हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ एलएसआई अनुप्रयोगों में मैट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक दस्तावेजों वाले वास्तविक दुनिया के एप्लीकेशन आम हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (दस्तावेजों की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स [[gensim]] सॉफ्टवेयर पैकेज में निहित है।<ref name="rehurek2011">{{cite book | chapter=Subspace Tracking for Latent Semantic Analysis | author=Radim Řehůřek | title=सूचना पुनर्प्राप्ति में अग्रिम| journal=सूचना पुनर्प्राप्ति में अग्रिम- 33rd European Conference on IR Research, ECIR 2011 | volume=6611 | pages=289–300 | year=2011 | doi=10.1007/978-3-642-20161-5_29 |series=Lecture Notes in Computer Science|isbn=978-3-642-20160-8}}</ref>
एलएसआई के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम पाठ के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम आमतौर पर मध्यम आकार के दस्तावेज़ संग्रह (सैकड़ों हजारों दस्तावेज़) और बड़े दस्तावेज़ संग्रह (लाखों दस्तावेज़) के लिए शायद 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।<ref>Bradford, R., [https://dl.acm.org/citation.cfm?id=1458105 An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications], Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.</ref> हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि दस्तावेज़ संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।<ref name=landauer2008b>Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.</ref> एलएसआई के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या [[कारक विश्लेषण]] के समान बनाए गए विचरण के अनुपात की जाँच करना। पर्यायवाची परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।<ref>Landauer, T. K., Foltz, P. W., & Laham, D. (1998). [https://mimno.infosci.cornell.edu/info6150/readings/dp1.LSAintro.pdf Introduction to Latent Semantic Analysis]. Discourse Processes, 25, 259-284</ref> जब एलएसआई विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।
एलएसआई के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम आमतौर पर मध्यम आकार के दस्तावेज़ संग्रह (सैकड़ों हजारों दस्तावेज़) और बड़े दस्तावेज़ संग्रह (लाखों दस्तावेज़) के लिए शायद 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।<ref>Bradford, R., [https://dl.acm.org/citation.cfm?id=1458105 An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications], Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.</ref> हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि दस्तावेज़ संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।<ref name=landauer2008b>Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.</ref> एलएसआई के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या [[कारक विश्लेषण]] के समान बनाए गए विचरण के अनुपात की जाँच करना। पर्यायवाची परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।<ref>Landauer, T. K., Foltz, P. W., & Laham, D. (1998). [https://mimno.infosci.cornell.edu/info6150/readings/dp1.LSAintro.pdf Introduction to Latent Semantic Analysis]. Discourse Processes, 25, 259-284</ref> जब एलएसआई विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।


== यह भी देखें ==
== यह भी देखें ==
* [[कोह-मेट्रिक्स]]
* [[कोह-मेट्रिक्स]]
* [[कंपाउंड टर्म प्रोसेसिंग]]
* [[कंपाउंड टर्म प्रोसेसिंग]]
* वितरण शब्दार्थ
* वितरण सिमेंटिक
* [[स्पष्ट शब्दार्थ विश्लेषण]]
* [[स्पष्ट शब्दार्थ विश्लेषण|स्पष्ट सिमेंटिक विश्लेषण]]
* [[अव्यक्त सिमेंटिक मैपिंग]]
* [[अव्यक्त सिमेंटिक मैपिंग]]
* [[अव्यक्त सिमेंटिक संरचना अनुक्रमण]]
* [[अव्यक्त सिमेंटिक संरचना अनुक्रमण]]
* प्रधान घटक विश्लेषण
* प्रधान घटक विश्लेषण
* संभाव्य अव्यक्त शब्दार्थ विश्लेषण
* संभाव्य अव्यक्त सिमेंटिक विश्लेषण
* [[स्पैमडेक्सिंग]]
* [[स्पैमडेक्सिंग]]
* [[शब्द वेक्टर]]
* [[शब्द वेक्टर]]
Line 446: Line 447:




=== एलएसए पर लेख ===
=== अव्यक्त सिमेंटिक विश्लेषण पर लेख ===
* [http://www.scholarpedia.org/article/Latent_semantic_analysis Latent Semantic Analysis], एलएसए पर एक स्कॉलरपीडिया लेख, जिसे एलएसए के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।
* [http://www.scholarpedia.org/article/Latent_semantic_analysis Latent Semantic Analysis], अव्यक्त सिमेंटिक विश्लेषण पर एक स्कॉलरपीडिया लेख, जिसे अव्यक्त सिमेंटिक विश्लेषण के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।


=== वार्ता और प्रदर्शन ===
=== वार्ता और प्रदर्शन ===
* [http://videolectures.net/slsfs05_hofmann_lsvm/ LSA अवलोकन], प्रो. [https://www.inf.ethz.ch/department/facademy-profs/person-detail.html?persid=148752 थॉमस हॉफमैन द्वारा बातचीत ] एलएसए का वर्णन, सूचना पुनर्प्राप्ति में इसके अनुप्रयोग, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
* [http://videolectures.net/slsfs05_hofmann_lsvm/ LSA अवलोकन], प्रो. [https://www.inf.ethz.ch/department/facademy-profs/person-detail.html?persid=148752 थॉमस हॉफमैन द्वारा बातचीत ] अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
* [http://www.semanticquery.com/archive/semanticsearchart/researchLSA.html Windows के लिए C# में पूर्ण LSA नमूना कोड]। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, डॉक्यूमेंट-टर्म मैट्रिक्स और एसवीडी बनाना शामिल है।
* [http://www.semanticquery.com/archive/semanticsearchart/researchLSA.html Windows के लिए C# में पूर्ण LSA नमूना कोड]। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, डॉक्यूमेंट-टर्म मैट्रिक्स और एसवीडी बनाना शामिल है।


=== कार्यान्वयन ===
=== कार्यान्वयन ===


सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन अनुप्रयोगों के कारण, एलएसए को कई अलग-अलग प्रकार के अनुप्रयोगों का समर्थन करने के लिए लागू किया गया है।
सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन अनुप्रयोगों के कारण, अव्यक्त सिमेंटिक विश्लेषण को कई अलग-अलग प्रकार के अनुप्रयोगों का समर्थन करने के लिए लागू किया गया है।
* [http://www.d.umn.edu/~tpederse/senseclusters.html सेंस क्लस्टर्स], एलएसए का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
* [http://www.d.umn.edu/~tpederse/senseclusters.html सेंस क्लस्टर्स], अव्यक्त सिमेंटिक विश्लेषण का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
* [http://code.google.com/p/airhead-research/ एस-स्पेस पैकेज], एलएसए का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
* [http://code.google.com/p/airhead-research/ एस-स्पेस पैकेज], अव्यक्त सिमेंटिक विश्लेषण का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
* [http://code.google.com/p/semanticvectors/ सिमेंटिक वेक्टर्स] [[Lucene]] टर्म-डॉक्यूमेंट मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग लागू करता है
* [http://code.google.com/p/semanticvectors/ सिमेंटिक वेक्टर्स] [[Lucene]] टर्म-डॉक्यूमेंट मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग लागू करता है
* [http://infomap-nlp.sourceforge.net/ Infomap Project], LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
* [http://infomap-nlp.sourceforge.net/ Infomap Project], LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
* [http://scgroup20.ceid.upataras.gr:8000/tmg/index.php/Main_Page Text to Matrix Generator], पाठ संग्रह से शब्द-दस्तावेज़ मैट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
* [http://scgroup20.ceid.upataras.gr:8000/tmg/index.php/Main_Page Text to Matrix Generator], टेक्स्ट संग्रह से शब्द-दस्तावेज़ मैट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
* Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन शामिल है।
* Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन शामिल है।



Revision as of 09:34, 28 May 2023

अव्यक्त सिमेंटिक विश्लेषण (एलएसए) प्राकृतिक भाषा प्रसंस्करण में एक तकनीक है, विशेष रूप से वितरण सिमेंटिक में, दस्तावेजों के एक सेट के बीच संबंधों का विश्लेषण करने और दस्तावेजों और शब्दों से संबंधित अवधारणाओं का एक सेट तैयार करके उनमें निहित शब्द हैं। अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द जो अर्थ के समीप हैं टेक्स्ट के समान भागों (वितरण संबंधी परिकल्पना) में घटित होंगे। एक मैट्रिक्स जिसमें प्रति दस्तावेज़ पंक्तियों में शब्द गणना होती है, पंक्तियाँ अद्वितीय शब्दों का प्रतिनिधित्व करती हैं और कॉलम प्रत्येक दस्तावेज़ का प्रतिनिधित्व करते हैं कि प्रत्येक दस्तावेज़ को टेक्स्ट के एक बड़े भाग से बनाया गया है और एक गणितीय तकनीक जिसे विलक्षण मान अपघटन (एसवीडी) कहा जाता है, का उपयोग कॉलमो के बीच समानता संरचना को संरक्षित करते हुए पंक्तियों की संख्या को कम करने के लिए किया जाता है। दस्तावेजों की तुलना किन्हीं भी दो कॉलमो के बीच कोसाइन समानता द्वारा की जाती है। और 1 के समीप के मान बहुत ही समान दस्तावेज़ों का प्रतिनिधित्व करते हैं जबकि 0 के समीप के मान बहुत भिन्न दस्तावेज़ों का प्रतिनिधित्व करते हैं।[1]

1988 में स्कॉट डियरवेस्टर, सुसान डुमाइस, जॉर्ज फर्नास, रिचर्ड हर्षमैन, थॉमस लैंडौयर, करेन लोचबौम और लिन स्ट्रीटर द्वारा अव्यक्त सिमेंटिक संरचना का उपयोग करते हुए एक सूचना पुनर्प्राप्ति तकनीक का (यूएस पेटेंट 4,839,853, अब समाप्त हो गया है) पेटेंट कराया गया था। सूचना पुनर्प्राप्ति के लिए इसके एप्लीकेशन के संदर्भ में, इसे कभी-कभी अव्यक्त सिमेंटिक इंडेक्सिंग (एलएसआई) कहा जाता है।[2]


सिंहावलोकन

दस्तावेज़-शब्द मैट्रिक्स में विषय पहचान प्रक्रिया का एनिमेशन। प्रत्येक कॉलम एक दस्तावेज़ से मेल खाता है, प्रत्येक पंक्ति एक शब्द से। एक सेल एक दस्तावेज़ में एक शब्द के भार को संग्रहीत करता है (जैसे शब्द आवृत्ति-प्रतिवर्त दस्तावेज़ आवृत्ति द्वारा), डार्क सेल उच्च भार का संकेत देते हैं। अव्यक्त सिमेंटिक विश्लेषण दोनों दस्तावेजों को समूहित करता है जिसमें समान शब्द होते हैं, साथ ही ऐसे शब्द भी होते हैं जो दस्तावेजों के समान सेट में होते हैं। परिणामी पैटर्न का उपयोग अव्यक्त घटकों का पता लगाने के लिए किया जाता है।[3]

घटना मैट्रिक्स

अव्यक्त सिमेंटिक विश्लेषण एक दस्तावेज़-शब्द मैट्रिक्स का उपयोग कर सकता है जो दस्तावेज़ों में शर्तों की घटनाओं का वर्णन करता है; यह एक विरल मैट्रिक्स है जिसकी पंक्तियाँ शर्तों के अनुरूप हैं और जिनके कॉलम दस्तावेज़ों के अनुरूप हैं। मैट्रिक्स के तत्वों के भार का एक विशिष्ट उदाहरण tf-idf (शब्द आवृत्ति-प्रतिवर्त दस्तावेज़ आवृत्ति) है: मैट्रिक्स के एक तत्व का भार प्रत्येक दस्तावेज़ में दिखाई देने वाली संख्या के अनुपात में होता है, जहाँ दुर्लभ शब्द उनके सापेक्ष महत्व को दर्शाने के लिए भारित किया जाता है।

यह मैट्रिक्स मानक सिमेंटिक मॉडल के लिए भी सामान्य है, हालांकि यह आवश्यक रूप से मैट्रिक्स के रूप में स्पष्ट रूप से व्यक्त नहीं किया गया है, क्योंकि मैट्रिसेस के गणितीय गुणों का सदैव उपयोग नहीं किया जाता है।

रैंक कम करना

घटना मैट्रिक्स के निर्माण के बाद, अव्यक्त सिमेंटिक विश्लेषण एक निम्न-श्रेणी सन्निकटन पाता है[4] टर्म-डॉक्यूमेंट मैट्रिक्स के लिए। इन अनुमानों के विभिन्न कारण हो सकते हैं:

  • मूल शब्द-दस्तावेज़ मैट्रिक्स को कंप्यूटिंग संसाधनों के लिए बहुत बड़ा माना जाता है; इस मामले में, अनुमानित निम्न रैंक मैट्रिक्स की व्याख्या एक सन्निकटन (न्यूनतम और आवश्यक बुराई) के रूप में की जाती है।
  • मूल शब्द-दस्तावेज़ मैट्रिक्स को शोर माना जाता है: उदाहरण के लिए, शर्तों के उपाख्यानात्मक उदाहरणों को समाप्त किया जाना है। इस दृष्टिकोण से, अनुमानित मैट्रिक्स को डी-नोइसीफाइड मैट्रिक्स (मूल से बेहतर मैट्रिक्स) के रूप में व्याख्या किया जाता है।
  • मूल शब्द-दस्तावेज़ मैट्रिक्स को वास्तविक शब्द-दस्तावेज़ मैट्रिक्स के सापेक्ष अत्यधिक विरल मैट्रिक्स माना जाता है। अर्थात्, मूल मैट्रिक्स प्रत्येक दस्तावेज़ में वास्तव में केवल शब्दों को सूचीबद्ध करता है, जबकि हमें प्रत्येक दस्तावेज़ से संबंधित सभी शब्दों में रुचि हो सकती है - आम तौर पर समानार्थक शब्द के कारण बहुत बड़ा सेट।

रैंक कम होने का परिणाम यह है कि कुछ आयाम संयुक्त होते हैं और एक से अधिक पदों पर निर्भर होते हैं:

{(कार), (ट्रक), (फूल)} --> {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}

यह पर्यायवाची की पहचान करने की समस्या को कम करता है, क्योंकि रैंक कम करने से समान अर्थ वाले शब्दों से जुड़े आयामों को मर्ज करने की उम्मीद की जाती है। यह बहुपत्नी के साथ समस्या को आंशिक रूप से कम करता है, क्योंकि बहुपत्नी शब्दों के घटक जो सही दिशा में इंगित करते हैं, उन शब्दों के घटकों में जोड़े जाते हैं जो समान अर्थ साझा करते हैं। इसके विपरीत, घटक जो अन्य दिशाओं में इंगित करते हैं, वे या तो बस रद्द कर देते हैं, या सबसे खराब, इच्छित अर्थ के अनुरूप दिशाओं में घटकों से छोटे होते हैं।

व्युत्पत्ति

होने देना एक मैट्रिक्स बनें जहां तत्व अवधि की घटना का वर्णन करता है दस्तावेज़ में (यह हो सकता है, उदाहरण के लिए, आवृत्ति)। इस तरह दिखेगा:

अब इस मैट्रिक्स में एक पंक्ति एक शब्द के अनुरूप एक सदिश होगी, जो प्रत्येक दस्तावेज़ से अपना संबंध देती है:

इसी तरह, इस मैट्रिक्स में एक कॉलम एक दस्तावेज के अनुरूप एक सदिश होगा, जो प्रत्येक शब्द के संबंध को बताता है:

अब डॉट उत्पाद दो टर्म वैक्टर के बीच दस्तावेजों के सेट पर शर्तों के बीच संबंध देता है। मैट्रिक्स उत्पाद इन सभी डॉट उत्पादों को शामिल करता है। तत्व (जो तत्व के बराबर है ) डॉट उत्पाद शामिल है (). इसी तरह, मैट्रिक्स सभी दस्तावेज़ वैक्टरों के बीच डॉट उत्पादों को शामिल करता है, शर्तों पर उनका सहसंबंध देता है: .

अब, रैखिक बीजगणित के सिद्धांत से, का अपघटन मौजूद है ऐसा है कि और ऑर्थोगोनल मैट्रिक्स हैं और एक विकर्ण मैट्रिक्स है। इसे एक विलक्षण मूल्य अपघटन (एसवीडी) कहा जाता है:

मैट्रिक्स उत्पाद हमें शब्द और दस्तावेज़ सहसंबंध देते हैं, फिर बन जाते हैं

तब से और विकर्ण हैं हम देखते हैं के eigenvectors शामिल होने चाहिए , जबकि का ईजेनवेक्टर होना चाहिए . दोनों उत्पादों में समान गैर-शून्य eigenvalues ​​​​हैं, जो गैर-शून्य प्रविष्टियों द्वारा दिए गए हैं , या समान रूप से, गैर-शून्य प्रविष्टियों द्वारा . अब अपघटन इस तरह दिखता है:

मूल्य एकवचन मान कहलाते हैं, और और बाएँ और दाएँ एकवचन वैक्टर। का एकमात्र भाग ध्यान दें जो इसमें योगदान देता है है पंक्ति। इस पंक्ति वेक्टर को कॉल करने दें . इसी तरह, का ही हिस्सा है जो इसमें योगदान देता है है कॉलम, . ये ईजेनवेक्टर नहीं हैं, लेकिन सभी ईजेनवेक्टर पर निर्भर करते हैं।

यह पता चला है कि जब आप चुनते हैं सबसे बड़ा एकवचन मान, और उनके संबंधित एकवचन सदिश और , आपको पद मिलता है के लिए सन्निकटन सबसे छोटी त्रुटि (फ्रोबेनियस मानदंड) के साथ। इस सन्निकटन में न्यूनतम त्रुटि है। लेकिन इससे भी महत्वपूर्ण बात यह है कि अब हम शब्द और दस्तावेज़ वैक्टर को सिमेंटिक स्पेस के रूप में देख सकते हैं। पंक्ति शब्द वेक्टर उसके बाद है प्रविष्टियाँ इसे निम्न-आयामी स्थान पर मैप करती हैं। ये नए आयाम किसी भी बोधगम्य अवधारणा से संबंधित नहीं हैं। वे उच्च-आयामी स्थान के निम्न-आयामी सन्निकटन हैं। इसी तरह, दस्तावेज़ वेक्टर इस निम्न-आयामी स्थान में एक सन्निकटन है। हम इस सन्निकटन को इस प्रकार लिखते हैं

अब आप निम्न कार्य कर सकते हैं:

  • कैसे संबंधित दस्तावेज़ देखें और सदिशों की तुलना करके निम्न-आयामी स्थान में हैं और (आमतौर पर वेक्टर अंतरिक्ष मॉडल द्वारा)।
  • शर्तों की तुलना करना और वैक्टर की तुलना करके और . ध्यान दें कि अब एक कॉलम वेक्टर है।
  • दस्तावेजों और टर्म वेक्टर प्रस्तुतियों को कोसाइन जैसे समानता उपायों का उपयोग करके पारंपरिक क्लस्टरिंग एल्गोरिदम जैसे के-साधनों का उपयोग करके क्लस्टर किया जा सकता है।
  • किसी प्रश्न को देखते हुए, इसे एक लघु दस्तावेज़ के रूप में देखें, और निम्न-आयामी स्थान में अपने दस्तावेज़ों से इसकी तुलना करें।

उत्तरार्द्ध करने के लिए, आपको पहले अपनी क्वेरी को निम्न-आयामी स्थान में अनुवादित करना होगा। यह तब सहज है कि आपको उसी परिवर्तन का उपयोग करना चाहिए जिसका उपयोग आप अपने दस्तावेज़ों में करते हैं:

यहाँ ध्यान दें कि विकर्ण मैट्रिक्स का व्युत्क्रम मैट्रिक्स के भीतर प्रत्येक अशून्य मान को उल्टा करके पाया जा सकता है।

इसका मतलब है कि यदि आपके पास एक क्वेरी वेक्टर है , आपको अनुवाद करना होगा इससे पहले कि आप इसकी तुलना निम्न-आयामी अंतरिक्ष में दस्तावेज़ वैक्टर से करें। आप छद्म टर्म वैक्टर के लिए भी ऐसा कर सकते हैं:


एप्लीकेशन

नए निम्न-आयामी स्थान का आमतौर पर उपयोग किया जा सकता है:

  • निम्न-आयामी स्थान (डेटा क्लस्टरिंग, दस्तावेज़ वर्गीकरण) में दस्तावेज़ों की तुलना करें।
  • अनुवादित दस्तावेज़ों के आधार सेट (क्रॉस-लैंग्वेज सूचना पुनर्प्राप्ति) का विश्लेषण करने के बाद, सभी भाषाओं में समान दस्तावेज़ खोजें।
  • शब्दों (पर्यायवाची और बहुपत्नी) के बीच संबंध खोजें।
  • शर्तों की एक क्वेरी को देखते हुए, इसे निम्न-आयामी स्थान में अनुवादित करें, और मेल खाने वाले दस्तावेज़ (सूचना पुनर्प्राप्ति) खोजें।
  • सिमेंटिक तरीके से शब्दों के छोटे समूहों के बीच सबसे अच्छी समानता खोजें (अर्थात ज्ञान कोष के संदर्भ में), उदाहरण के लिए बहुविकल्पीय प्रश्नों में बहुविकल्पीय प्रश्न उत्तर मॉडल।[5]
  • मशीन लर्निंग / टेक्स्ट माइनिंग सिस्टम के फीचर स्पेस का विस्तार करें [6]
  • टेक्स्ट कॉर्पस में शब्द संघ का विश्लेषण करें [7]

प्राकृतिक भाषा प्रसंस्करण में पर्यायवाची और बहुरूपी मूलभूत समस्याएं हैं:

  • पर्यायवाची वह घटना है जहाँ विभिन्न शब्द एक ही विचार का वर्णन करते हैं। इस प्रकार, एक खोज इंजन में एक क्वेरी एक प्रासंगिक दस्तावेज़ को पुनः प्राप्त करने में विफल हो सकती है जिसमें क्वेरी में दिखाई देने वाले शब्द शामिल नहीं हैं। उदाहरण के लिए, डॉक्टरों के लिए एक खोज चिकित्सक शब्द वाले दस्तावेज़ को वापस नहीं लौटा सकती है, भले ही शब्दों का अर्थ समान हो।
  • अनेकार्थी शब्द वह परिघटना है जहाँ एक ही शब्द के अनेक अर्थ होते हैं। इसलिए एक खोज गलत अर्थ में वांछित शब्दों वाले अप्रासंगिक दस्तावेजों को पुनः प्राप्त कर सकती है। उदाहरण के लिए, पेड़ शब्द की तलाश में एक वनस्पतिशास्त्री और एक कंप्यूटर वैज्ञानिक शायद दस्तावेज़ों के अलग-अलग सेट चाहते हैं।

वाणिज्यिक एप्लीकेशन

पेटेंट के लिए पूर्व कला खोजों को करने में सहायता के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग किया गया है।[8]


मानव स्मृति में एप्लीकेशन

अव्यक्त सिमेंटिक विश्लेषण का उपयोग मानव स्मृति के अध्ययन में प्रचलित रहा है, विशेष रूप से मुक्त स्मरण और स्मृति खोज के क्षेत्रों में। दो शब्दों की सिमेंटिक समानता (जैसा कि अव्यक्त सिमेंटिक विश्लेषण द्वारा मापा जाता है) के बीच एक सकारात्मक संबंध है और संभावना है कि यादृच्छिक सामान्य संज्ञाओं की अध्ययन सूची का उपयोग करके शब्दों को एक के बाद एक मुफ्त रिकॉल कार्यों में वापस बुलाया जाएगा। उन्होंने यह भी नोट किया कि इन स्थितियों में, समान शब्दों के बीच अंतर-प्रतिक्रिया समय भिन्न शब्दों के बीच की तुलना में बहुत तेज था। इन निष्कर्षों को सिमेंटिक निकटता प्रभाव के रूप में जाना जाता है।[9] जब प्रतिभागियों ने अध्ययन की गई वस्तुओं को याद करने में गलतियाँ कीं, तो ये गलतियाँ उन वस्तुओं के रूप में हुईं जो वांछित वस्तु से अधिक सिमेंटिक से संबंधित थीं और पहले से अध्ययन की गई सूची में पाई गईं। ये पूर्व-सूची घुसपैठ, जैसा कि उन्हें कहा जाने लगा है, याद करने के लिए वर्तमान सूची में वस्तुओं के साथ प्रतिस्पर्धा करने लगते हैं।[10] एक अन्य मॉडल, जिसे वर्ड एसोसिएशन स्पेसेस (WAS) कहा जाता है, का उपयोग मेमोरी स्टडीज में प्रयोगों की एक श्रृंखला से मुक्त एसोसिएशन डेटा एकत्र करके किया जाता है और जिसमें 72,000 से अधिक विशिष्ट शब्द जोड़े के लिए शब्द संबंधितता के उपाय शामिल हैं।[11]


कार्यान्वयन

विलक्षण मान अपघटन आमतौर पर बड़े मैट्रिक्स विधियों (उदाहरण के लिए, लैंक्ज़ोस विधियों) का उपयोग करके गणना की जाती है, लेकिन एक तंत्रिका नेटवर्क जैसे दृष्टिकोण के माध्यम से वृद्धिशील रूप से और बहुत कम संसाधनों के साथ भी गणना की जा सकती है, जिसके लिए बड़े, पूर्ण-रैंक मैट्रिक्स की आवश्यकता नहीं होती है। स्मृति में आयोजित।[12] हाल ही में एक तेज़, वृद्धिशील, कम-स्मृति, बड़ा-मैट्रिक्स विलक्षण मान अपघटन एल्गोरिथम विकसित किया गया है।[13] MATLAB और Python इन तेज़ एल्गोरिदम के कार्यान्वयन उपलब्ध हैं। गोरेल और वेब (2005) के स्टोकेस्टिक सन्निकटन के विपरीत, ब्रांड का एल्गोरिदम (2003) एक सटीक समाधान प्रदान करता है। हाल के वर्षों में एसवीडी की कम्प्यूटेशनल जटिलता को कम करने के लिए प्रगति हुई है; उदाहरण के लिए, समानांतर ईजेनवैल्यू अपघटन करने के लिए एक समानांतर ARPACK एल्गोरिथ्म का उपयोग करके तुलनीय भविष्यवाणी गुणवत्ता प्रदान करते हुए विलक्षण मान अपघटन संगणना लागत को गति देना संभव है।[14]


सीमाएं

अव्यक्त सिमेंटिक विश्लेषण की कुछ कमियों में शामिल हैं:

  • परिणामी आयामों की व्याख्या करना कठिन हो सकता है। उदाहरण के लिए, में
{(कार), (ट्रक), (फूल)} ↦ {(1.3452 * कार + 0.2828 * ट्रक), (फूल)}
(1.3452 * कार + 0.2828 * ट्रक) घटक को वाहन के रूप में समझा जा सकता है। हालांकि, यह बहुत संभावना है कि मामले समीप हैं
{(कार), (बोतल), (फूल)} ↦ {(1.3452 * कार + 0.2828 * बोतल), (फूल)}
घटेगा। यह उन परिणामों की ओर ले जाता है जिन्हें गणितीय स्तर पर उचित ठहराया जा सकता है, लेकिन प्राकृतिक भाषा में इसका कोई स्पष्ट अर्थ नहीं है। हालांकि, (1.3452 * कार + 0.2828 * बोतल) घटक को इस तथ्य के कारण उचित ठहराया जा सकता है कि बोतलों और कारों दोनों में पारदर्शी और अपारदर्शी हिस्से होते हैं, मानव निर्मित होते हैं और उच्च संभावना के साथ उनकी सतह पर लोगो/शब्द होते हैं; इस प्रकार, कई मायनों में ये दो अवधारणाएँ सिमेंटिक को साझा करती हैं। अर्थात्, संबंधित भाषा के भीतर, असाइन करने के लिए आसानी से उपलब्ध शब्द नहीं हो सकता है और सरल शब्द/वर्ग/अवधारणा असाइनमेंट कार्य के विपरीत स्पष्टीकरण एक विश्लेषण कार्य बन जाता है।
  • अव्यक्त सिमेंटिक विश्लेषण केवल आंशिक रूप से पॉलीसेमी (यानी, एक शब्द के कई अर्थ) पर कब्जा कर सकता है क्योंकि किसी शब्द की प्रत्येक घटना को एक ही अर्थ के रूप में माना जाता है क्योंकि शब्द को अंतरिक्ष में एक बिंदु के रूप में दर्शाया जाता है। उदाहरण के लिए, बोर्ड के अध्यक्ष वाले दस्तावेज़ में और कुर्सी निर्माता वाले एक अलग दस्तावेज़ में कुर्सी की घटना को समान माना जाता है। कॉर्पस में सभी शब्दों के अलग-अलग अर्थों का 'औसत' होने के कारण वेक्टर प्रतिनिधित्व में व्यवहार का परिणाम होता है, जो तुलना के लिए मुश्किल बना सकता है।[15] हालाँकि, प्रभाव अक्सर कम हो जाता है क्योंकि शब्दों में एक कॉर्पस में एक शब्द बोध होता है (अर्थात सभी अर्थ समान रूप से होने की संभावना नहीं है)।
  • शब्द मॉडल का बैग (बीओडब्ल्यू) की सीमाएं, जहां एक टेक्स्ट को शब्दों के एक अनियंत्रित संग्रह के रूप में दर्शाया जाता है। शब्द मॉडल (बीओडब्ल्यू) के बैग की कुछ सीमाओं को संबोधित करने के लिए, एएन ग्राम | मल्टी-ग्राम शब्दकोश का उपयोग प्रत्यक्ष और अप्रत्यक्ष सहयोग के साथ-साथ उच्च-क्रम के आंकड़ों को खोजने के लिए किया जा सकता है। शब्दों के बीच उच्च-क्रम सह-घटनाएं।[16]
  • अव्यक्त सिमेंटिक विश्लेषण का संभाव्य मॉडल देखे गए डेटा से मेल नहीं खाता है: अव्यक्त सिमेंटिक विश्लेषण मानता है कि शब्द और दस्तावेज़ एक संयुक्त सामान्य वितरण मॉडल (एर्गोडिक परिकल्पना) बनाते हैं, जबकि एक पॉइसन वितरण देखा गया है। इस प्रकार, एक नया विकल्प एक बहुराष्ट्रीय वितरण मॉडल के आधार पर संभाव्य अव्यक्त सिमेंटिक विश्लेषण है, जो मानक अव्यक्त सिमेंटिक विश्लेषण से बेहतर परिणाम देने के लिए रिपोर्ट किया गया है।[17]


वैकल्पिक तरीके

सिमेंटिक हैशिंग

सिमेंटिक हैशिंग में [18] दस्तावेजों को एक तंत्रिका नेटवर्क के माध्यम से स्मृति पतों पर मैप किया जाता है ताकि सिमेंटिक के समान दस्तावेज पास के पते पर स्थित हों। ध्यान लगा के पढ़ना या सीखना अनिवार्य रूप से दस्तावेजों के एक बड़े सेट से प्राप्त शब्द-गणना वैक्टर का एक ग्राफिकल मॉडल बनाता है। क्वेरी दस्तावेज़ के समान दस्तावेज़ों को केवल उन सभी पतों तक पहुँचने के द्वारा पाया जा सकता है जो क्वेरी दस्तावेज़ के पते से केवल कुछ बिट्स से भिन्न होते हैं। अनुमानित मिलान के लिए हैश-कोडिंग की दक्षता का विस्तार करने का यह तरीका स्थानीयता संवेदनशील हैशिंग की तुलना में बहुत तेज़ है, जो कि सबसे तेज़ मौजूदा तरीका है।[clarification needed]

अव्यक्त सिमेंटिक इंडेक्सिंग

अव्यक्त सिमेंटिक इंडेक्सिंग एक अनुक्रमण और पुनर्प्राप्ति विधि है जो एक गणितीय तकनीक का उपयोग करती है जिसे विलक्षण मान अपघटन कहा जाता है ताकि टेक्स्ट के असंरचित संग्रह में निहित शब्दावली और अवधारणाओं के बीच संबंधों में पैटर्न की पहचान की जा सके। अव्यक्त सिमेंटिक इंडेक्सिंग इस सिद्धांत पर आधारित है कि समान संदर्भों में उपयोग किए जाने वाले शब्दों के समान अर्थ होते हैं। एलएसआई की एक प्रमुख विशेषता समान संदर्भ (भाषा उपयोग) में आने वाले उन शब्दों के बीच जुड़ाव स्थापित करके टेक्स्ट कॉर्पस की वैचारिक सामग्री को निकालने की इसकी क्षमता है।[19] एलएसआई पत्राचार विश्लेषण का भी एक एप्लीकेशन है, जो जीन-पॉल बेंज़ेरी द्वारा विकसित एक बहुभिन्नरूपी सांख्यिकीय तकनीक है[20] 1970 के दशक की शुरुआत में, दस्तावेजों में शब्द गणना से निर्मित एक आकस्मिक तालिका के लिए।

बुलायाlatent semantic सहसंबद्ध होने की क्षमता के कारण अनुक्रमण semantically संबंधित शब्द हैं latent टेक्स्ट के संग्रह में, इसे पहली बार 1980 के दशक के अंत में बेलकोर में टेक्स्ट पर लागू किया गया था। विधि, जिसे अव्यक्त सिमेंटिक विश्लेषण भी कहा जाता है, टेक्स्ट के शरीर में शब्दों के उपयोग में अंतर्निहित अव्यक्त सिमेंटिक संरचना को उजागर करता है और इसका उपयोग उपयोगकर्ता प्रश्नों के जवाब में टेक्स्ट के अर्थ को निकालने के लिए कैसे किया जा सकता है, जिसे आमतौर पर संदर्भित किया जाता है। अवधारणा खोज के रूप में। एलएसआई से गुजरने वाले दस्तावेजों के एक सेट के खिलाफ प्रश्न, या अवधारणा खोज, ऐसे परिणाम लौटाएंगे जो वैचारिक रूप से खोज मानदंड के अर्थ में समान हैं, भले ही परिणाम खोज मानदंड के साथ एक विशिष्ट शब्द या शब्द साझा न करें।

एलएसआई के लाभ

एलएसआई मूल्यांकन उपायों (सूचना पुनर्प्राप्ति) को बढ़ाकर समतुल्यता को दूर करने में मदद करता है # याद करें, बूलियन खोज और वेक्टर अंतरिक्ष मॉडल की सबसे समस्याग्रस्त बाधाओं में से एक।[15] दस्तावेजों के लेखकों और सूचना पुनर्प्राप्ति प्रणालियों के उपयोगकर्ताओं द्वारा उपयोग की जाने वाली शब्दावली में समानार्थी अक्सर बेमेल का कारण होता है।[21] परिणामस्वरूप, बूलियन या कीवर्ड प्रश्न अक्सर अप्रासंगिक परिणाम लौटाते हैं और प्रासंगिक जानकारी खो देते हैं।

अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग स्वचालित दस्तावेज़ वर्गीकरण करने के लिए भी किया जाता है। वास्तव में, कई प्रयोगों ने प्रदर्शित किया है कि एलएसआई और मानव जिस तरह से टेक्स्ट को संसाधित और वर्गीकृत करते हैं, उसके बीच कई संबंध हैं।[22] दस्तावेज़ वर्गीकरण श्रेणियों की वैचारिक सामग्री की समानता के आधार पर एक या अधिक पूर्वनिर्धारित श्रेणियों के लिए दस्तावेज़ों का असाइनमेंट है।[23] एलएसआई प्रत्येक श्रेणी के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग करता है। वर्गीकरण प्रसंस्करण के दौरान, वर्गीकृत किए जा रहे दस्तावेजों में निहित अवधारणाओं की तुलना उदाहरण वस्तुओं में निहित अवधारणाओं से की जाती है, और एक श्रेणी (या श्रेणियां) दस्तावेजों को उन अवधारणाओं के बीच समानता के आधार पर सौंपी जाती है जो उनमें शामिल होती हैं और जो अवधारणाएं निहित होती हैं। उदाहरण दस्तावेजों में।

दस्तावेजों की वैचारिक सामग्री के आधार पर गतिशील क्लस्टरिंग भी एलएसआई का उपयोग करके पूरा किया जा सकता है। क्लस्टरिंग प्रत्येक क्लस्टर के लिए वैचारिक आधार स्थापित करने के लिए उदाहरण दस्तावेजों का उपयोग किए बिना एक दूसरे के लिए उनकी वैचारिक समानता के आधार पर समूह दस्तावेजों का एक तरीका है। असंरचित टेक्स्ट के अज्ञात संग्रह से निपटने के दौरान यह बहुत उपयोगी है।

क्योंकि यह कड़ाई से गणितीय दृष्टिकोण का उपयोग करता है, अव्यक्त सिमेंटिक इंडेक्सिंग स्वाभाविक रूप से भाषा से स्वतंत्र है। यह अव्यक्त सिमेंटिक इंडेक्सिंग को सहायक संरचनाओं, जैसे शब्दकोशों और थिसौरी के उपयोग की आवश्यकता के बिना किसी भी भाषा में लिखी गई जानकारी की सिमेंटिक सामग्री को प्राप्त करने में सक्षम बनाता है। एलएसआई क्रॉस-भाषाई अवधारणा खोज और उदाहरण-आधारित वर्गीकरण भी कर सकता है। उदाहरण के लिए, प्रश्न एक भाषा में किए जा सकते हैं, जैसे कि अंग्रेजी, और संकल्पनात्मक रूप से समान परिणाम लौटाए जाएंगे, भले ही वे पूरी तरह से अलग भाषा या कई भाषाओं से बने हों।[citation needed]

एलएसआई केवल शब्दों के साथ काम करने तक ही सीमित नहीं है। यह मनमाना चरित्र तार भी संसाधित कर सकता है। टेक्स्ट के रूप में व्यक्त की जा सकने वाली किसी भी वस्तु को अव्यक्त सिमेंटिक इंडेक्सिंग वेक्टर स्पेस में प्रदर्शित किया जा सकता है। उदाहरण के लिए, मेडलाइन सार के साथ परीक्षण ने दिखाया है कि मेडलाइन उद्धरणों के शीर्षक और सार में निहित जैविक जानकारी के वैचारिक मॉडलिंग के आधार पर एलएसआई जीन को प्रभावी ढंग से वर्गीकृत करने में सक्षम है।[24] अव्यक्त सिमेंटिक इंडेक्सिंग स्वचालित रूप से नई और बदलती शब्दावली के अनुकूल हो जाता है, और शोर के प्रति बहुत सहिष्णु दिखाया गया है (यानी, गलत वर्तनी वाले शब्द, टाइपोग्राफ़िकल त्रुटियां, अपठनीय वर्ण, आदि)।[25] ऑप्टिकल कैरेक्टर रिकॉग्निशन (ओसीआर) और स्पीच-टू-टेक्स्ट रूपांतरण से प्राप्त टेक्स्ट का उपयोग करने वाले अनुप्रयोगों के लिए यह विशेष रूप से महत्वपूर्ण है। अव्यक्त सिमेंटिक इंडेक्सिंग विरल, अस्पष्ट और विरोधाभासी डेटा से भी प्रभावी ढंग से निपटता है।

एलएसआई के प्रभावी होने के लिए टेक्स्ट का वाक्य रूप में होना आवश्यक नहीं है। यह सूचियों, फ्री-फॉर्म नोट्स, ईमेल, वेब-आधारित सामग्री आदि के साथ काम कर सकता है। मूलपाठ।

अव्यक्त सिमेंटिक इंडेक्सिंग कई वैचारिक मिलान समस्याओं के लिए एक उपयोगी समाधान साबित हुआ है।[26][27] तकनीक को कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक जानकारी सहित प्रमुख संबंध जानकारी को कैप्चर करने के लिए दिखाया गया है।[28]


एलएसआई समयरेखा

  • 1960 के दशक के मध्य - कारक विश्लेषण तकनीक का पहली बार वर्णन और परीक्षण किया गया (एच. बोरको और एम. बर्निक)
  • 1988 - एलएसआई तकनीक पर सेमिनल पेपर प्रकाशित [19]*1989 - मूल पेटेंट प्रदान किया गया [19]*1992 - समीक्षकों को लेख सौंपने के लिए एलएसआई का पहला प्रयोग[29]
  • 1994 - अव्यक्त सिमेंटिक इंडेक्सिंग (Landauer et al.) के क्रॉस-लिंगुअल एप्लिकेशन के लिए पेटेंट प्रदान किया गया।
  • 1995 - निबंधों की ग्रेडिंग के लिए एलएसआई का पहला प्रयोग (फोल्त्ज़, एट अल., लैंडौएर एट अल.)
  • 1999 - असंरचित टेक्स्ट के विश्लेषण के लिए खुफिया समुदाय के लिए एलएसआई तकनीक का पहला कार्यान्वयन (विज्ञान एप्लीकेशन अंतर्राष्ट्रीय निगम)।
  • 2002 - खुफिया-आधारित सरकारी एजेंसियों (एसएआईसी) को एलएसआई-आधारित उत्पाद की पेशकश

एलएसआई का गणित

टेक्स्ट के संग्रह में वैचारिक सहसंबंधों को सीखने के लिए अव्यक्त सिमेंटिक इंडेक्सिंग सामान्य रेखीय बीजगणित तकनीकों का उपयोग करता है। सामान्य तौर पर, प्रक्रिया में भारित शब्द-दस्तावेज़ मैट्रिक्स का निर्माण करना, मैट्रिक्स पर एक विलक्षण मूल्य अपघटन करना और टेक्स्ट में निहित अवधारणाओं की पहचान करने के लिए मैट्रिक्स का उपयोग करना शामिल है।

टर्म-दस्तावेज़ मैट्रिक्स

अव्यक्त सिमेंटिक इंडेक्सिंग टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण से शुरू होता है, , की घटनाओं की पहचान करने के लिए के संग्रह के भीतर अद्वितीय शब्द दस्तावेज़। एक शब्द-दस्तावेज़ मैट्रिक्स में, प्रत्येक पद को एक पंक्ति द्वारा दर्शाया जाता है, और प्रत्येक दस्तावेज़ को एक कॉलम द्वारा दर्शाया जाता है, प्रत्येक मैट्रिक्स सेल के साथ, , प्रारंभ में संकेतित दस्तावेज़ में संबंधित शब्द कितनी बार प्रकट होता है, इसका प्रतिनिधित्व करता है, . यह मैट्रिक्स आमतौर पर बहुत बड़ा और बहुत विरल होता है।

टर्म-डॉक्यूमेंट मैट्रिक्स के निर्माण के बाद, डेटा को कंडीशन करने के लिए स्थानीय और ग्लोबल वेटिंग फ़ंक्शंस को उस पर लागू किया जा सकता है। वेटिंग फ़ंक्शन प्रत्येक सेल को रूपांतरित करते हैं, का , एक स्थानीय शब्द भार का गुणनफल होने के लिए, , जो किसी दस्तावेज़ में किसी शब्द की सापेक्ष आवृत्ति और वैश्विक भार का वर्णन करता है, , जो दस्तावेजों के संपूर्ण संग्रह के भीतर शब्द की सापेक्ष आवृत्ति का वर्णन करता है।

कुछ सामान्य स्थानीय भारोत्तोलन कार्य[30] निम्न तालिका में परिभाषित किया गया है।

Binary if the term exists in the document, or else
TermFrequency , the number of occurrences of term in document
Log
Augnorm

कुछ सामान्य ग्लोबल वेटिंग फ़ंक्शंस को निम्न तालिका में परिभाषित किया गया है।

Binary
Normal
GfIdf , where is the total number of times term occurs in the whole collection, and is the number of documents in which term occurs.
Idf (Inverse Document Frequency)
Entropy , where

एलएसआई के साथ अनुभवजन्य अध्ययन रिपोर्ट करते हैं कि लॉग और एंट्रॉपी वेटिंग फ़ंक्शन व्यवहार में, कई डेटा सेटों के साथ अच्छी तरह से काम करते हैं।[31] दूसरे शब्दों में, प्रत्येक प्रविष्टि का के रूप में गणना की जाती है:


रैंक-कम विलक्षण मान अपघटन

टेक्स्ट में निहित शब्दों और अवधारणाओं के बीच संबंधों में पैटर्न निर्धारित करने के लिए मैट्रिक्स पर एक रैंक-कम, विलक्षण मान अपघटन किया जाता है। एसवीडी एलएसआई की नींव रखता है।[32] यह एकल शब्द-आवृत्ति मैट्रिक्स का अनुमान लगाकर शब्द और दस्तावेज़ वेक्टर रिक्त स्थान की गणना करता है, , तीन अन्य मैट्रिसेस में- एक एम बाय आर शब्द-अवधारणा वेक्टर मैट्रिक्स , a r by r एकवचन मान मैट्रिक्स , और a n by r अवधारणा-दस्तावेज़ वेक्टर मैट्रिक्स, , जो निम्नलिखित संबंधों को संतुष्ट करते हैं:

सूत्र में, A को टेक्स्ट के संग्रह में शब्द आवृत्तियों के भारित मैट्रिक्स द्वारा m द्वारा आपूर्ति की जाती है, जहाँ m अद्वितीय शब्दों की संख्या है, और n है दस्तावेजों की संख्या। T शब्द सदिशों के r मैट्रिक्स द्वारा एक संगणित m है, जहाँ r A की कोटि है—इसके अद्वितीय आयामों का एक माप ≤ min(m,n)। S घटते एकवचन मानों का r विकर्ण मैट्रिक्स द्वारा परिकलित r है, और D दस्तावेज़ वैक्टर के r मैट्रिक्स द्वारा परिकलित n है।

एसवीडी तब विलक्षण मान अपघटन # कटा हुआ एसवीडी है जो केवल सबसे बड़े के «आर विकर्ण प्रविष्टियों को एकवचन मूल्य मैट्रिक्स एस में रखते हुए रैंक को कम करने के लिए है, जहाँ k आमतौर पर 100 से 300 आयामों के क्रम में होता है। यह प्रभावी ढंग से शब्द और दस्तावेज़ वेक्टर मैट्रिक्स आकार को क्रमशः m द्वारा k और n द्वारा k तक कम कर देता है। एसवीडी ऑपरेशन, इस कमी के साथ, ए के मूल स्थान के शोर और अन्य अवांछनीय कलाकृतियों को कम करते हुए टेक्स्ट में सबसे महत्वपूर्ण सिमेंटिक जानकारी को संरक्षित करने का प्रभाव है। मेट्रिसेस के इस कम सेट को अक्सर एक संशोधित सूत्र के साथ दर्शाया जाता है जैसे कि :

ए ≈ एk = टीk Sk Dkटी</सुप>

पूर्ण एसवीडी की गणना करने और फिर इसे छोटा करने के विपरीत कुशल एलएसआई एल्गोरिदम केवल पहले के विलक्षण मूल्यों और शब्द और दस्तावेज़ वैक्टर की गणना करते हैं।

ध्यान दें कि यह रैंक कमी अनिवार्य रूप से मैट्रिक्स ए पर प्रमुख कंपोनेंट विश्लेषण (पीसीए) करने के समान है, सिवाय इसके कि पीसीए साधनों को घटा देता है। पीसीए ए मैट्रिक्स की विरलता खो देता है, जो इसे बड़े लेक्सिकॉन के लिए अक्षम बना सकता है।

एलएसआई वेक्टर रिक्त स्थान को पूछताछ और बढ़ाना

परिकलित टीkऔर डीkमैट्रिसेस शब्द और दस्तावेज़ वेक्टर रिक्त स्थान को परिभाषित करते हैं, जो कि संगणित एकवचन मानों के साथ, Sk, दस्तावेज़ संग्रह से प्राप्त वैचारिक जानकारी को मूर्त रूप दें। इन स्थानों के भीतर शब्दों या दस्तावेजों की समानता इन स्थानों में एक दूसरे के कितने समीप है, इसका एक कारक है, आमतौर पर संबंधित वैक्टर के बीच कोण के एक समारोह के रूप में गणना की जाती है।

मौजूदा एलएसआई इंडेक्स के दस्तावेज़ स्थान के भीतर प्रश्नों के टेक्स्ट और नए दस्तावेज़ों का प्रतिनिधित्व करने वाले वैक्टरों का पता लगाने के लिए समान चरणों का उपयोग किया जाता है। ए = टी एस डी के एक साधारण परिवर्तन सेT समतुल्य D = A में समीकरणटी टी एस−1 समीकरण, एक प्रश्न के लिए या एक नए दस्तावेज़ के लिए एक नया वेक्टर, d, A में एक नए कॉलम की गणना करके और फिर नए कॉलम को T S से गुणा करके बनाया जा सकता है।-1. A में नए कॉलम की गणना मूल रूप से व्युत्पन्न ग्लोबल टर्म वेट का उपयोग करके की जाती है और उसी स्थानीय वेटिंग फ़ंक्शन को क्वेरी या नए दस्तावेज़ में शर्तों पर लागू किया जाता है।

नए खोजे जाने योग्य दस्तावेजों को जोड़ते समय इस तरह कंप्यूटिंग वैक्टरों में एक कमी यह है कि मूल सूचकांक के लिए एसवीडी चरण के दौरान अज्ञात शब्दों को नजरअंदाज कर दिया जाता है। इन शर्तों का टेक्स्ट के मूल संग्रह से प्राप्त वैश्विक भार और सीखे गए सहसंबंधों पर कोई प्रभाव नहीं पड़ेगा। हालाँकि, नए टेक्स्ट के लिए गणना किए गए वैक्टर अभी भी अन्य सभी दस्तावेज़ वैक्टरों के साथ समानता की तुलना के लिए बहुत प्रासंगिक हैं।

इस तरीके से नए दस्तावेज़ों के साथ अव्यक्त सिमेंटिक इंडेक्सिंग इंडेक्स के लिए दस्तावेज़ वेक्टर स्पेस को बढ़ाने की प्रक्रिया को 'फ़ोल्डिंग इन कहा जाता है। हालांकि फ़ोल्डिंग-इन प्रक्रिया नए टेक्स्ट की नई सिमेंटिक सामग्री के लिए जिम्मेदार नहीं है, इस तरह से पर्याप्त संख्या में दस्तावेज़ जोड़ने से प्रश्नों के लिए तब तक अच्छे परिणाम मिलेंगे जब तक कि उनमें शामिल शब्द और अवधारणाएँ अव्यक्त सिमेंटिक इंडेक्सिंग के भीतर अच्छी तरह से प्रस्तुत की जाती हैं। इंडेक्स जिसमें उन्हें जोड़ा जा रहा है। जब दस्तावेजों के एक नए सेट की शर्तों और अवधारणाओं को एलएसआई इंडेक्स में शामिल करने की आवश्यकता होती है, तो या तो टर्म-डॉक्यूमेंट मैट्रिक्स और एसवीडी को फिर से जोड़ा जाना चाहिए या एक वृद्धिशील अद्यतन विधि (जैसे कि वर्णित एक) [13] ज़रूरी है।

== एलएसआई == के अतिरिक्त उपयोग

यह आम तौर पर स्वीकार किया जाता है कि आधुनिक सूचना पुनर्प्राप्ति प्रणालियों के लिए सिमेंटिक आधार पर टेक्स्ट के साथ काम करने की क्षमता आवश्यक है। परिणामस्वरूप, हाल के वर्षों में अव्यक्त सिमेंटिक इंडेक्सिंग के उपयोग में काफी विस्तार हुआ है क्योंकि स्केलेबिलिटी और प्रदर्शन में पहले की चुनौतियाँ दूर हो गई हैं।

एलएसआई का उपयोग विभिन्न प्रकार की सूचना पुनर्प्राप्ति और टेक्स्ट प्रसंस्करण अनुप्रयोगों में किया जा रहा है, हालांकि इसका प्राथमिक एप्लीकेशन अवधारणा खोज और स्वचालित दस्तावेज़ वर्गीकरण के लिए किया गया है।[33] नीचे कुछ अन्य तरीके दिए गए हैं जिनमें अव्यक्त सिमेंटिक इंडेक्सिंग का उपयोग किया जा रहा है:

उद्यमों को मुकदमेबाजी के लिए तैयार करने में मदद करने के लिए इलेक्ट्रॉनिक दस्तावेज़ खोज (ईडिस्कवरी) के लिए एलएसआई का तेजी से उपयोग किया जा रहा है। ईडिस्कवरी में, वैचारिक आधार पर असंरचित टेक्स्ट के बड़े संग्रह को समूहीकृत करने, वर्गीकृत करने और खोजने की क्षमता आवश्यक है। अग्रणी प्रदाताओं द्वारा 2003 की शुरुआत में एलएसआई का उपयोग करते हुए अवधारणा-आधारित खोज को ईडिस्कवरी प्रक्रिया पर लागू किया गया है।[48]


== एलएसआई == के लिए चुनौतियां

अव्यक्त सिमेंटिक इंडेक्सिंग की शुरुआती चुनौतियाँ मापनीयता और प्रदर्शन पर केंद्रित थीं। एलएसआई को अन्य सूचना पुनर्प्राप्ति तकनीकों की तुलना में अपेक्षाकृत उच्च कम्प्यूटेशनल प्रदर्शन और मेमोरी की आवश्यकता होती है।[49] हालांकि, आधुनिक हाई-स्पीड प्रोसेसर के कार्यान्वयन और सस्ती मेमोरी की उपलब्धता के साथ, ये विचार काफी हद तक दूर हो गए हैं। कुछ एलएसआई अनुप्रयोगों में मैट्रिक्स और एसवीडी संगणनाओं के माध्यम से पूरी तरह से संसाधित किए गए 30 मिलियन से अधिक दस्तावेजों वाले वास्तविक दुनिया के एप्लीकेशन आम हैं। अव्यक्त सिमेंटिक इंडेक्सिंग का एक पूरी तरह से स्केलेबल (दस्तावेजों की असीमित संख्या, ऑनलाइन प्रशिक्षण) कार्यान्वयन ओपन सोर्स gensim सॉफ्टवेयर पैकेज में निहित है।[50] एलएसआई के लिए एक और चुनौती एसवीडी के प्रदर्शन के लिए उपयोग करने के लिए आयामों की इष्टतम संख्या निर्धारित करने में कथित कठिनाई रही है। एक सामान्य नियम के रूप में, कम आयाम टेक्स्ट के संग्रह में निहित अवधारणाओं की व्यापक तुलना की अनुमति देते हैं, जबकि आयामों की अधिक संख्या अवधारणाओं की अधिक विशिष्ट (या अधिक प्रासंगिक) तुलना करने में सक्षम बनाती है। उपयोग किए जा सकने वाले आयामों की वास्तविक संख्या संग्रह में दस्तावेज़ों की संख्या द्वारा सीमित है। अनुसंधान ने प्रदर्शित किया है कि लगभग 300 आयाम आमतौर पर मध्यम आकार के दस्तावेज़ संग्रह (सैकड़ों हजारों दस्तावेज़) और बड़े दस्तावेज़ संग्रह (लाखों दस्तावेज़) के लिए शायद 400 आयाम के साथ सर्वोत्तम परिणाम प्रदान करते हैं।[51] हालाँकि, हाल के अध्ययनों से संकेत मिलता है कि दस्तावेज़ संग्रह के आकार और प्रकृति के आधार पर 50-1000 आयाम उपयुक्त हैं।[52] एलएसआई के लिए इष्टतम आयाम निर्धारित करने के लिए प्रधान घटक विश्लेषण या कारक विश्लेषण के समान बनाए गए विचरण के अनुपात की जाँच करना। पर्यायवाची परीक्षण या लापता शब्दों की भविष्यवाणी का उपयोग करना सही आयाम खोजने के लिए दो संभावित तरीके हैं।[53] जब एलएसआई विषयों को पर्यवेक्षित शिक्षण विधियों में सुविधाओं के रूप में उपयोग किया जाता है, तो आदर्श आयाम खोजने के लिए भविष्यवाणी त्रुटि माप का उपयोग किया जा सकता है।

यह भी देखें

संदर्भ

  1. Susan T. Dumais (2005). "अव्यक्त शब्दार्थ विश्लेषण". Annual Review of Information Science and Technology. 38: 188–230. doi:10.1002/aris.1440380105.
  2. "The Latent Semantic Indexing home page".
  3. http://topicmodels.west.uni-koblenz.de/ckling/tmt/svd_ap.html
  4. Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ISBN 978-1-4471-2226-5[page needed]
  5. Alain Lifchitz; Sandra Jhean-Larose; Guy Denhière (2009). "एलएसए बहुविकल्पीय प्रश्नों के उत्तर देने वाले मॉडल पर ट्यून किए गए मापदंडों का प्रभाव" (PDF). Behavior Research Methods. 41 (4): 1201–1209. arXiv:0811.0146. doi:10.3758/BRM.41.4.1201. PMID 19897829. S2CID 480826.
  6. 6.0 6.1 Ramiro H. Gálvez; Agustín Gravano (2017). "स्वचालित स्टॉक भविष्यवाणी प्रणाली में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  7. 7.0 7.1 Altszyler, E.; Ribeiro, S.; Sigman, M.; Fernández Slezak, D. (2017). "The interpretation of dream meaning: Resolving ambiguity using Latent Semantic Analysis in a small corpus of text". Consciousness and Cognition. 56: 178–187. arXiv:1610.01520. doi:10.1016/j.concog.2017.09.004. PMID 28943127. S2CID 195347873.
  8. Gerry J. Elman (October 2007). "स्वचालित पेटेंट परीक्षा समर्थन - एक प्रस्ताव". Biotechnology Law Report. 26 (5): 435–436. doi:10.1089/blr.2007.9896.
  9. Marc W. Howard; Michael J. Kahana (1999). "फ्री रिकॉल में प्रासंगिक परिवर्तनशीलता और सीरियल स्थिति प्रभाव" (PDF). {{cite journal}}: Cite journal requires |journal= (help)
  10. Franklin M. Zaromb; et al. (2006). फ्री रिकॉल में टेम्पोरल एसोसिएशन और प्रायर-लिस्ट घुसपैठ (PDF). Interspeech'2005.
  11. Nelson, Douglas. "यूनिवर्सिटी ऑफ साउथ फ्लोरिडा वर्ड एसोसिएशन, राइम एंड वर्ड फ्रैगमेंट नॉर्म्स". Retrieved May 8, 2011.
  12. Geneviève Gorrell; Brandyn Webb (2005). "अव्यक्त सिमेंटिक विश्लेषण के लिए सामान्यीकृत हेब्बियन एल्गोरिथम" (PDF). Interspeech'2005. Archived from the original (PDF) on 2008-12-21.
  13. 13.0 13.1 Matthew Brand (2006). "थिन सिंगुलर वैल्यू डीकंपोज़िशन का तेज़ लो-रैंक संशोधन" (PDF). Linear Algebra and Its Applications. 415: 20–30. doi:10.1016/j.laa.2005.07.021.
  14. Ding, Yaguang; Zhu, Guofeng; Cui, Chenyang; Zhou, Jian; Tao, Liang (2011). मैप-रिड्यूस और PARPACK पर आधारित एकवचन मूल्य अपघटन का समानांतर कार्यान्वयन. pp. 739–741. doi:10.1109/ICCSNT.2011.6182070. ISBN 978-1-4577-1587-7. S2CID 15281129. {{cite book}}: |journal= ignored (help)
  15. 15.0 15.1 Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "अव्यक्त सिमेंटिक विश्लेषण द्वारा अनुक्रमण". Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.108.8490. doi:10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9.
  16. Abedi, Vida; Yeasin, Mohammed; Zand, Ramin (27 November 2014). "ज्ञान की खाई को पाटने में शब्दार्थ से संबंधित संघों के नेटवर्क का उपयोग करते हुए अनुभवजन्य अध्ययन". Journal of Translational Medicine. 12 (1): 324. doi:10.1186/s12967-014-0324-9. PMC 4252998. PMID 25428570.
  17. Thomas Hofmann (1999). "संभाव्य अव्यक्त शब्दार्थ विश्लेषण". Uncertainty in Artificial Intelligence. arXiv:1301.6705.
  18. Salakhutdinov, Ruslan, and Geoffrey Hinton. "Semantic hashing." RBM 500.3 (2007): 500.
  19. 19.0 19.1 19.2 Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.
  20. Benzécri, J.-P. (1973). L'Analyse des Données. Volume II. L'Analyse des Correspondences. Paris, France: Dunod.
  21. Furnas, G. W.; Landauer, T. K.; Gomez, L. M.; Dumais, S. T. (1987). "मानव-प्रणाली संचार में शब्दावली समस्या". Communications of the ACM. 30 (11): 964–971. CiteSeerX 10.1.1.118.4768. doi:10.1145/32206.32212. S2CID 3002280.
  22. Landauer, T., et al., Learning Human-like Knowledge by Singular Value Decomposition: A Progress Report, M. I. Jordan, M. J. Kearns & S. A. Solla (Eds.), Advances in Neural Information Processing Systems 10, Cambridge: MIT Press, 1998, pp. 45–51.
  23. Dumais, S.; Platt, J.; Heckerman, D.; Sahami, M. (1998). "Inductive learning algorithms and representations for text categorization" (PDF). Proceedings of the seventh international conference on Information and knowledge management - CIKM '98. pp. 148. CiteSeerX 10.1.1.80.8909. doi:10.1145/288627.288651. ISBN 978-1581130614. S2CID 617436.
  24. Homayouni, R.; Heinrich, K.; Wei, L.; Berry, M. W. (2004). "मेडलाइन सार के अव्यक्त सिमेंटिक इंडेक्सिंग द्वारा जीन क्लस्टरिंग". Bioinformatics. 21 (1): 104–115. doi:10.1093/bioinformatics/bth464. PMID 15308538.
  25. Price, R. J.; Zukas, A. E. (2005). "Application of Latent Semantic Indexing to Processing of Noisy Text". खुफिया और सुरक्षा सूचना विज्ञान. Lecture Notes in Computer Science. Vol. 3495. p. 602. doi:10.1007/11427995_68. ISBN 978-3-540-25999-2.
  26. Ding, C., A Similarity-based Probability Model for Latent Semantic Indexing, Proceedings of the 22nd International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999, pp. 59–65.
  27. Bartell, B., Cottrell, G., and Belew, R., Latent Semantic Indexing is an Optimal Special Case of Multidimensional Scaling[dead link], Proceedings, ACM SIGIR Conference on Research and Development in Information Retrieval, 1992, pp. 161–167.
  28. Graesser, A.; Karnavat, A. (2000). "अव्यक्त शब्दार्थ विश्लेषण कारण, लक्ष्य-उन्मुख और टैक्सोनोमिक संरचनाओं को पकड़ता है". Proceedings of CogSci 2000: 184–189. CiteSeerX 10.1.1.23.5444.
  29. Dumais, S.; Nielsen, J. (1992). समीक्षकों को प्रस्तुत पांडुलिपियों के असाइनमेंट को स्वचालित करना. pp. 233–244. CiteSeerX 10.1.1.16.9793. doi:10.1145/133160.133205. ISBN 978-0897915236. S2CID 15038631. {{cite book}}: |journal= ignored (help)
  30. Berry, M. W., and Browne, M., Understanding Search Engines: Mathematical Modeling and Text Retrieval, Society for Industrial and Applied Mathematics, Philadelphia, (2005).
  31. Landauer, T., et al., Handbook of Latent Semantic Analysis, Lawrence Erlbaum Associates, 2007.
  32. Berry, Michael W., Dumais, Susan T., O'Brien, Gavin W., Using Linear Algebra for Intelligent Information Retrieval, December 1994, SIAM Review 37:4 (1995), pp. 573–595.
  33. Dumais, S., Latent Semantic Analysis, ARIST Review of Information Science and Technology, vol. 38, 2004, Chapter 4.
  34. Best Practices Commentary on the Use of Search and Information Retrieval Methods in E-Discovery, the Sedona Conference, 2007, pp. 189–223.
  35. Foltz, P. W. and Dumais, S. T. Personalized Information Delivery: An analysis of information filtering methods, Communications of the ACM, 1992, 34(12), 51-60.
  36. Gong, Y., and Liu, X., Creating Generic Text Summaries, Proceedings, Sixth International Conference on Document Analysis and Recognition, 2001, pp. 903–907.
  37. Bradford, R., Efficient Discovery of New Information in Large Text Databases, Proceedings, IEEE International Conference on Intelligence and Security Informatics, Atlanta, Georgia, LNCS Vol. 3495, Springer, 2005, pp. 374–380.
  38. Bradford, R. B. (2006). "Application of Latent Semantic Indexing in Generating Graphs of Terrorist Networks". खुफिया और सुरक्षा सूचना विज्ञान. Lecture Notes in Computer Science. Vol. 3975. pp. 674–675. doi:10.1007/11760146_84. ISBN 978-3-540-34478-0.
  39. Yarowsky, D., and Florian, R., Taking the Load off the Conference Chairs: Towards a Digital Paper-routing Assistant, Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in NLP and Very-Large Corpora, 1999, pp. 220–230.
  40. Caron, J., Applying LSA to Online Customer Support: A Trial Study, Unpublished Master's Thesis, May 2000.
  41. Soboroff, I., et al, Visualizing Document Authorship Using N-grams and Latent Semantic Indexing, Workshop on New Paradigms in Information Visualization and Manipulation, 1997, pp. 43–48.
  42. Monay, F., and Gatica-Perez, D., On Image Auto-annotation with Latent Space Models, Proceedings of the 11th ACM international conference on Multimedia, Berkeley, CA, 2003, pp. 275–278.
  43. Maletic, J.; Marcus, A. (November 13–15, 2000). कार्यक्रम की समझ को समर्थन देने के लिए स्रोत कोड में समानता की पहचान करने के लिए अव्यक्त सिमेंटिक विश्लेषण का उपयोग करना. pp. 46–53. CiteSeerX 10.1.1.36.6652. doi:10.1109/TAI.2000.889845. ISBN 978-0-7695-0909-9. S2CID 10354564. {{cite book}}: |journal= ignored (help)CS1 maint: location missing publisher (link)
  44. Gee, K., Using Latent Semantic Indexing to Filter Spam, in: Proceedings, 2003 ACM Symposium on Applied Computing, Melbourne, Florida, pp. 460–464.
  45. Landauer, T., Laham, D., and Derr, M., From Paragraph to Graph: Latent Semantic Analysis for Information Visualization, Proceedings of the National Academy of Sciences, 101, 2004, pp. 5214–5219.
  46. Foltz, Peter W., Laham, Darrell, and Landauer, Thomas K., Automated Essay Scoring: Applications to Educational Technology, Proceedings of EdMedia, 1999.
  47. Gordon, M., and Dumais, S., Using Latent Semantic Indexing for Literature Based Discovery, Journal of the American Society for Information Science, 49(8), 1998, pp. 674–685.
  48. There Has to be a Better Way to Search, 2008, White Paper, Fios, Inc.
  49. Karypis, G., Han, E., Fast Supervised Dimensionality Reduction Algorithm with Applications to Document Categorization and Retrieval, Proceedings of CIKM-00, 9th ACM Conference on Information and Knowledge Management.
  50. Radim Řehůřek (2011). "Subspace Tracking for Latent Semantic Analysis". सूचना पुनर्प्राप्ति में अग्रिम. pp. 289–300. doi:10.1007/978-3-642-20161-5_29. ISBN 978-3-642-20160-8. {{cite book}}: |journal= ignored (help)
  51. Bradford, R., An Empirical Study of Required Dimensionality for Large-scale Latent Semantic Indexing Applications, Proceedings of the 17th ACM Conference on Information and Knowledge Management, Napa Valley, California, USA, 2008, pp. 153–162.
  52. Landauer, Thomas K., and Dumais, Susan T., Latent Semantic Analysis, Scholarpedia, 3(11):4356, 2008.
  53. Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25, 259-284


अग्रिम पठन


बाहरी संबंध

अव्यक्त सिमेंटिक विश्लेषण पर लेख

  • Latent Semantic Analysis, अव्यक्त सिमेंटिक विश्लेषण पर एक स्कॉलरपीडिया लेख, जिसे अव्यक्त सिमेंटिक विश्लेषण के रचनाकारों में से एक, टॉम लैंडॉयर ने लिखा है।

वार्ता और प्रदर्शन

  • LSA अवलोकन, प्रो. थॉमस हॉफमैन द्वारा बातचीत अव्यक्त सिमेंटिक विश्लेषण का वर्णन, सूचना पुनर्प्राप्ति में इसके एप्लीकेशन, और संभाव्य अव्यक्त सिमेंटिक विश्लेषण से इसके संबंध।
  • Windows के लिए C# में पूर्ण LSA नमूना कोड। डेमो कोड में टेक्स्ट फाइलों की गणना, स्टॉप वर्ड्स को फ़िल्टर करना, स्टेमिंग करना, डॉक्यूमेंट-टर्म मैट्रिक्स और एसवीडी बनाना शामिल है।

कार्यान्वयन

सूचना पुनर्प्राप्ति, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), संज्ञानात्मक विज्ञान और कम्प्यूटेशनल भाषाविज्ञान में इसके क्रॉस-डोमेन अनुप्रयोगों के कारण, अव्यक्त सिमेंटिक विश्लेषण को कई अलग-अलग प्रकार के अनुप्रयोगों का समर्थन करने के लिए लागू किया गया है।

  • सेंस क्लस्टर्स, अव्यक्त सिमेंटिक विश्लेषण का एक सूचना पुनर्प्राप्ति-उन्मुख पर्ल कार्यान्वयन
  • एस-स्पेस पैकेज, अव्यक्त सिमेंटिक विश्लेषण का कम्प्यूटेशनल भाषाविज्ञान और संज्ञानात्मक विज्ञान-उन्मुख जावा कार्यान्वयन
  • सिमेंटिक वेक्टर्स Lucene टर्म-डॉक्यूमेंट मैट्रिसेस पर रैंडम प्रोजेक्शन, LSA और रिफ्लेक्टिव रैंडम इंडेक्सिंग लागू करता है
  • Infomap Project, LSA का एक NLP-उन्मुख C कार्यान्वयन (सिमेंटिकवेक्टर प्रोजेक्ट द्वारा प्रतिस्थापित)
  • Text to Matrix Generator, टेक्स्ट संग्रह से शब्द-दस्तावेज़ मैट्रिक्स उत्पन्न करने के लिए एक MATLAB टूलबॉक्स, LSA के समर्थन के साथ
  • Gensim में RAM से बड़े मैट्रिसेस के लिए LSA का Python कार्यान्वयन शामिल है।

श्रेणी:सूचना पुनर्प्राप्ति तकनीकें श्रेणी:प्राकृतिक भाषा संसाधन श्रेणी:अव्यक्त चर मॉडल श्रेणी:सिमेंटिक संबंध