रैंकिंग (सूचना पुनर्प्राप्ति)

From Vigyanwiki

क्वेरी की रैंकिंग सूचना पुनर्प्राप्ति (आईआर) में मूलभूत समस्याओं में से एक है,[1] सर्च इंजन के पीछे का वैज्ञानिक/इंजीनियरिंग अनुशासन[2] क्वेरी q और क्वेरी से मेल खाते हैं, अर्थात् डाक्यूमेंटेशन के संग्रह D को देखते हुए समस्या कुछ मानदंडों के अनुसार D डाक्यूमेंटेशन को क्रमबद्ध करने के अनुसार जिससे सर्वोत्तम परिणाम उपयोगकर्ता को प्रदर्शित परिणाम सूची में जल्दी दिखाई दें। सूचना पुनर्प्राप्ति के संदर्भ में रैंकिंग कंप्यूटर विज्ञान में महत्वपूर्ण अवधारणा है। और इसका उपयोग सर्च इंजन क्वेरी और अनुशंसा प्रणाली जैसे कई अलग-अलग अनुप्रयोगों में किया जाता है।[3] अधिकांश सर्च इंजन उपयोगकर्ताओं को सटीक और प्रासंगिक (सूचना पुनर्प्राप्ति) परिणाम प्रदान करने के लिए रैंकिंग एल्गोरिदम का उपयोग करते हैं।[4]


इतिहास

पेज रैंक की धारणा 1940 के दशक की है और यह विचार अर्थशास्त्र के क्षेत्र में उत्पन्न हुआ था। 1941 में, वासिली लियोन्टीफ़ ने किसी देश के क्षेत्र को संसाधनों की आपूर्ति करने वाले अन्य क्षेत्रों के महत्व के आधार पर उसके मूल्यांकन की पुनरावृत्तीय पद्धति विकसित की 1965 में, कैलिफ़ोर्निया विश्वविद्यालय, सांता बारबरा में चार्ल्स एच हबबेल ने उन लोगों के महत्व के आधार पर व्यक्तियों के महत्व को निर्धारित करने के लिए तकनीक प्रकाशित की जो उनका समर्थन करते हैं।[5]

गेब्रियल पिंस्की और फ्रांसिस नारिन पत्रिकाओं को रैंक करने के लिए दृष्टिकोण लेकर आए[6] उनका नियम था कि कोई पत्रिका तभी महत्वपूर्ण होती है। जब उसे अन्य महत्वपूर्ण पत्रिकाओं द्वारा उद्धृत किया जाता है। कॉर्नेल विश्वविद्यालय के कंप्यूटर वैज्ञानिक जॉन क्लेनबर्ग ने पृष्ठ रैंक के लिए लगभग समान दृष्टिकोण विकसित किया, जिसे हिट्स एल्गोरिदम या हिट्स कहा गया और इसने वेब पृष्ठ को हब और अधिकार के रूप में माना।

गूगल का पेजरैंक एल्गोरिदम 1998 में गूगल के संस्थापकों सर्गी ब्रिन और लेरी पेज द्वारा विकसित किया गया था और यह सर्च इंजन परिणाम पृष्ठ में वेब पेजों को रैंकिंग देने की गूगल की पद्धति का महत्वपूर्ण भाग है।[7] उपरोक्त सभी विधियाँ कुछ सीमा तक समान हैं क्योंकि ये सभी लिंक की संरचना का शोषण करती हैं और पुनरावृत्त दृष्टिकोण की आवश्यकता होती है।[8]


रैंकिंग मॉडल

रैंकिंग कार्यों का मूल्यांकन विभिन्न माध्यमों से किया जाता है; सबसे सरल में से एक है कुछ निश्चित k के लिए पहले k शीर्ष क्रम के परिणामों की सटीकता (सूचना पुनर्प्राप्ति) निर्धारित करना; उदाहरण के लिए, कई प्रश्नों पर औसतन शीर्ष 10 परिणामों का अनुपात, जो प्रासंगिक हैं।

आईआर मॉडल को सामान्यतः तीन प्रकारों में विभाजित किया जा सकता है: सूचना पुनर्प्राप्ति का बूलियन मॉडल या बीआईआर, वेक्टर स्पेस मॉडल और सांख्यिकीय भाषा अधिग्रहण[9] पुनर्प्राप्ति मॉडल के बीच विभिन्न तुलनाएँ साहित्य में पाई जा सकती हैं। (उदाहरण के लिए, [10])

बूलियन मॉडल

बूलियन मॉडल या बीआईआर सरल बेसलाइन क्वेरी मॉडल है जहां प्रत्येक क्वेरी बीजगणितीय अभिव्यक्तियों के साथ संबंधपरक बीजगणित के अंतर्निहित सिद्धांतों का पालन करती है। और जहां दस्तावेज़ तब तक नहीं लाए जाते जब तक कि वे एक-दूसरे से पूरी तरह मेल नहीं खाते चूँकि क्वेरी या तो दस्तावेज़ लाती है (1) या दस्तावेज़ लाती नहीं है (0), उन्हें रैंक करने की कोई पद्धति नहीं है।

वेक्टर स्पेस मॉडल

चूँकि बूलियन मॉडल केवल पूर्ण मिलान प्राप्त करता है, यह डाक्यूमेंटेशन के आंशिक रूप से मिलान होने की समस्या का समाधान नहीं करता है। वेक्टर स्पेस मॉडल प्रत्येक भार के साथ निर्दिष्ट सूचकांक वस्तुओं के वैक्टर को प्रस्तुत करके इस समस्या का समाधान करता है। यदि दस्तावेज़ उपस्थित हैं तो भार सकारात्मक (यदि पूरी तरह से या कुछ सीमा तक मेल खाता है।) से लेकर नकारात्मक (यदि बेमेल या पूरी तरह से विपरीत रूप से मेल खाता है) तक होता है। टर्म तरंग - व्युत्क्रम दस्तावेज़ तरंग (tf-idf) सबसे लोकप्रिय तकनीकों में से एक है जहाँ वज़न शब्द हैं (जैसे शब्द, कीवर्ड, वाक्यांश आदि) और आयाम कॉर्पस के अंदर शब्दों की संख्या है।

कोसाइन समानता का उपयोग करके क्वेरी वेट वेक्टर और दस्तावेज़ वेट वेक्टर के बीच कोसाइन मान की गणना करके क्वेरी और दस्तावेज़ के बीच समानता स्कोर पाया जा सकता है। वांछित डाक्यूमेंटेशन को समानता स्कोर के अनुसार रैंकिंग करके प्राप्त किया जा सकता है और शीर्ष k दस्तावेज़ प्राप्त किए जा सकते हैं जिनके स्कोर उच्चतम हैं या क्वेरी वेक्टर के लिए सबसे अधिक प्रासंगिक हैं।

संभाव्य मॉडल

संभाव्य मॉडल में, संभाव्यता सिद्धांत का उपयोग गणितीय शब्दों में पुनर्प्राप्ति प्रक्रिया को मॉडलिंग करने के लिए प्रमुख साधन के रूप में किया गया है। सूचना पुनर्प्राप्ति का संभाव्यता मॉडल 1960 में मैरोन और कुह्न्स द्वारा प्रस्तुत किया गया था और इसे रॉबर्टस्टन और अन्य शोधकर्ताओं द्वारा विकसित किया गया था। स्पैक जोन्स और विलेट (1997) के अनुसार: संभाव्य अवधारणाओं को प्रस्तुत करने का औचित्य स्पष्ट है: आईआर प्रणाली प्राकृतिक भाषा से निपटते हैं, और यह इतना अधिक सिद्ध नहीं है कि किसी प्रणाली को निश्चित रूप से यह बताने में सक्षम बनाया जा सके कि कौन सा दस्तावेज़ किसी विशेष प्रश्न के लिए प्रासंगिक होगा।

मॉडल सूचना पुनर्प्राप्ति के लिए संभाव्यता के सिद्धांत को प्रस्तुत करता है। (किसी घटना के घटित होने की संभावना 0 प्रतिशत से 100 प्रतिशत तक होती है।) अर्थात्, संभाव्यता मॉडल में, प्रासंगिकता संभाव्यता के संदर्भ में व्यक्त की जाती है। यहां, डाक्यूमेंटेशन को प्रासंगिकता की घटती संभावना के क्रम में क्रमबद्ध किया गया है। यह आईआर प्रक्रिया में अनिश्चितता तत्व पर विचार करता है। अर्थात्, इस बारे में अनिश्चितता कि प्रणाली द्वारा पुनर्प्राप्त दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक हैं या नहीं।

संभाव्यता मॉडल का उद्देश्य इस संभावना का अनुमान लगाना और गणना करना है कि कुछ विधियों के आधार पर दस्तावेज़ किसी दिए गए प्रश्न के लिए प्रासंगिक होगा। सूचना पुनर्प्राप्ति के इस संदर्भ में "घटना" क्वेरी और दस्तावेज़ के बीच प्रासंगिकता की संभावना को संदर्भित करता है। अन्य आईआर मॉडल के विपरीत, संभाव्यता मॉडल प्रासंगिकता को सटीक मिस-या-मैच माप के रूप में नहीं मानता है।

मॉडल प्रश्नों और डाक्यूमेंटेशन के बीच प्रासंगिकता की संभावना निर्धारित करने के लिए विभिन्न विधियों को अपनाता है। संभाव्यता मॉडल में प्रासंगिकता को प्रश्नों और डाक्यूमेंटेशन के बीच समानता के अनुसार मापा जाता है। समानता का निर्णय आगे शब्द आवृत्ति पर निर्भर है।

इस प्रकार, केवल शब्द (B) से युक्त प्रश्न के लिए, विशेष दस्तावेज़ (dm) को प्रासंगिक माना जाएगा की संभावना उन उपयोगकर्ताओं का अनुपात है जो प्रश्न शब्द (B) जमा करते हैं और दस्तावेज़ (dm) को प्रासंगिक मानते हैं शब्द (B) सबमिट करने वाले उपयोगकर्ताओं की संख्या के संबंध में। जैसा कि मैरॉन और कुह्न के मॉडल में दर्शाया गया है, इसे इस संभावना के रूप में दर्शाया जा सकता है कि विशेष क्वेरी शब्द (B) सबमिट करने वाले उपयोगकर्ता व्यक्तिगत दस्तावेज़ (dm) को प्रासंगिक मानेंगे।

जेरार्ड साल्टन और माइकल जे. मैकगिल के अनुसार, इस मॉडल का सार यह है कि यदि प्रासंगिक डाक्यूमेंटेशन में विभिन्न शब्दों के घटित होने की संभावना के अनुमान की गणना की जा सकती है, तो संभावनाएँ कि दस्तावेज़ पुनः प्राप्त किया जाएगा, यह देखते हुए कि यह प्रासंगिक है, या कि नहीं है, इसका अनुमान लगाया जा सकता है।[11]

कई प्रयोगों से पता चला है कि संभाव्य मॉडल अच्छे परिणाम दे सकता है। चूंकि, ऐसे परिणाम बूलियन या वेक्टर स्पेस मॉडल का उपयोग करके प्राप्त परिणामों से पर्याप्त रूप से उचित नहीं हैं।[12][13]


मूल्यांकन के उपाय

मूल्यांकन के सबसे सामान्य उपाय परिशुद्धता, रिकॉल और f-स्कोर हैं। उनकी गणना डाक्यूमेंटेशन के अव्यवस्थित सेटों का उपयोग करके की जाती है। आधुनिक सर्च इंजनों में मानक रैंक किए गए पुनर्प्राप्ति परिणामों का मूल्यांकन करने के लिए इन उपायों को बढ़ाया जाना चाहिए, या नए उपायों को परिभाषित किया जाना चाहिए। रैंक किए गए पुनर्प्राप्ति संदर्भ में, पुनर्प्राप्त डाक्यूमेंटेशन के उचित सेट स्वाभाविक रूप से शीर्ष k पुनर्प्राप्त डाक्यूमेंटेशन द्वारा दिए जाते हैं। ऐसे प्रत्येक सेट के लिए, परिशुद्धता-रिकॉल वक्र देने के लिए परिशुद्धता और रिकॉल मानों को प्लॉट किया जा सकता है।[14]


परिशुद्धता

परिशुद्धता पुनर्प्राप्ति प्रक्रिया की सटीकता को मापती है। यदि प्रासंगिक डाक्यूमेंटेशन का वास्तविक सेट I द्वारा दर्शाया गया है और डाक्यूमेंटेशन का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो सटीकता इस प्रकार दी गई है:


स्मरण

रिकॉल आईआर प्रक्रिया की पूर्णता का माप है। यदि प्रासंगिक डाक्यूमेंटेशन का वास्तविक सेट द्वारा दर्शाया गया है और डाक्यूमेंटेशन का पुनर्प्राप्त सेट O द्वारा दर्शाया गया है, तो रिकॉल इस प्रकार दिया जाता है:


F1 स्कोर

F1 स्कोर परिशुद्धता और रिकॉल माप को संयोजित करने का प्रयास करता है। यह दोनों का हार्मोनिक माध्य है। यदि P परिशुद्धता है और R रिकॉल है तो F-स्कोर इस प्रकार दिया जाता है:


पेज रैंक एल्गोरिथम

पेजरैंक एल्गोरिदम संभाव्यता वितरण को आउटपुट करता है जिसका उपयोग इस संभावना को दर्शाने के लिए किया जाता है कि लिंक पर अनियमित ढंग से क्लिक करने वाला व्यक्ति किसी विशेष पृष्ठ पर पहुंच जाएगा। पेजरैंक की गणना किसी भी आकार के डाक्यूमेंटेशन के संग्रह के लिए की जा सकती है। कई शोध पत्रों में यह माना गया है कि कम्प्यूटेशनल प्रक्रिया की प्रारंभिक में वितरण को संग्रह के सभी डाक्यूमेंटेशन के बीच समान रूप से विभाजित किया गया है। पेजरैंक गणना के लिए सैद्धांतिक वास्तविक मूल्य को अधिक शुद्धता से प्रतिबिंबित करने के लिए अनुमानित पेजरैंक मानों को समायोजित करने के लिए संग्रह के माध्यम से कई बार निकलने की आवश्यकता होती है। सूत्र नीचे दिए गए हैं:

अर्थात् पेज u के लिए पेजरैंक मान सेट v में सम्मिलित प्रत्येक पेज Bu के लिए पेजरैंक मान पर निर्भर है (सेट जिसमें पेज u से लिंक करने वाले सभी पेज सम्मिलित हैं), पेज v से लिंक की मात्रा L(v) से विभाजित किया गया है।

हिट एल्गोरिथम

पेजरैंक के समान, HITS पृष्ठों की प्रासंगिकता का विश्लेषण करने के लिए लिंक विश्लेषण का उपयोग करता है, लेकिन केवल सबग्राफ के छोटे सेट (संपूर्ण वेब ग्राफ़ के अतिरिक्त) पर काम करता है, और साथ ही क्वेरी पर निर्भर होता है। सबग्राफ को हब और प्राधिकरणों में भार के अनुसार रैंक किया जाता है, जहां उच्चतम रैंक वाले पेज लाए और प्रदर्शित किए जाते हैं।[15]


यह भी देखें

संदर्भ

  1. Piccoli, Gabriele; Pigni, Federico (July 2018). Information systems for managers: with cases (Edition 4.0 ed.). Prospect Press. p. 28. ISBN 978-1-943153-50-3. Retrieved 25 November 2018.
  2. Mogotsi, I. C. "Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze: Introduction to information retrieval: Cambridge University Press, Cambridge, England, 2008, 482 pp, ISBN: 978-0-521-86571-5". Information Retrieval (in English). 13 (2): 192–195. doi:10.1007/s10791-009-9115-y. ISSN 1386-4564. S2CID 31674042.
  3. "What is Information Retrieval?". GeeksforGeeks (in English). 2020-07-02. Retrieved 2022-03-02.
  4. "Google की खोज एल्गोरिथम और रैंकिंग प्रणाली - Google खोज". www.google.com. Retrieved 2022-03-02.
  5. "Scientist Finds PageRank-Type Algorithm from the 1940s". MIT Technology Review (in English). Retrieved 2022-03-02.
  6. Pinski, Gabriel; Narin, Francis (1976). "Citation influence for journal aggregates of scientific publications: Theory, with application to the literature of physics". Information Processing & Management (in English). 12 (5): 297–312. doi:10.1016/0306-4573(76)90048-0.
  7. "What are SERP Features?". www.accuranker.com (in English). 2019-03-28. Retrieved 2022-03-02.
  8. Franceschet, Massimo (17 February 2010). "Scientist Finds PageRank-Type Algorithm from the 1940s". www.technologyreview.com.
  9. Datta, Joydip (16 April 2010). "सूचना पुनर्प्राप्ति में रैंकिंग" (PDF). Department of Computer Science and Engineering, Indian Institute of Technology. p. 7. Retrieved 25 April 2019.{{cite web}}: CS1 maint: url-status (link)
  10. Turtle, Howard R.; Croft, W.Bruce (1992). "पाठ पुनर्प्राप्ति मॉडल की तुलना". The Computer Journal. OUP. 35 (3): 279–290. doi:10.1093/comjnl/35.3.279.
  11. Harter, Stephen P. (1984-07-01). "मॉडेम सूचना पुनर्प्राप्ति का परिचय (जेरार्ड साल्टन और माइकल जे. मैकगिल)". Education for Information. 2 (3): 237–238. doi:10.3233/EFI-1984-2307.
  12. Chu, H. Information Representation and Retrieval in the Digital Age. New Delhi: Ess Ess Publication.
  13. G.G.Choudhary. Introduction to Modern Information Retrieval. Facet Publishing.
  14. Manning, Christopher; Raghavan, Prabhakar; Schutze, Hinrich. क्रमबद्ध पुनर्प्राप्ति परिणामों का मूल्यांकन. Cambridge University Press.
  15. Tanase, Racula; Radu, Remus (16 April 2010). "Lecture #4: HITS Algorithm - Hubs and Authorities on the Internet".