सूचना निष्कर्षण: Difference between revisions

From Vigyanwiki
No edit summary
No edit summary
Line 7: Line 7:
: "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"
: "कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"


आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ (भाषा उपयोग) के संबंध में व्याख्या किया गया है।  
आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया है।  


आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए। 
सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति का अनुशासन (आईआर)<ref>{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref> बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, आमतौर पर एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, आईई आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।


अभिकलन की अनुमति देना इसका उद्देश्य पहले असंरचित डेटा पर होना है।
== इतिहास ==
 
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ।<ref>{{cite book|chapter-url=https://www.aclweb.org/anthology/A92-1024|chapter=Automatic Extraction of Facts from Press Releases to Generate News Stories|last1=Andersen|first1=Peggy M.|last2=Hayes|first2=Philip J.|citeseerx=10.1.1.14.7943|last3=Huettner|first3=Alison K.|last4=Schmandt|first4=Linda M.|last5=Nirenburg|first5=Irene B.|last6=Weinstein|first6=Steven P.|title=एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -|year=1992|pages=170–177|doi=10.3115/974499.974531|s2cid=14746386}}</ref> 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली वित्तीय व्यापारियों को वास्तविक समय की वित्तीय समाचार प्रदान करने के उद्देश्य से कार्नेगी ग्रुप इंक द्वारा [[रॉयटर्स]] के लिए बनाई गई जेस्पर थी।<ref>{{cite book|url=http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|archive-url=https://web.archive.org/web/20190220184608/http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|url-status=dead|archive-date=2019-02-20|title=सूचना निष्कर्षण|last1=Cowie|first1=Jim|last2=Wilks|first2=Yorick|page=3|year=1996|citeseerx=10.1.1.61.6480|s2cid=10237124}}</ref>
सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए स्वचालित तरीकों को तैयार करने की समस्या से संबंधित है, इसके प्रसारण, भंडारण और प्रदर्शन से परे। सूचना पुनर्प्राप्ति का अनुशासन (आईआर)<ref>{{Cite journal|url = http://www.cs.bilkent.edu.tr/~guvenir/courses/CS550/Seminar/freitag2000-ml.pdf|title = अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग|last = FREITAG|first = DAYNE|journal = 2000 Kluwer Academic Publishers. Printed in the Netherlands}}</ref> बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, आमतौर पर एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, IE IR और NLP दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।


== इतिहास ==
1987 की शुरुआत में, आईई को [[संदेश समझ सम्मेलनों]] की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतियोगिता-आधारित सम्मेलन है<ref>Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. {{ISBN|978-1-84564-146-7}}</ref> जो निम्नलिखित डोमेन पर केंद्रित है:
सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ।<ref>{{cite book|chapter-url=https://www.aclweb.org/anthology/A92-1024|chapter=Automatic Extraction of Facts from Press Releases to Generate News Stories|last1=Andersen|first1=Peggy M.|last2=Hayes|first2=Philip J.|citeseerx=10.1.1.14.7943|last3=Huettner|first3=Alison K.|last4=Schmandt|first4=Linda M.|last5=Nirenburg|first5=Irene B.|last6=Weinstein|first6=Steven P.|title=एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -|year=1992|pages=170–177|doi=10.3115/974499.974531|s2cid=14746386}}</ref> 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली कार्नेगी ग्रुप इंक द्वारा [[रॉयटर्स]] के लिए बनाई गई JASPER थी, जिसका उद्देश्य वित्तीय व्यापारियों को [[वास्तविक समय डेटा]] | वास्तविक समय वित्तीय समाचार प्रदान करना था।<ref>{{cite book|url=http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|archive-url=https://web.archive.org/web/20190220184608/http://pdfs.semanticscholar.org/2c90/fa59c6d9beed8dcb0e844725b872d3f33a35.pdf|url-status=dead|archive-date=2019-02-20|title=सूचना निष्कर्षण|last1=Cowie|first1=Jim|last2=Wilks|first2=Yorick|page=3|year=1996|citeseerx=10.1.1.61.6480|s2cid=10237124}}</ref>
1987 की शुरुआत में, IE को [[संदेश समझ सम्मेलन]]ों की एक श्रृंखला द्वारा प्रेरित किया गया था। MUC एक प्रतियोगिता-आधारित सम्मेलन है<ref>Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. {{ISBN|978-1-84564-146-7}}</ref> जो निम्नलिखित डोमेन पर केंद्रित है:
*एमयूसी-1 (1987), एमयूसी-3 (1989): नौसेना संचालन संदेश।
*एमयूसी-1 (1987), एमयूसी-3 (1989): नौसेना संचालन संदेश।
*एमयूसी-3 (1991), एमयूसी-4 (1992): लैटिन अमेरिकी देशों में आतंकवाद।
*एमयूसी-3 (1991), एमयूसी-4 (1992): लैटिन अमेरिकी देशों में आतंकवाद।
Line 24: Line 21:
*एमयूसी-7 (1998): उपग्रह प्रक्षेपण रिपोर्ट।
*एमयूसी-7 (1998): उपग्रह प्रक्षेपण रिपोर्ट।


अमेरिकी रक्षा उन्नत अनुसंधान परियोजना एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करने जैसे सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे।{{citation needed|date=March 2017}}
यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी (DARPA) से काफी समर्थन मिला, जो सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे, जैसे आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करना।{{citation needed|date=March 2017}}
 
 
== वर्तमान महत्व ==
== वर्तमान महत्व ==
IE का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। [[वर्ल्ड वाइड वेब]] के आविष्कारक [[टिक बैरनर्स - ली]] मौजूदा [[इंटरनेट]] को दस्तावेजों के वेब के रूप में संदर्भित करते हैं <ref>{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=लिंक्ड डेटा - द स्टोरी सो फार}}</ref> और वकालत करता है कि अधिक सामग्री को सिमेंटिक वेब के रूप में उपलब्ध कराया जाए।<ref>{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=अगले वेब पर टिम बर्नर्स-ली}}</ref> जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक [[मेटा डेटा]] की कमी होती है। इन दस्तावेज़ों में निहित ज्ञान को [[संबंध का डेटाबेस]] में रूपांतरण के माध्यम से या [[XML]] टैग्स के साथ मार्क-अप करके मशीन प्रोसेसिंग के लिए अधिक सुलभ बनाया जा सकता है। एक समाचार डेटा फ़ीड की निगरानी करने वाले एक बुद्धिमान एजेंट को असंरचित डेटा को किसी ऐसी चीज़ में बदलने के लिए IE की आवश्यकता होती है जिसके साथ तर्क किया जा सकता है। IE का एक विशिष्ट अनुप्रयोग [[प्राकृतिक भाषा]] में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।<ref>[[Rohini Kesavan Srihari|R. K. Srihari]], W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering],{{dead link|date=September 2020}} Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>
आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। [[टिम बेर्नर्स-ली]], [[वर्ल्ड वाइड वेब]] के आविष्कारक, वर्तमान [[इंटरनेट]] को दस्तावेजों के वेब के रूप में संदर्भित करता है<ref>{{cite web|url=http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf|title=लिंक्ड डेटा - द स्टोरी सो फार}}</ref> और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।<ref>{{cite web|url=http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html|title=अगले वेब पर टिम बर्नर्स-ली}}</ref> जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक [[मेटा डेटा]] की कमी होती है। इन दस्तावेजों में निहित ज्ञान, [[संबंधपरक]] रूप में परिवर्तन के माध्यम से या [[एक्सएमएल]] टैग के साथ मार्क-अप के द्वारा मशीन संसाधन के लिए अधिक सुलभ बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग [[प्राकृतिक भाषा]] में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।<ref>[[Rohini Kesavan Srihari|R. K. Srihari]], W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",[https://web.archive.org/web/20080507153920/http://journals.cambridge.org/action/displayIssue?iid=359643 Journal of Natural Language Engineering],{{dead link|date=September 2020}} Cambridge U. Press, 14(1), 2008, pp.33-69.</ref>
 
 
== कार्य और उप-कार्य ==
== कार्य और उप-कार्य ==
मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना [[पाठ सरलीकरण]] की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:
मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना [[पाठ सरलीकरण]] की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:


* टेम्प्लेट भरना: किसी दस्तावेज़ से फ़ील्ड का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
*टेम्पलेट फिलिंग: किसी दस्तावेज़ से फ़ील्ड का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
** घटना निष्कर्षण: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार का लेख कई आतंकवादी हमलों का वर्णन कर सकता है।
** घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
* ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। आमतौर पर डेटाबेस ट्रिपल के रूप में होता है, (इकाई 1, संबंध, इकाई 2), उदा। ([[बराक ओबामा]], पति, [[मिशेल ओबामा]])
* [[ज्ञान आधारित जनसंख्या]]: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है (निकाय 1, संबंध, संस्था 2), जैसे ([[बराक ओबामा]], पत्नी, [[मिशेल ओबामा]])
** [[नामित इकाई मान्यता]]: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor  | title=डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन| book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> आम तौर पर मान्यता कार्य में निकाली गई इकाई को एक अद्वितीय पहचानकर्ता निर्दिष्ट करना शामिल होता है। एक सरल कार्य को एंटिटी डिटेक्शन नाम दिया गया है, जिसका उद्देश्य एंटिटी इंस्टेंसेस के बारे में कोई मौजूदा ज्ञान न होने पर एंटिटीज का पता लगाना है। उदाहरण के लिए, वाक्य को संसाधित करने में एम. स्मिथ को फिशिंग पसंद है, एंटिटी डिटेक्शन नाम 'पता लगाने' को इंगित करेगा कि वाक्यांश एम. स्मिथ एक व्यक्ति को संदर्भित करता है, लेकिन आवश्यक रूप से बिना किसी एम. स्मिथ के बारे में कोई ज्ञान (या उपयोग) किए जो वह विशिष्ट व्यक्ति है (या, हो सकता है) जिसके बारे में वह वाक्य बात कर रहा है।
**[[नामित इकाई मान्यता]]: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।<ref name="ecir2019">{{cite conference| author= Dat Quoc Nguyen and Karin Verspoor  | title=डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन| book-title=Proceedings of the 41st European Conference on Information Retrieval (ECIR)| year=2019 |doi=10.1007/978-3-030-15712-8_47| arxiv=1812.11275}}</ref> सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाने पर होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य को प्रोसेस करने में, एंटिटी डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान (या उपयोग) किए। स्मिथ जो (या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
** [[सहसंदर्भ]] रेजोल्यूशन: टेक्स्ट एंटिटीज के बीच कोररेंस और अनाफोरा (भाषाविज्ञान) लिंक का पता लगाना। आईई कार्यों में, यह आमतौर पर पहले से निकाली गई नामित संस्थाओं के बीच लिंक खोजने तक सीमित है। उदाहरण के लिए, इंटरनेशनल बिजनेस मशीन और आईबीएम एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य लें तो एम. स्मिथ को मछली पकड़ना पसंद है। लेकिन उसे बाइक चलाना पसंद नहीं है, यह पता लगाना फायदेमंद होगा कि वह पहले से पहचाने गए व्यक्ति एम. स्मिथ की बात कर रहा है।
**[[सहसंदर्भ]] समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक लिंक का पता लगाना। यानी कार्यों में, आमतौर पर पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई लिंक होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। अगर हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
** [[संबंध निष्कर्षण]]: संस्थाओं के बीच संबंधों की पहचान,<ref name="ecir2019" />जैसे कि:
**[[संबंध निष्कर्षण]]: संस्थाओं के बीच संबंधों की पहचान,<ref name="ecir2019" /> जैसे:  
*** व्यक्ति संगठन के लिए काम करता है (वाक्य से निकाला गया बिल आईबीएम के लिए काम करता है।)
***व्यक्ति संगठन के लिए काम करता है (वाक्य से निकाला गया "बिल आईबीएम के लिए काम करता है।")
*** स्थान में स्थित व्यक्ति (वाक्य बिल फ्रांस में है से निकाला गया।)
*** स्थान में स्थित व्यक्ति (वाक्य से निकाला गया "बिल फ्रांस में है।")
* अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
* अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
** तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण। <ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना| journal = 21st International Conference on Applications of Natural Language to Information Systems | series = Lecture Notes in Computer Science | volume = 21  | date = June 2016 | pages = 162–174 | doi = 10.1007/978-3-319-41754-7_14 | isbn = 978-3-319-41753-0 | s2cid = 19538141 | url = https://www.research.manchester.ac.uk/portal/en/publications/disentangling-the-structure-of-tables-in-scientific-literature(473111c2-52e9-493a-be8c-1a78c5b7ce36).html }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।<ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा| journal = International Journal on Document Analysis and Recognition (IJDAR) | volume = 22 | issue = 1 | pages = 55–78 | date = February 2019 | doi = 10.1007/s10032-019-00317-0 | arxiv = 1902.10031 | bibcode = 2019arXiv190210031M | s2cid = 62880746 }}</ref><ref>{{cite journal | vauthors = Milosevic N, Gregson C, Hernandez R, Nenadic G | title = वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना| journal = 21st International Conference on Applications of Natural Language to Information Systems | series = Lecture Notes in Computer Science | volume = 21  | date = June 2016 | pages = 162–174 | doi = 10.1007/978-3-319-41754-7_14 | isbn = 978-3-319-41753-0 | s2cid = 19538141 | url = https://www.research.manchester.ac.uk/portal/en/publications/disentangling-the-structure-of-tables-in-scientific-literature(473111c2-52e9-493a-be8c-1a78c5b7ce36).html }}</ref><ref>{{cite thesis |type=PhD |last=Milosevic |first=Nikola |date=2018 |title=बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण|publisher=University of Manchester | url=https://www.research.manchester.ac.uk/portal/files/70405100/FULL_TEXT.PDF}}</ref>
** टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए लेख की वास्तविक सामग्री से टिप्पणियां निकालना
** टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
* भाषा और शब्दावली विश्लेषण
* भाषा और शब्दावली विश्लेषण
** [[शब्दावली निष्कर्षण]]: किसी दिए गए [[पाठ कोष]] के लिए प्रासंगिक शब्द खोजना
**[[शब्दावली निष्कर्षण]]: किसी दिए गए [[पाठ कोष]] के लिए प्रासंगिक शब्द ढूँढना
* ऑडियो निष्कर्षण
* ऑडियो निष्कर्षण
** टेम्प्लेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए ऑडियो सिग्नल में प्रासंगिक विशेषता खोजना; उदाहरण के लिए <ref>A.Zils, F.Pachet, O.Delerue and F. Gouyon, [http://www.csl.sony.fr/downloads/papers/2002/ZilsMusic.pdf Automatic Extraction of Drum Tracks from Polyphonic Music Signals], Proceedings of WedelMusic, Darmstadt, Germany, 2002.</ref> एक संगीत टुकड़े के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं का समय सूचकांक निकाला जा सकता है।
** टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए ऑडियो सिग्नल में प्रासंगिक विशेषता खोजना; उदाहरण के लिए<ref>A.Zils, F.Pachet, O.Delerue and F. Gouyon, [http://www.csl.sony.fr/downloads/papers/2002/ZilsMusic.pdf Automatic Extraction of Drum Tracks from Polyphonic Music Signals], Proceedings of WedelMusic, Darmstadt, Germany, 2002.</ref> किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।


ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ आमतौर पर स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। IE में अक्सर मशीन लर्निंग, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।
ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ आमतौर पर स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अक्सर मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।


गैर-पाठ दस्तावेज़ों पर आईई एक तेजी से दिलचस्प विषय बनता जा रहा है{{when|date=March 2017}} अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं{{when|date=March 2017}} एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। यह स्वाभाविक रूप से कई प्रकार के दस्तावेजों और स्रोतों से निकाली गई जानकारी के संलयन की ओर जाता है।
गैर-पाठ दस्तावेज़ों पर आईई शोध में एक तेजी से दिलचस्प विषय बनता जा रहा है{{when|date=March 2017}} अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं{{when|date=March 2017}} एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।


== वर्ल्ड वाइड वेब एप्लिकेशन ==
== वर्ल्ड वाइड वेब एप्लिकेशन ==

Revision as of 15:04, 11 December 2022

सूचना निष्कर्षण (IE) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश मामलों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे ऑटोमैटिक एनोटेशन और छवियों/ऑडियो/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। इसका एक उदाहरण है कॉर्पोरेट विलयन की ताजा रिपोर्टों से निष्कर्षण, जैसे कि औपचारिक संबंध द्वारा दर्शाया जाता है:

,

एक ऑनलाइन समाचार वाक्य से जैसे:

"कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य यह है कि इनपुट डेटा के तार्किक अंतर्वस्तु के आधार पर तार्किक तर्क से निष्कर्ष निकालने की अनुमति दी जाए। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया है।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति का अनुशासन (आईआर)[1] बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, आमतौर पर एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और जोर दोनों के संदर्भ में, आईई आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए, एक टेम्पलेट में अपराधी, शिकार, और आतंकवादी कृत्य के हथियार, और जिस दिन घटना हुई थी, के अनुरूप स्लॉट होंगे। इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास

सूचना निष्कर्षण 1970 के दशक के अंत में एनएलपी के शुरुआती दिनों में हुआ।[2] 1980 के दशक के मध्य से एक प्रारंभिक वाणिज्यिक प्रणाली वित्तीय व्यापारियों को वास्तविक समय की वित्तीय समाचार प्रदान करने के उद्देश्य से कार्नेगी ग्रुप इंक द्वारा रॉयटर्स के लिए बनाई गई जेस्पर थी।[3]

1987 की शुरुआत में, आईई को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतियोगिता-आधारित सम्मेलन है[4] जो निम्नलिखित डोमेन पर केंद्रित है:

  • एमयूसी-1 (1987), एमयूसी-3 (1989): नौसेना संचालन संदेश।
  • एमयूसी-3 (1991), एमयूसी-4 (1992): लैटिन अमेरिकी देशों में आतंकवाद।
  • एमयूसी-5 (1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
  • एमयूसी-6 (1995): प्रबंधन परिवर्तन पर समाचार लेख।
  • एमयूसी-7 (1998): उपग्रह प्रक्षेपण रिपोर्ट।

यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी (DARPA) से काफी समर्थन मिला, जो सरकारी विश्लेषकों द्वारा किए गए सांसारिक कार्यों को स्वचालित करना चाहते थे, जैसे आतंकवाद के संभावित लिंक के लिए समाचार पत्रों को स्कैन करना।[citation needed]

वर्तमान महत्व

आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। टिम बेर्नर्स-ली, वर्ल्ड वाइड वेब के आविष्कारक, वर्तमान इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करता है[5] और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।[6] जब तक यह पारदर्शी नहीं हो जाता, तब तक वेब बड़े पैमाने पर असंरचित दस्तावेजों से युक्त होता है जिसमें सिमेंटिक मेटा डेटा की कमी होती है। इन दस्तावेजों में निहित ज्ञान, संबंधपरक रूप में परिवर्तन के माध्यम से या एक्सएमएल टैग के साथ मार्क-अप के द्वारा मशीन संसाधन के लिए अधिक सुलभ बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।[7]

कार्य और उप-कार्य

मुक्त पाठ में मौजूद जानकारी का एक संरचित दृश्य बनाने के लिए पाठ में सूचना निष्कर्षण लागू करना पाठ सरलीकरण की समस्या से जुड़ा हुआ है। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में शामिल हैं:

  • टेम्पलेट फिलिंग: किसी दस्तावेज़ से फ़ील्ड का एक निश्चित सेट निकालना, उदा। एक आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
    • घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
  • ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है (निकाय 1, संबंध, संस्था 2), जैसे (बराक ओबामा, पत्नी, मिशेल ओबामा)
    • नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।[8] सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाने पर होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य को प्रोसेस करने में, एंटिटी डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान (या उपयोग) किए। स्मिथ जो (या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
    • सहसंदर्भ समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक लिंक का पता लगाना। यानी कार्यों में, आमतौर पर पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई लिंक होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। अगर हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
    • संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान,[8] जैसे:
      • व्यक्ति संगठन के लिए काम करता है (वाक्य से निकाला गया "बिल आईबीएम के लिए काम करता है।")
      • स्थान में स्थित व्यक्ति (वाक्य से निकाला गया "बिल फ्रांस में है।")
  • अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
    • तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।[9][10]
    • तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। तालिका निष्कर्षण की तुलना में यह अधिक जटिल कार्य है, क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझना, तालिका के अंदर जानकारी को जोड़ना और तालिका में प्रस्तुत जानकारी को समझना तालिका के लिए आवश्यक अतिरिक्त कार्य हैं। सूचना निष्कर्षण।[11][12][13]
    • टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच लिंक को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
  • भाषा और शब्दावली विश्लेषण
  • ऑडियो निष्कर्षण
    • टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए ऑडियो सिग्नल में प्रासंगिक विशेषता खोजना; उदाहरण के लिए[14] किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ आमतौर पर स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अक्सर मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई शोध में एक तेजी से दिलचस्प विषय बनता जा रहा है[when?] अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं[when?] एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।

वर्ल्ड वाइड वेब एप्लिकेशन

आईई एमयूसी सम्मेलनों का फोकस रहा है। हालाँकि, वर्ल्ड वाइड वेब के प्रसार ने IE सिस्टम विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध डेटा बाढ़ से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाले सिस्टम को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी सिस्टम उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण HTML/XML टैग और ऑनलाइन टेक्स्ट में उपलब्ध लेआउट स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, रैपर (डेटा माइनिंग) का उपयोग करके वेब पर IE के लिए कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। मशीन लर्निंग तकनीक, या तो पर्यवेक्षित अध्ययन या अनियंत्रित शिक्षा, ऐसे नियमों को स्वचालित रूप से प्रेरित करने के लिए उपयोग की जाती है।

रैपर आमतौर पर वेब पेजों के अत्यधिक संरचित संग्रह जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं को संभालते हैं। हालांकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई सिस्टम के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। ऐसी प्रणालियाँ उथले प्राकृतिक भाषा ज्ञान का दोहन कर सकती हैं और इस प्रकार इसे कम संरचित पाठों पर भी लागू किया जा सकता है।

हाल ही में[when?] विकास दृश्य सूचना निष्कर्षण है,[15][16] जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह उन जटिल वेब पेजों से संस्थाओं को निकालने में मदद करता है जो एक विज़ुअल पैटर्न प्रदर्शित कर सकते हैं, लेकिन HTML स्रोत कोड में एक स्पष्ट पैटर्न की कमी है।

दृष्टिकोण

निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं:

  • हस्तलिखित नियमित अभिव्यक्तियाँ (या नियमित अभिव्यक्तियों का नेस्टेड समूह)
  • क्लासिफायर का उपयोग करना
    • जनरेटिव: नैवे बेयस क्लासिफायरियर
    • भेदभावपूर्ण: अधिकतम एन्ट्रापी का सिद्धांत#अधिकतम एन्ट्रापी मॉडल जैसे बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन
  • अनुक्रम मॉडल

आईई के लिए कई अन्य दृष्टिकोण मौजूद हैं जिनमें हाइब्रिड दृष्टिकोण शामिल हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

  • टेक्स्ट इंजीनियरिंग के लिए सामान्य आर्किटेक्चर (गेट) को मुफ्त सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
  • अपाचे ओपनएनएलपी प्राकृतिक भाषा प्रसंस्करण के लिए जावा मशीन लर्निंग टूलकिट है
  • ClearForest थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
  • मैलेट (सॉफ्टवेयर परियोजना) | मशीन लर्निंग फॉर लैंग्वेज टूलकिट (मैलेट) विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए एक जावा-आधारित पैकेज है, जिसमें सूचना निष्कर्षण भी शामिल है।
  • डीबीपीडिया स्पॉटलाइट जावा/स्कैला (और मुफ्त वेब सेवा) में एक ओपन सोर्स टूल है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प (शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
  • प्राकृतिक भाषा टूलकिट पायथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक सूट है
  • सशर्त रैंडम फील्ड#सॉफ्टवेयर भी देखें

यह भी देखें

निष्कर्षण
खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
खोज और अनुवाद
सामान्य
सूचियों


संदर्भ

  1. FREITAG, DAYNE. "अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
  2. Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Automatic Extraction of Facts from Press Releases to Generate News Stories". एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -. pp. 170–177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386.
  3. Cowie, Jim; Wilks, Yorick (1996). सूचना निष्कर्षण (PDF). p. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Archived from the original (PDF) on 2019-02-20.
  4. Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. ISBN 978-1-84564-146-7
  5. "लिंक्ड डेटा - द स्टोरी सो फार" (PDF).
  6. "अगले वेब पर टिम बर्नर्स-ली".
  7. R. K. Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering,[dead link] Cambridge U. Press, 14(1), 2008, pp.33-69.
  8. 8.0 8.1 Dat Quoc Nguyen and Karin Verspoor (2019). "डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  9. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  10. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  11. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  12. Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). "वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना". 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
  13. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  14. A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
  15. Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: सूचना निष्कर्षण के लिए स्थानिक और शाब्दिक नियमों को व्यक्त करने के लिए एक बीजगणित". arXiv:1506.08454 [cs.CL].
  16. Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "लिक्स्टो के साथ विजुअल वेब इंफॉर्मेशन एक्सट्रैक्शन": 119–128. CiteSeerX 10.1.1.21.8236. {{cite journal}}: Cite journal requires |journal= (help)
  17. Peng, F.; McCallum, A. (2006). "सशर्त यादृच्छिक क्षेत्रों का उपयोग करके शोध पत्रों से सूचना निष्कर्षण ☆". Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
  18. Shimizu, Nobuyuki; Hass, Andrew (2006). "मार्ग निर्देशों से फ़्रेम-आधारित ज्ञान प्रतिनिधित्व निकालना" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.


इस पेज में लापता आंतरिक लिंक की सूची

  • सूचना की पुनर्प्राप्ति
  • तार्किक विचार
  • संदर्भ (भाषा का प्रयोग)
  • दरपा
  • ज्ञानधार
  • अनाफोरा (भाषा विज्ञान)
  • रैपर (डाटा माइनिंग)
  • बहुराष्ट्रीय रसद प्रतिगमन
  • टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला
  • ओन्टोलॉजी निष्कर्षण
  • सूचना निष्कर्षण खोलें

बाहरी संबंध