सूचना निष्कर्षण

From Vigyanwiki
Revision as of 17:52, 22 December 2022 by Admin (talk | contribs)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

सूचना निष्कर्षण (आईई) असंरचित डेटा और/या अर्ध-संरचित मशीन-पठनीय दस्तावेजों और अन्य इलेक्ट्रॉनिक रूप से प्रस्तुत स्रोतों से स्वचालित रूप से संरचित जानकारी निकालने का कार्य है। अधिकांश स्थितियों में यह गतिविधि प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के माध्यम से मानव भाषा ग्रंथों के संसाधन से संबंधित है। मल्टीमीडिया दस्तावेज़ प्रसंस्करण में हालिया गतिविधियां जैसे स्वचालित टिप्पणी और छवियों/श्रव्य/वीडियो/दस्तावेजों में से सामग्री निष्कर्षण को सूचना निष्कर्षण के रूप में देखा जा सकता है।

समस्या की कठिनाई के कारण, आईई (2010 तक) के वर्तमान दृष्टिकोण सीमित रूप से प्रतिबंधित डोमेन पर ध्यान केंद्रित करते हैं। एक उदाहरण है कॉर्पोरेट विलय की न्यूज़वायर रिपोर्ट से निष्कर्षण, जैसे औपचारिक संबंध द्वारा निरूपित:

,

एक ऑनलाइन समाचार वाक्य से जैसे:

"कल, न्यूयॉर्क स्थित फू इंक ने बार कॉर्प के अधिग्रहण की घोषणा की।"

आईई का एक व्यापक लक्ष्य पहले के असंरचित डेटा पर गणना करने की अनुमति देना है। एक अधिक विशिष्ट लक्ष्य तार्किक तर्क को इनपुट डेटा की तार्किक सामग्री के आधार पर अनुमान लगाने की अनुमति देना है। संरचित डेटा एक चुने हुए लक्ष्य डोमेन से शब्दार्थ रूप से अच्छी तरह से परिभाषित डेटा है, जिसे श्रेणी और संदर्भ के संबंध में व्याख्या किया गया हो।

सूचना निष्कर्षण एक बड़ी पहेली का हिस्सा है जो पाठ प्रबंधन के लिए इसके प्रसारण, भंडारण और प्रदर्शन के अलावा स्वचालित विधियां बनाने के संबंध में काम आता है। सूचना पुनर्प्राप्ति (आईआर) के अनुशासन[1] बड़े दस्तावेज़ संग्रहों को अनुक्रमित करने और दस्तावेज़ों को वर्गीकृत करने के लिए स्वचालित तरीके विकसित किए हैं, सामान्यतः एक सांख्यिकीय स्वाद के लिए। एक अन्य पूरक दृष्टिकोण प्राकृतिक भाषा प्रसंस्करण (एनएलपी) है जिसने कार्य के परिमाण को ध्यान में रखते हुए मानव भाषा प्रसंस्करण के मॉडलिंग की समस्या को काफी सफलता के साथ हल किया है। कठिनाई और महत्व दोनों के संदर्भ में, आईइ जो है आईआर और एनएलपी दोनों के बीच के कार्यों से संबंधित है। इनपुट के संदर्भ में, आईई दस्तावेजों के एक सेट के अस्तित्व को मानता है जिसमें प्रत्येक दस्तावेज़ एक टेम्पलेट का अनुसरण करता है, यानी एक या एक से अधिक संस्थाओं या घटनाओं का वर्णन इस तरह से करता है जो अन्य दस्तावेजों के समान है लेकिन विवरण में भिन्न है। एक उदाहरण, लैटिन अमेरिकी आतंकवाद पर न्यूज़वायर लेखों के एक समूह पर विचार करें, जिसमें प्रत्येक लेख को एक या अधिक आतंकवादी कृत्यों पर आधारित माना जाता है। हम किसी दिए गए आईई कार्य के लिए एक टेम्पलेट भी परिभाषित करते हैं, जो एक दस्तावेज़ में निहित जानकारी रखने के लिए केस फ्रेम (एस) का एक (या एक सेट) है। आतंकवाद के उदाहरण के लिए टेम्पलेट में अपराधियों, शिकार और आतंकवादी अधिनियम के हथियार के अनुसार स्लॉट मिलते और घटना के घटित होने की तिथि होती है।इस समस्या के लिए एक आईई सिस्टम को हमले के लेख को "समझने" की आवश्यकता है जो इस टेम्पलेट में स्लॉट से संबंधित डेटा खोजने के लिए पर्याप्त है।

इतिहास

सूचना सारांशित की तारीख से 1970 के उत्तरार्ध तक एनएलपी के प्रारंभिक दिनों में होती है।[2] 1980 के दशक के मध्य से शुरुआत की गई एक वाणिज्यिक प्रणाली कार्नेगी समूह इंक ने रायटर्स के लिए वित्तीय व्यापारियों को वास्तविक वित्तीय समाचार उपलब्ध कराने के उद्देश्य से बनाया था।[3]

1987 की शुरुआत में, आईई को संदेश समझ सम्मेलनों की एक श्रृंखला द्वारा प्रेरित किया गया था। एमयूसी एक प्रतिस्पर्धा आधारित सम्मेलन है[4] जो निम्न डोमेन पर केंद्रित है:

  • एमयूसी-1(1987), एमयूसी-3(1989): नौसेना संचालन संदेश।
  • एमयूसी-3(1991), एमयूसी-4(1992): लैटिन अमेरिकी देशों में आतंकवाद।
  • एमयूसी-5(1993): संयुक्त उद्यम और माइक्रोइलेक्ट्रॉनिक डोमेन।
  • एमयूसी-6(1995): प्रबंधन परिवर्तन पर समाचार लेख।
  • एमयूसी-7(1998): उपग्रह प्रक्षेपण रिपोर्ट।

यूएस डिफेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एजेंसी (डीएआरपीए) से काफी समर्थन मिला, जो सरकारी विश्लेषकों, जैसे कि आतंकवाद के संभावित संबंधों के लिए समाचार पत्रों को स्कैनिंग जैसे सांसारिक कार्यों को स्वचालित बनाना चाहते हैं।[citation needed]

वर्तमान महत्व

आईई का वर्तमान महत्व असंरचित रूप में उपलब्ध जानकारी की बढ़ती मात्रा से संबंधित है। टिम बेर्नर्स-ली, वर्ल्ड वाइड वेब के आविष्कारक, वर्तमान इंटरनेट को दस्तावेजों के वेब के रूप में संदर्भित करता है[5] और यह वकालत करता है कि डेटा के वेब के रूप में अधिक सामग्री उपलब्ध कराई जाए।[6] जब तक यह पारदर्शी नहीं हो जाता तब तक वेब में अधिकांश रूप से असंरचित दस्तावेज़ होते हैं जिसमें अर्थ मेटा डेटा का अभाव है। इन दस्तावेजों में निहित ज्ञान को मशीन संसाधन के लिए संबंधपरक रूप में परिवर्तन के माध्यम से, या एक्सएमएल टैग के साथ मार्क-अप द्वारा अधिक उपयोगी बनाया जा सकता है। समाचार डेटा फ़ीड के अनुवीक्षण के लिए किसी बुद्धिमान अभिकर्ता को असंरचित डेटा में ऐसे परिवर्तन की आवश्यकता होती है जिसके साथ तर्क किया जा सके। आईई का एक विशिष्ट अनुप्रयोग प्राकृतिक भाषा में लिखे गए दस्तावेज़ों के एक सेट को स्कैन करना और निकाली गई जानकारी के साथ एक डेटाबेस को भरना है।[7]

कार्य और उप-कार्य

पाठ्य में सूचना निष्कर्षण को पाठ्य सरलीकरण की समस्या से जुड़ा हुआ है ताकि मुक्त पाठ में मौजूद सूचनाओं का संरचित दृष्टिकोण निर्मित किया जा सके। समग्र लक्ष्य वाक्यों को संसाधित करने के लिए अधिक आसानी से मशीन-पठनीय पाठ बनाना है। विशिष्ट आईई कार्यों और उप-कार्यों में सम्मिलित हैं:

  • टेम्पलेट फिलिंग: दस्तावेज़ो में से निश्चित क्षेत्रों का समूह निकालना, उदाहरण के लिए, आतंकवादी हमले के बारे में एक अखबार के लेख से अपराधियों, पीड़ितों, समय आदि को निकालना।
    • घटना सारांशन: एक इनपुट दस्तावेज़, आउटपुट शून्य या अधिक ईवेंट टेम्प्लेट दिए गए हैं। उदाहरण के लिए, एक अखबार के लेख में कई आतंकवादी हमलों का वर्णन हो सकता है।
  • ज्ञान आधारित जनसंख्या: दस्तावेजों का एक सेट दिए गए तथ्यों का एक डेटाबेस भरें। साधारणतया यह डेटाबेस तीन प्रकार का होता है (इकाई 1, संबंध, इकाई 2), जैसे (बराक ओबामा, पत्नी, मिशेल ओबामा)
    • नामित इकाई मान्यता: डोमेन के मौजूदा ज्ञान या अन्य वाक्यों से निकाली गई जानकारी को नियोजित करके ज्ञात इकाई नामों (लोगों और संगठनों के लिए), स्थान के नाम, अस्थायी अभिव्यक्तियों और कुछ प्रकार के संख्यात्मक अभिव्यक्तियों की पहचान।[8] सामान्यतया पहचान कार्य में, निकाले गए इकाई को विशिष्ट पहचान प्रदान करना सम्मिलित होता है। एक सरल कार्य का नाम इकाई पहचान है, जिसका उद्देश्य सत्ता के उदाहरणों के बारे में किसी मौजूदा ज्ञान के बिना संस्थाओं का पता लगाना होता है। उदाहरण के लिए, "एम. स्मिथ को मछली पकड़ना पसंद है" वाक्य की प्रक्रिया करने में, इकाई डिटेक्शन नाम का मतलब यह पता लगाना होगा कि वाक्यांश "एम. स्मिथ" एक व्यक्ति को संदर्भित करता है, लेकिन बिना किसी निश्चित एम के बारे में कोई ज्ञान (या उपयोग) किए। स्मिथ जो (या, "हो सकता है") वह विशिष्ट व्यक्ति है जिसके बारे में वह वाक्य बात कर रहा है।
    • सहसंदर्भ समाधान: पाठ संस्थाओं के बीच सह-संदर्भ और एनाफोरिक सम्बन्ध का पता लगाना। यानी कार्यों में, सामान्यतः पहले से निकाले जाने वाली संस्थाओं के बीच कोई न कोई सम्बन्ध होता है। उदाहरण के लिए, "अंतर्राष्ट्रीय व्यापार मशीनें" और "आईबीएम" एक ही वास्तविक दुनिया इकाई को संदर्भित करते हैं। यदि हम दो वाक्य "एम. स्मिथ मछली पकड़ने पसंद करते हैं लेकिन उसे बाइकिंग पसंद नहीं है, यह पता लगाना लाभकारी होगा कि "वह" पहले से पकड़े गए व्यक्ति "एम. स्मिथ" से संदर्भित है।
    • संबंध निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान,[8] जैसे:
      • व्यक्ति संगठन के लिए काम करता है (वाक्य "बिल आईबीएम के लिए काम करता है" से लिया गया है।)
      • स्थान में स्थित व्यक्ति (वाक्य "बिल फ्रांस में है" से लिया गया है।)
  • अर्ध-संरचित सूचना निष्कर्षण जो किसी भी आईई को संदर्भित कर सकता है जो किसी प्रकार की सूचना संरचना को पुनर्स्थापित करने का प्रयास करता है जो प्रकाशन के माध्यम से खो गया है, जैसे कि:
    • तालिका निष्कर्षण: दस्तावेजों से तालिकाओं को खोजना और निकालना।[9][10]
    • तालिका सूचना निष्कर्षण: तालिकाओं से संरचित तरीके से जानकारी निकालना। यह सारणी निष्कर्षण की तुलना में अधिक जटिल कार्य है क्योंकि तालिका निष्कर्षण केवल पहला चरण है, जबकि तालिका निष्कर्षण कोशिकाओं, पंक्तियों, स्तंभों की भूमिकाओं को समझते हुए सारणी के अंदर सूचना को जोड़ते हैं तथा सारणी सूचना निष्कर्षण के लिए आवश्यक अतिरिक्त कार्य हैं।[11][12][13]
    • टिप्पणियाँ निष्कर्षण: प्रत्येक वाक्य के लेखक के बीच सम्बन्ध को पुनर्स्थापित करने के लिए आलेख की वास्तविक सामग्री से टिप्पणियां निकालना
  • भाषा और शब्दावली विश्लेषण
  • श्रव्य निष्कर्षण
    • टेम्पलेट-आधारित संगीत निष्कर्षण: किसी दिए गए प्रदर्शनों की सूची से लिए गए श्रव्य संकेत में प्रासंगिक विशेषता खोजना; उदाहरण के लिए[14] किसी संगीत के आवश्यक लयबद्ध घटक का प्रतिनिधित्व करने के लिए टकराने वाली ध्वनियों की घटनाओं के समय सूचकांक निकाले जा सकते हैं।

ध्यान दें कि यह सूची संपूर्ण नहीं है और आईई गतिविधियों का सटीक अर्थ सामान्यतः स्वीकार नहीं किया जाता है और व्यापक लक्ष्य प्राप्त करने के लिए कई दृष्टिकोण आईई के कई उप-कार्यों को जोड़ते हैं। आईई में अधिकांशतः मशीन अधिगम, सांख्यिकीय विश्लेषण और/या प्राकृतिक भाषा प्रसंस्करण का उपयोग किया जाता है।

गैर-पाठ दस्तावेज़ों पर आईई शोध में तेजी से दिलचस्प विषय बनता जा रहा है[when?] अनुसंधान में, और मल्टीमीडिया दस्तावेज़ों से निकाली गई जानकारी अब कर सकते हैं[when?] एक उच्च स्तरीय संरचना में व्यक्त किया जाना चाहिए जैसा कि पाठ पर किया जाता है। इससे अनेक प्रकार के दस्तावेजों तथा स्रोतों से निकाली गई जानकारी एकत्र होती है।

वर्ल्ड वाइड वेब एप्लिकेशन

आईई जो है एमयूसी सम्मेलनों का मुख्य केंद्र रहा है। चूंकि, वेब के प्रसार ने आईई प्रणाली विकसित करने की आवश्यकता को तीव्र कर दिया है जो लोगों को ऑनलाइन उपलब्ध भारी मात्रा में डेटा से निपटने में मदद करता है। ऑनलाइन टेक्स्ट से आईई का प्रदर्शन करने वाली प्रणाली को कम लागत, विकास में लचीलेपन और नए डोमेन के लिए आसान अनुकूलन की आवश्यकताओं को पूरा करना चाहिए। एमयूसी प्रणाली उन मानदंडों को पूरा करने में विफल रहे। इसके अलावा, असंरचित पाठ के लिए किया जाने वाला भाषाई विश्लेषण एचटीएमएल/एक्सएमएल टैग और ऑनलाइन टेक्स्ट में उपलब्ध नक़्शा स्वरूपों का शोषण नहीं करता है। परिणामस्वरूप, वेब पर आईई के लिए रैपर का उपयोग करके कम भाषाई रूप से गहन दृष्टिकोण विकसित किए गए हैं, जो अत्यधिक सटीक नियमों के सेट हैं जो किसी विशेष पृष्ठ की सामग्री को निकालते हैं। मैन्युअल रूप से विकासशील रैपर एक समय लेने वाला कार्य साबित हुआ है, जिसके लिए उच्च स्तर की विशेषज्ञता की आवश्यकता होती है। इस तरह के नियमों को अपने आप प्रेरित करने के लिए मशीन लर्निंग तकनीक का प्रयोग या तो पर्यवेक्षित या अनुपर्यवेक्षित किया गया है।

रैपरर्स, सामान्यतया वेब पृष्ठों जैसे उत्पाद कैटलॉग और टेलीफोन निर्देशिकाओं के उच्च संरचित संसंग्रहों को संभालती हैं। चूंकि, वे विफल हो जाते हैं, जब पाठ प्रकार कम संरचित होता है, जो वेब पर भी आम है। अनुकूली सूचना निष्कर्षण पर हालिया प्रयास आईई प्रणाली के विकास को प्रेरित करता है जो विभिन्न प्रकार के पाठ को संभाल सकता है, अच्छी तरह से संरचित से लेकर लगभग मुक्त पाठ तक - जहां सामान्य रैपर विफल होते हैं - मिश्रित प्रकार सहित। इस प्रकार की प्रणालियां उथले प्राकृतिक भाषा के ज्ञान का लाभ उठा सकती हैं और इस तरह कम संरचित ग्रंथों पर भी इसे लागू किया जा सकता है।

हाल ही में[when?] विकास दृश्य सूचना निष्कर्षण है,[15][16] जो एक ब्राउज़र में एक वेबपेज को रेंडर करने और रेंडर किए गए वेब पेज में क्षेत्रों की निकटता के आधार पर नियम बनाने पर निर्भर करता है। यह जटिल वेब पृष्ठों से ऐसी संस्थाओं को निकालने में मदद करता है जो दृश्य पैटर्न को प्रदर्शित करती हैं, लेकिन एचटीएमएल स्रोत कोड में अधिक स्पष्ट पैटर्न का अभाव है।

दृष्टिकोण

निम्नलिखित मानक दृष्टिकोण अब व्यापक रूप से स्वीकार किए जाते हैं:

आईई के लिए कई अन्य दृष्टिकोण उपलब्ध हैं जिनमें हाइब्रिड दृष्टिकोण सम्मिलित हैं जो पहले सूचीबद्ध कुछ मानक दृष्टिकोणों को जोड़ते हैं।

मुफ्त या ओपन सोर्स सॉफ्टवेयर और सेवाएं

  • टेक्स्ट इंजीनियरिंग के लिए सामान्य वास्तुकला (गेट) को एक निःशुल्क सूचना निष्कर्षण प्रणाली के साथ बंडल किया गया है
  • अपाचे ओपनएनएलपी, प्राकृतिक भाषा संसाधन के लिए जावा मशीन अधिगम उपकरण-किट है।
  • ओपन कैलाइस थॉमसन रॉयटर्स से एक स्वचालित सूचना निष्कर्षण वेब सेवा है (मुफ्त सीमित संस्करण)
  • मशीन लर्निंग फॉर लैंग्वेज उपकरणकिट (मैलेट) एक जावा-आधारित पैकेज है, जिसमें विभिन्न प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए सूचना निष्कर्षण सम्मिलित है।
  • डीबीपीडिया स्पॉटलाइट जावा/स्कैला(और मुफ्त वेब सेवा) में एक ओपन सोर्स उपकरण है जिसका उपयोग नामित इकाई पहचान और नाम संकल्प(शब्दार्थ और पाठ निष्कर्षण) के लिए किया जा सकता है।
  • प्राकृतिक भाषा उपकरणकिट पाइथन प्रोग्रामिंग भाषा के लिए प्रतीकात्मक और सांख्यिकीय प्राकृतिक भाषा संसाधन(एनएलपी) के लिए पुस्तकालयों और कार्यक्रमों का एक समूह है
  • सीआरएफ कार्यान्वयन भी देखें

यह भी देखें

निष्कर्षण
खनन, क्रॉलिंग, स्क्रैपिंग और मान्यता
खोज और अनुवाद
सामान्य
सूचियों


संदर्भ

  1. FREITAG, DAYNE. "अनौपचारिक डोमेन में सूचना निष्कर्षण के लिए मशीन लर्निंग" (PDF). 2000 Kluwer Academic Publishers. Printed in the Netherlands.
  2. Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). "Automatic Extraction of Facts from Press Releases to Generate News Stories". एप्लाइड नेचुरल लैंग्वेज प्रोसेसिंग पर तीसरे सम्मेलन की कार्यवाही -. pp. 170–177. CiteSeerX 10.1.1.14.7943. doi:10.3115/974499.974531. S2CID 14746386.
  3. Cowie, Jim; Wilks, Yorick (1996). सूचना निष्कर्षण (PDF). p. 3. CiteSeerX 10.1.1.61.6480. S2CID 10237124. Archived from the original (PDF) on 2019-02-20.
  4. Marco Costantino, Paolo Coletti, Information Extraction in Finance, Wit Press, 2008. ISBN 978-1-84564-146-7
  5. "लिंक्ड डेटा - द स्टोरी सो फार" (PDF).
  6. "अगले वेब पर टिम बर्नर्स-ली".
  7. R. K. Srihari, W. Li, C. Niu and T. Cornell,"InfoXtract: A Customizable Intermediate Level Information Extraction Engine",Journal of Natural Language Engineering,[dead link] Cambridge U. Press, 14(1), 2008, pp.33-69.
  8. 8.0 8.1 Dat Quoc Nguyen and Karin Verspoor (2019). "डीप बायफिन ध्यान का उपयोग करके एंड-टू-एंड न्यूरल रिलेशन एक्सट्रैक्शन". Proceedings of the 41st European Conference on Information Retrieval (ECIR). arXiv:1812.11275. doi:10.1007/978-3-030-15712-8_47.
  9. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  10. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  11. Milosevic N, Gregson C, Hernandez R, Nenadic G (February 2019). "बायोमेडिकल साहित्य में तालिकाओं से सूचना निष्कर्षण के लिए एक रूपरेखा". International Journal on Document Analysis and Recognition (IJDAR). 22 (1): 55–78. arXiv:1902.10031. Bibcode:2019arXiv190210031M. doi:10.1007/s10032-019-00317-0. S2CID 62880746.
  12. Milosevic N, Gregson C, Hernandez R, Nenadic G (June 2016). "वैज्ञानिक साहित्य में तालिकाओं की संरचना को अलग करना". 21st International Conference on Applications of Natural Language to Information Systems. Lecture Notes in Computer Science. 21: 162–174. doi:10.1007/978-3-319-41754-7_14. ISBN 978-3-319-41753-0. S2CID 19538141.
  13. Milosevic, Nikola (2018). बायोमेडिकल दस्तावेजों में तालिकाओं से सूचना निष्कर्षण के लिए एक बहुस्तरीय दृष्टिकोण (PDF) (PhD). University of Manchester.
  14. A.Zils, F.Pachet, O.Delerue and F. Gouyon, Automatic Extraction of Drum Tracks from Polyphonic Music Signals, Proceedings of WedelMusic, Darmstadt, Germany, 2002.
  15. Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). "WYSIWYE: सूचना निष्कर्षण के लिए स्थानिक और शाब्दिक नियमों को व्यक्त करने के लिए एक बीजगणित". arXiv:1506.08454 [cs.CL].
  16. Baumgartner, Robert; Flesca, Sergio; Gottlob, Georg (2001). "लिक्स्टो के साथ विजुअल वेब इंफॉर्मेशन एक्सट्रैक्शन": 119–128. CiteSeerX 10.1.1.21.8236. {{cite journal}}: Cite journal requires |journal= (help)
  17. Peng, F.; McCallum, A. (2006). "सशर्त यादृच्छिक क्षेत्रों का उपयोग करके शोध पत्रों से सूचना निष्कर्षण ☆". Information Processing & Management. 42 (4): 963. doi:10.1016/j.ipm.2005.09.002.
  18. Shimizu, Nobuyuki; Hass, Andrew (2006). "मार्ग निर्देशों से फ़्रेम-आधारित ज्ञान प्रतिनिधित्व निकालना" (PDF). Archived from the original (PDF) on 2006-09-01. Retrieved 2010-03-27.


बाहरी संबंध