टेक्स्ट खनन

From Vigyanwiki

टेक्स्ट माइनिंग, टेक्स्ट डेटा माइनिंग (टीडीएम) या टेक्स्ट विश्लेषण एक प्रक्रिया है जिसमें टेक्स्ट से उच्च गुणवत्ता वाली जानकारी को प्राप्त किया जाता है। इसमें "कंप्यूटर द्वारा नई, पहले से अज्ञात जानकारी की खोज, विभिन्न लिखित संसाधनों से स्वचालित रूप से जानकारी निकालकर" सम्मिलित होता है। लिखित संसाधनों में वेबसाइट, पुस्तकें, ईमेल, समीक्षाएँ और लेख सम्मिलित हो सकते हैं। उच्च गुणवत्ता वाली जानकारी आमतौर पर सांख्यिकीय पैटर्न सीखने जैसे तरीकों द्वारा पैटर्न और प्रवृत्तियों को विचारशीलता करके प्राप्त की जाती है। होथो एटअल (2005) के अनुसार, हम टेक्स्ट माइनिंग के तीन विभिन्न परिप्रेक्ष्यों को भिन्न भिन्न विधियों से विभाजित कर सकते हैं: सूचना निकालना, डेटा माइनिंग और डेटाबेस में ज्ञान प्रक्रिया आदि ।

टेक्स्ट माइनिंग आमतौर पर इनपुट टेक्स्ट की संरचना की प्रक्रिया को सम्मिलित करता है। संरचित डेटा में पैटर्न प्राप्त करना, और अंत में उत्पाद की मूल्यांकन और व्याख्या करना होता है। टेक्स्ट माइनिंग में 'उच्च गुणवत्ता' आमतौर परप्रासंगिकता, नवीनता और रुचि के कुछ संयोजन को संदर्भित करता है। टेक्स्ट माइनिंग के आम कार्य में टेक्स्ट वर्गीकरण, टेक्स्ट समूहीकरण, अवधारणा/एंटिटी निकालना, सूक्ष्म टैक्सोनोमी निर्माण, भावना विश्लेषण, दस्तावेज़संक्षेपण और एंटिटी संबंध निर्माण सम्मिलित होते हैं।

टेक्स्ट विश्लेषण में सूचना प्राप्ति, शब्दिक विश्लेषण के लिए शब्द आवृत्ति वितरण का अध्ययन, पैटर्न पहचानी, टैगिंग/टिप्पणी, सूचना प्राप्ति, लिंक और संबंध विश्लेषण सहित डेटा माइनिंग तकनीकें, दृश्यीकरण, और पूर्वानुमानात्मक विश्लेषण सम्मिलित होते हैं। सार्वभौमिक लक्ष्य, सामान्य रूप से, संसाधन पर आधारित विश्लेषण के लिए टेक्स्ट को डेटा में बदलता है, प्राकृतिक भाषा प्रसंस्करण (एनएलपी), विभिन्न प्रकार के कलनविधि और विश्लेषणिक विधियों के उपयोग के माध्यम से इस प्रक्रिया का महत्वपूर्ण चरण संग्रहित जानकारी की व्याख्या करता है।

टेक्स्ट माइनिंग के एक आम एप्लिकेशन का उपयोग किसी प्राकृतिक भाषा में लिखित एक सेट दस्तावेज़ों को स्कैन करना है और या तो डस्तावेज़ सेट को पूर्वानुमानात्मक वर्गीकरण के लिए मॉडल करना है या डेटाबेस या खोज सूचकांक को प्राप्त की गई जानकारी से भरना है। जब टेक्स्ट माइनिंग की शुरुआत होती है, तो दस्तावेज़ को आधार तत्व के रूप में परिभाषित किया जाता है। यहां, हम एक दस्तावेज़ को टेक्स्ट गत डेटा की इकाई के रूप में परिभाषित करते हैं, जो सामान्यतः बहुत सारे प्रकार के संग्रहों में उपस्थित होती है।[1]


टेक्स्ट विश्लेषण

टेक्स्ट विश्लेषण एक समूह के वर्णन को करता है जिसमें भाषाई, सांख्यिकीय और यंत्र अधिगम तकनीकों का उपयोग किया जाता है जो व्यापार बुद्धिमत्ता, अन्वेषणात्मक डेटा विश्लेषण, अनुसंधान या जांच के लिए टेक्स्ट स्रोतों की जानकारी साधारित करते हैं। यह शब्द प्रायः टेक्स्ट माइनिंग के समानार्थी है;[2] वास्तव में,रॉन फेल्डमैन ने 2004 में "टेक्स्ट विश्लेषण" का वर्णन करने के लिए 2000 में "टेक्स्ट माइनिंग" का वर्णन संशोधित किया। बाद के समय में "टेक्स्ट विश्लेषण" शब्द व्यापार स्थानों में अधिक उपयोग होता है जबकि "टेक्स्ट माइनिंग" का प्रयोग कुछ पुराने अनुप्रयोग क्षेत्रों में किया जाता है, जबकि टेक्स्ट माइनिंग का उपयोग 1980 के दशक के कुछ शुरुआती अनुप्रयोग क्षेत्रों में किया जाता है,[3] विशेष रूप से जीवन-विज्ञान अनुसंधान और सरकारी सूचना के क्षेत्रों में किया जाता है।

टेक्स्ट विश्लेषण शब्द उस अनुप्रयोग को भी वर्णित करता है जो व्यापार समस्याओं का समाधान करने के लिए टेक्स्ट विश्लेषण का उपयोग करता है, चाहे यह स्वतंत्र रूप से हो या क्षेत्रीय, संख्यात्मक डेटा के प्रश्न और विश्लेषण के साथ संयोजित हो। यह सत्य है कि व्यापार संबंधी जानकारी का 80 प्रतिशत असंरचित डेटा में, मुख्य रूप से टेक्स्टके रूप में उत्पन्न होता है।[4] ये तकनीक और प्रक्रियाएं ज्ञान की खोज करते हैं और प्रस्तुत करते हैं - तथ्य, व्यावसायिक नियम और संबंध - जो टेक्स्ट के रूप में बंद होते हैं और स्वचालित प्रसंस्करण के लिए अप्रवेश्य होते हैं।

टेक्स्ट विश्लेषण प्रक्रियाएँ

उपकार्य बड़े टेक्स्ट-विश्लेषण प्रयास के घटक सामान्यतः सम्मिलित होते हैं:

  • पूर्व-प्रसंस्करण डेटा के लिए आयामीता में कमी महत्वपूर्ण तकनीक है। इस तकनीक का उपयोग वास्तविक शब्दों के मूल शब्द की पहचान करने और टेक्स्ट डेटा के आकार को कम करने के लिए किया जाता है।
  • सूचना पुनर्प्राप्ति या टेक्स्टकोष की पहचान एक प्रारंभिक चरण है: विश्लेषण के लिए वेब पर या फाइल सिस्टम, डेटाबेस, या सामग्री कॉर्पस प्रबंधक में रखी गई टेक्स्ट्य सामग्री के एक सेट को इकट्ठा करना या पहचान किया जाता है।
  • कुछ टेक्स्ट विश्लेषण प्रणालियाँ विशेष रूप से उन्नत सांख्यिकीय विधियों को लागू करती हैं, कई अन्य अधिक व्यापक प्राकृतिक भाषा प्रसंस्करण को लागू करते हैं, जैसे कि भाषण टैगिंग का भाग, वाक्यविन्यास पार्सिंग और अन्य प्रकार के भाषाई विश्लेषण।[5]
  • नामित इकाई पहचान नामित टेक्स्ट सुविधाओं की पहचान करने के लिए सांख्यिकीय तकनीकों का उपयोग है: लोग, संगठन, स्थान के नाम, स्टॉक टिकर प्रतीक, कुछ संक्षिप्ताक्षर, इत्यादि।
  • असंबद्धता - संदर्भ सुरागों का उपयोग - यह तय करने के लिए आवश्यक हो सकता है कि, उदाहरण के लिए, फोर्ड पूर्व अमेरिकी राष्ट्रपति, एक वाहन निर्माता, एक फिल्म स्टार, एक नदी पार करने वाले, या किसी अन्य इकाई का उल्लेख कर सकता है।[6]
  • पैटर्न पहचानी गई संस्थाओं की पहचान: टेलीफोन नंबर, ई-मेल पते, मात्रा (इकाइयों के साथ) जैसी विशेषताओं को नियमित अभिव्यक्ति या अन्य पैटर्न मिलान के माध्यम से पहचाना जा सकता है।
  • दस्तावेज़ क्लस्टरिंग: समान टेक्स्टदस्तावेज़ों के सेट की पहचान।[7]
  • सहसंदर्भ: संज्ञा वाक्यांश और अन्य शब्दों की पहचान जो एक ही वस्तु को संदर्भित करते हैं।
  • संबंध, तथ्य और घटना निष्कर्षण: संस्थाओं के बीच संबंधों की पहचान और ग्रंथों में अन्य जानकारी।
  • भावना विश्लेषण में समझदार व्यक्तिपरक सामग्री और व्यवहारिक जानकारी के विभिन्न रूपों को निकालना सम्मिलित है: भावना, राय, मनोदशा और भावना। टेक्स्ट विश्लेषण तकनीक इकाई, अवधारणा या विषय स्तर पर भावनाओं का विश्लेषण करने और राय धारकों और वस्तुओं को अलग करने में मदद करती है।[8]
  • मात्रात्मक टेक्स्ट विश्लेषण सामाजिक विज्ञान से उपजी तकनीकों का एक सेट है जहां या तो एक मानव या एक कंप्यूटर शब्दों के बीच अर्थ या व्याकरणिक संबंधों को निकालता है सामान्यतः इस उद्देश्य के लिए एक आकस्मिक व्यक्तिगत टेक्स्ट के अर्थ या शैलीगत पैटर्न का पता लगाया जा सके जैसे मनोवैज्ञानिक प्रोफाइलिंग आदि।[9]
  • प्री-प्रोसेसिंग में सामान्यतः टोकनाइजेशन, फ़िल्टरिंग और स्टेमिंग जैसे कार्य सम्मिलित होते हैं।

अनुप्रयोग

टेक्स्ट माइनिंग तकनीक अब व्यापक रूप से विभिन्न प्रकार की सरकारी, अनुसंधान और व्यावसायिक आवश्यकताओं के लिए लागू की जाती है। ये सभी समूह रिकॉर्ड प्रबंधन और अपनी दैनिक गतिविधियों से संबंधित दस्तावेज़ों की खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। उदाहरण के लिए, कानूनी पेशेवरई-खोज के लिए टेक्स्ट माइनिंग का उपयोग कर सकते हैं। सरकारें और सैन्य समूह राष्ट्रीय सुरक्षा और खुफिया उद्देश्यों के लिए टेक्स्ट माइनिंग का उपयोग करते हैं। वैज्ञानिक शोधकर्ता टेक्स्ट डेटा के बड़े सेट को व्यवस्थित करने के प्रयासों में टेक्स्ट माइनिंग दृष्टिकोण को सम्मिलित करते हैं, जिससे टेक्स्ट के माध्यम से संप्रेषित विचारों को निर्धारित किया जा सके। [10][11][12]) और जीवन विज्ञान और जैव सूचना विज्ञान जैसे क्षेत्रों में वैज्ञानिक खोज का समर्थन करना। व्यवसाय में, कई अन्य गतिविधियों के अतिरिक्त , प्रतिस्पर्धी बुद्धिमत्ता और स्वचालित विज्ञापन सेवा का समर्थन करने के लिए एप्लिकेशन का उपयोग किया जाता है।

सुरक्षा अनुप्रयोग

कई टेक्स्ट माइनिंग सॉफ़्टवेयर पैकेज सुरक्षा उपकरण के लिए विपणन किए जाते हैं, विशेष रूप से राष्ट्रीय सुरक्षा उद्देश्यों के लिए ऑनलाइन सादे टेक्स्ट स्रोतों जैसे इंटरनेट समाचार, ब्लॉग इत्यादि की निगरानी और विश्लेषण।[13] यह टेक्स्ट कूटलेखन /डिक्रिप्शन के अध्ययन में भी सम्मिलित है।

बायोमेडिकल अनुप्रयोग

A flowchart of a text mining protocol.बायोमेडिकल साहित्य में टेक्स्ट माइनिंग अनुप्रयोगों की एक श्रृंखला का वर्णन किया गया है,[15] प्रोटीन डॉकिंग में अध्ययन में सहायता के लिए कम्प्यूटेशनल दृष्टिकोण सहित,[16] प्रोटीन अंतःक्रिया,[17][18] और प्रोटीन-रोग संघ।[19] इसके अतिरिक्त, नैदानिक ​​क्षेत्र में बड़े रोगी टेक्स्ट्य डेटासेट, जनसंख्या अध्ययन में जनसांख्यिकीय जानकारी के डेटासेट और प्रतिकूल घटना रिपोर्ट के साथ, टेक्स्टमाइनिंग नैदानिक ​​​​अध्ययन और सटीक चिकित्सा की सुविधा प्रदान कर सकता है। टेक्स्ट माइनिंग एल्गोरिदम इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, घटना रिपोर्ट और विशिष्ट नैदानिक ​​​​परीक्षणों की रिपोर्ट से लक्षणों, दुष्प्रभावों और सह-रुग्णताओं के बड़े रोगी टेक्स्ट्य डेटासेट में विशिष्ट नैदानिक ​​​​घटनाओं के स्तरीकरण और अनुक्रमण की सुविधा प्रदान कर सकते हैं।[20] बायोमेडिकल साहित्य में एक ऑनलाइन टेक्स्ट माइनिंग एप्लिकेशन पबजीन है, जो एक सार्वजनिक रूप से सुलभ खोज इंजन है जो बायोमेडिकल टेक्स्ट माइनिंग को नेटवर्क विज़ुअलाइज़ेशन के साथ जोड़ता है।[21][22] बायोमेडिकल ग्रंथों के लिए एक ज्ञान-आधारित खोज इंजन है। टेक्स्ट माइनिंग तकनीक हमें क्लिनिकल डोमेन में असंरचित दस्तावेज़ों से अज्ञात ज्ञान निकालने में भी सक्षम बनाता है[23]


सॉफ्टवेयर अनुप्रयोग

टेक्स्ट माइनिंग विधि और विश्लेषण प्रक्रियाओं को और अधिक स्वचालित करने के लिए आईबीएम और माइक्रोसॉफ्ट सहित प्रमुख कंपनियों द्वारा टेक्स्ट माइनिंग विधियों और सॉफ्टवेयर पर भी शोध और विकास किया जा रहा है, और सामान्य रूप से खोज और अनुक्रमण के क्षेत्र में काम करने वाली विभिन्न कंपनियां अपने परिणामों को बेहतर बनाने के विधियों के रूप में काम कर रही हैं। . सार्वजनिक क्षेत्र के भीतर, सूचना जागरूकता कार्यालय की ट्रैकिंग और निगरानी के लिए सॉफ्टवेयर बनाने पर बहुत प्रयास केंद्रित किया गया है।[24] अध्ययन उद्देश्यों के लिए, वेका वैज्ञानिक दुनिया में सबसे लोकप्रिय विकल्पों में से एक है, जो शुरुआती लोगों के लिए एक उत्कृष्ट प्रवेश बिंदु के रूप में कार्य करता है। पायथन प्रोग्रामर्स के लिए, अधिक सामान्य उद्देश्यों के लिए प्राकृतिक भाषा टूलकिट नामक एक उत्कृष्ट टूलकिट है। अधिक उन्नत प्रोग्रामर के लिए, जनरल लाइब्रेरी भी है, जो शब्द एम्बेडिंग-आधारित टेक्स्ट प्रस्तुतियों पर केंद्रित है।

ऑनलाइन मीडिया अनुप्रयोग

टेक्स्ट माइनिंग का उपयोग ट्रिब्यून कंपनी जैसी बड़ी मीडिया कंपनियों द्वारा जानकारी को स्पष्ट करने और टेक्स्टकों को बेहतर खोज अनुभव प्रदान करने के लिए किया जा रहा है, जिससे साइट की चिपचिपाहट और राजस्व में वृद्धि होती है। इसके अतिरिक्त, अंत में, संपादकों को सभी संपत्तियों में समाचारों को साझा करने, संबद्ध करने और पैकेज करने में सक्षम होने से लाभ हो रहा है, जिससे सामग्री से मुद्रीकरण के अवसर अत्यधिक बढ़ रहे हैं।

व्यवसाय और विपणन अनुप्रयोग

टेक्स्ट विश्लेषण का उपयोग व्यवसाय में किया जा रहा है, विशेष रूप से मार्केटिंग में, जैसे कि ग्राहक संबंध प्रबंधन में। [25] कूसेमेंट और वैन डेन पोएल (2008)[26][27] ग्राहक मंथन (ग्राहक क्षरण) के लिए पूर्वानुमानित विश्लेषण मॉडल को बेहतर बनाने के लिए इसे लागू करें। [26] स्टॉक रिटर्न भविष्यवाणी में टेक्स्ट माइनिंग भी लागू किया जा रहा है।[28]


भावना विश्लेषण

भावना विश्लेषण में यह अनुमान लगाने के लिए फिल्म समीक्षाओं का विश्लेषण सम्मिलित हो सकता है कि किसी फिल्म के लिए समीक्षा कितनी अनुकूल है।[29]इस तरह के विश्लेषण के लिए लेबल किए गए डेटा सेट या शब्दों के प्रभाव की लेबलिंग की आवश्यकता हो सकती है।शब्दतंत्र के लिए शब्दों और अवधारणाओं की प्रभावकारिता के लिए संसाधन बनाए गए हैं[30] और कॉन्सेप्टनेट,[31] क्रमश।भावात्मक कंप्यूटिंग के संबंधित क्षेत्र में भावनाओं का पता लगाने के लिए टेक्स्ट का उपयोग किया गया है।[32] प्रभावशाली कंप्यूटिंग के लिए टेक्स्ट आधारित दृष्टिकोण का उपयोग कई कॉर्पोरा जैसे छात्रों के मूल्यांकन, बच्चों की कहानियों और समाचार कहानियों पर किया गया है।

वैज्ञानिक साहित्य माइनिंग और शैक्षणिक अनुप्रयोग

टेक्स्ट माइनिंग का मुद्दा उन प्रकाशकों के लिए महत्वपूर्ण है जिनके पास सूचना के बड़े डेटाबेस हैं जिन्हें पुनर्प्राप्ति के लिए सूचकांक की आवश्यकता होती है। यह वैज्ञानिक विषयों में विशेष रूप से सच है, जिसमें अत्यधिक विशिष्ट जानकारी प्रायः लिखित टेक्स्टमें निहित होती है। इसलिए, ओपन टेक्स्ट माइनिंग इंटरफेस (ओटीएमआई) के लिए नेचर (जर्नल)|नेचर का प्रस्ताव और नेशनल इंस्टीट्यूट ऑफ हेल्थ के कॉमन जर्नल पब्लिशिंगदस्तावेज़ प्रकार परिभाषा (डीटीडी) जैसी पहल की गई है, जो विशिष्ट प्रश्नों के उत्तर देने के लिए मशीनों को सिमेंटिक संकेत प्रदान करेगा। सार्वजनिक पहुंच में प्रकाशक की बाधाओं को दूर किए बिना टेक्स्ट के भीतर समाहित किया गया।

शैक्षणिक संस्थान भी टेक्स्ट माइनिंग पहल में सम्मिलित हो गए हैं:

वैज्ञानिक साहित्य माइनिंग की विधियाँ

वैज्ञानिक साहित्य से जानकारी पुनर्प्राप्ति में सहायता के लिए अभिकलनात्मक विधियाँ विकसित किए गए हैं। प्रकाशित दृष्टिकोणों में खोज के तरीके,नवीनता का निर्धारण, और तकनीकी रिपोर्टों के बीच समानार्थी शब्दों को स्पष्ट करना सम्मिलित हैं।

डिजिटल मानविकी और कम्प्यूटेशनल समाजशास्त्र

विशाल टेक्स्ट्य संग्रह के स्वचालित विश्लेषण ने विद्वानों के लिए बहुत ही सीमित मैन्युअल हस्तक्षेप के साथ कई भाषाओं में लाखों दस्तावेजों का विश्लेषण करने की संभावना पैदा की है। प्रमुख सक्षम प्रौद्योगिकियाँ पार्सिंग, मशीन अनुवाद, विषय वर्गीकरण और मशीन लर्निंग रही हैं।

अमेरिकी चुनाव 2012 का वर्णनात्मक नेटवर्क[36]

टेक्स्टुअल कॉर्पोरा के स्वचालित पार्सिंग ने बड़े पैमाने पर अभिनेताओं और उनके संबंधपरक नेटवर्क के निष्कर्षण को सक्षम किया है, जिससे टेक्स्टुअल डेटा नेटवर्क डेटा में बदल गया है। परिणामी नेटवर्क, जिसमें हजारों नोड हो सकते हैं, फिर प्रमुख अभिनेताओं, प्रमुख समुदायों या पार्टियों और सामान्य गुणों जैसे समग्र नेटवर्क की मजबूती या संरचनात्मक स्थिरता, या कुछ की केंद्रीयता की पहचान करने के लिए नेटवर्क सिद्धांत के उपकरणों का उपयोग करके विश्लेषण किया जाता है। नोड्स.[37] यह मात्रात्मक कथा विश्लेषण द्वारा प्रस्तुत दृष्टिकोण को स्वचालित करता है,[38] जिससे विषय-क्रिया-वस्तु त्रिक की पहचान किसी क्रिया से जुड़े अभिनेताओं के जोड़े, या अभिनेता-वस्तु द्वारा गठित जोड़े से की जाती है।

सामग्री विश्लेषण लंबे समय से सामाजिक विज्ञान और मीडिया अध्ययन का एक पारंपरिक हिस्सा रहा है।[36] सामग्री विश्लेषण के स्वचालन ने उस क्षेत्र में एक बड़ी डेटा क्रांति लाने की अनुमति दी है, सोशल मीडिया और समाचार पत्र सामग्री में अध्ययन के साथ जिसमें लाखों समाचार वस्तु सम्मिलित हैं। लाखों दस्तावेजों में टेक्स्ट माइनिंग विधियों के आधार पर लिंग पूर्वाग्रह, पठनीयता, सामग्री समानता, टेक्स्ट प्राथमिकताएं और यहां तक ​​कि मनोदशा का विश्लेषण किया गया है।[39][40][41][42][43] फ़्लौनास एट अल में पठनीयता, लिंग पूर्वाग्रह और विषय पूर्वाग्रह का विश्लेषण प्रदर्शित किया गया था।[44] यह दर्शाना कि कैसे अलग-अलग विषयों में अलग-अलग लैंगिक पूर्वाग्रह और पठनीयता के स्तर होते हैं; ट्विटर सामग्री का विश्लेषण करके एक विशाल आबादी में मूड पैटर्न का पता लगाने की संभावना का भी प्रदर्शन किया गया।[45][46]


सॉफ्टवेयर

टेक्स्ट माइनिंग कंप्यूटर प्रोग्राम कई व्यावसायिक सॉफ्टवेयर और ओपन स्त्रोत कंपनियों और स्रोतों से उपलब्ध हैं। टेक्स्ट माइनिंग सॉफ़्टवेयर की सूची देखें।

बौद्धिक संपदा विधि

यूरोप में स्थिति

3:52
ईयू में टीडीएम और इसके कॉपीराइट मुद्दों को समझाते हुए फिक्स कॉपीराइट अभियान द्वारा वीडियो, 2016 [3:51

यूरोपीय कॉपीराइट और डेटाबेस कानून के तहत, कॉपीराइट संरक्षित कार्यों (जैसे कि वेब माइनिंग द्वारा) की माइनिंग, कॉपीराइट के मालिक की अनुमति के बिना, अवैध है।[47] 2014 में यूके में, हरग्रीव्स समीक्षा की सिफारिश पर, सरकार ने कॉपीराइट कानून में संशोधन किया जिससे टेक्स्ट माइनिंग को सीमाबद्धता और अपवाद के रूप में अनुमति मिली। यह दूसरा देश था जो ऐसा करने वाला था, जबकि जापान ने 2009 में एक माइनिंग-विशिष्ट अपवाद प्रस्तुत किया था।

यद्यपि, सूचना सोसायटी निर्देश (2001) के प्रतिबंध के कारण, यूके अपवाद केवल सामग्री माइनिंग की अनुमति देता है गैर-व्यावसायिक उद्देश्यों के लिए. यूके कॉपीराइट कानून इस प्रावधान को अनुबंध संबंधी नियमों और शर्तों से परे जाने की अनुमति नहीं देता है।

यूरोपीय आयोग ने 2013 में "लाइसेंसेस फॉर यूरोप" के नामक तहत टेक्स्ट और डेटा माइनिंग पर हितधारक चर्चा को सुविधाजनक बनाया। इस कानूनी मुद्दे का समाधान लाइसेंसों पर ही केंद्रित होने के कारण, यूनिवर्सिटीज, शोधकर्ता, पुस्तकालय, सिविल समाज समूह और ओपन एक्सेस प्रकाशकों के प्रतिनिधि मई 2013 में हितधारक संवाद से अलग हो गए।[48]


संयुक्त राज्य अमेरिका में स्थिति

संयुक्त राज्य अमेरिका के कॉपीराइट कानून, और विशेष रूप से इसके उचित उपयोग प्रावधानों का अर्थ है कि अमेरिका, साथ ही इज़राइल, ताइवान और दक्षिण कोरिया जैसे अन्य उचित उपयोग वाले देशों में टेक्स्ट माइनिंग को कानूनी माना जाता है। चूंकि टेक्स्ट माइनिंग परिवर्तनकारी है, जिसका अर्थ है कि यह मूल कार्य को प्रतिस्थापित नहीं करता है, इसे उचित उपयोग के अंतर्गत वैध माना जाता है। उदाहरण के लिए, गूगल पुस्तक खोज निपटान अनुबंध के भाग के रूप में मामले के पीठासीन न्यायाधीश ने फैसला सुनाया कि गूगल की इन-कॉपीराइट पुस्तकों का डिजिटलीकरण प्रोजेक्ट वैध था, आंशिक रूप से डिजिटलीकरण प्रोजेक्ट द्वारा प्रदर्शित परिवर्तनकारी उपयोगों के कारण ऐसा ही एक उपयोग टेक्स्ट और डेटा माइनिंग है ।[49]


ऑस्ट्रेलिया में स्थिति

कॉपीराइट अधिनियम 1968 के अंतर्गत टेक्स्ट या डेटा माइनिंग के लिए ऑस्ट्रेलियाई कॉपीराइट कानून में कोई अपवाद नहीं है। ऑस्ट्रेलियाई कानून सुधार आयोग ने दावा किया है कि यह असंभाव है कि "अनुसंधान और अध्ययन" के लिए उचित व्यवहार अपवाद इस तरह के विषय को शामिल करेगा, क्योंकि यह "योग्य हिस्सा" की आवश्यकता से परे होगा।।[50]


निहितार्थ

हाल तक, वेबसाइटें प्रायः टेक्स्ट-आधारित खोजों का उपयोग करती थीं, जिनमें केवल विशिष्ट उपयोगकर्ता-परिभाषित शब्दों या वाक्यांशों वाले दस्तावेज़ ही मिलते थे। अब, सेमांटिक वेब के उपयोग के माध्यम से, टेक्स्ट माइनिंग अर्थ और संदर्भ के आधार पर सामग्री पा सकता है (केवल किसी विशिष्ट शब्द के बजाय)। इसके अतिरिक्त, टेक्स्ट माइनिंग सॉफ़्टवेयर का उपयोग विशिष्ट लोगों और घटनाओं के बारे में जानकारी के बड़े दस्तावेज़ बनाने के लिए किया जा सकता है। उदाहरण के लिए, सामाजिक नेटवर्क विश्लेषण या प्रति-बुद्धिमत्ता की सुविधा के लिए समाचार रिपोर्टों से निकाले गए डेटा पर आधारित बड़े डेटासेट बनाए जा सकते हैं। वास्तव में, टेक्स्ट माइनिंग सॉफ्टवेयर एक खुफिया विश्लेषक या अनुसंधान लाइब्रेरियन के समान क्षमता में कार्य कर सकता है, भले ही विश्लेषण का दायरा अधिक सीमित हो। टेक्स्ट माइनिंग का उपयोग कुछ ईमेल स्पैम छांटना में उन संदेशों की विशेषताओं को निर्धारित करने के तरीके के रूप में भी किया जाता है जिनमें विज्ञापन या अन्य अवांछित सामग्री होने की संभावना होती है। टेक्स्ट माइनिंग वित्तीय बाज़ार धारणा को निर्धारित करने में महत्वपूर्ण भूमिका निभाता है।

भविष्य

बहुभाषी डेटा माइनिंग को बढ़ता रुझान मिल रहा है: विभिन्न भाषाओं में से जानकारी प्राप्त करने और भाषाई स्रोतों के अर्थ के आधार पर समान आइटमों को समूहीकृत करने की क्षमता।

असंरचित रूप में उत्पन्न होने वाली उद्यम जानकारी के बड़े हिस्से का दोहन करने की चुनौती को दशकों से मान्यता दी गई है।[51] अक्टूबर 1958 में एच.पी. द्वारा आईबीएम जर्नल लेख में इसे बिजनेस इंटेलिजेंस (बीआई) की प्रारंभिक परिभाषा में मान्यता दी गई है। लुहान, एक बिजनेस इंटेलिजेंस सिस्टम, जो एक ऐसी प्रणाली का वर्णन करता है जो:

...दस्तावेज़ों के ऑटो-एब्स्ट्रक्शन और ऑटो-एन्कोडिंग के लिए और किसी संगठन में प्रत्येक 'एक्शन पॉइंट' के लिए रुचि प्रोफ़ाइल बनाने के लिए डेटा-प्रोसेसिंग मशीनों का उपयोग करें। आने वाले और आंतरिक रूप से तैयार किए गए दोनों दस्तावेज़ स्वचालित रूप से सारगर्भित होते हैं, एक शब्द पैटर्न द्वारा चित्रित होते हैं, और स्वचालित रूप से उचित कार्रवाई बिंदुओं पर भेजे जाते हैं।


फिर भी 1960 के दशक में प्रबंधन सूचना प्रणालियाँ विकसित हुईं, और 80 और 90 के दशक में बीआई एक सॉफ्टवेयर श्रेणी और अभ्यास के क्षेत्र के रूप में उभरा, रिलेशनल डेटाबेस में संग्रहीत संख्यात्मक डेटा पर जोर दिया गया। यह आश्चर्य की बात नहीं है: असंरचित दस्तावेज़ों में टेक्स्टको संसाधित करना कठिन है। अपने वर्तमान स्वरूप में टेक्स्ट विश्लेषण का उद्भव 1990 के दशक के उत्तरार्ध में एल्गोरिदम विकास से लेकर अनुप्रयोग तक अनुसंधान पर फिर से ध्यान केंद्रित करने से हुआ, जैसा कि प्रो.मार्टी ए. हर्स्ट ने पेपर अनटैंगलिंग टेक्स्ट डेटा माइनिंग में वर्णित किया है। [52]

लगभग एक दशक से कम्प्यूटेशनल भाषाविज्ञान समुदाय ने बड़े टेक्स्ट संग्रह को बेहतर टेक्स्ट विश्लेषण एल्गोरिदम तैयार करने के लिए उपयोग किए जाने वाले संसाधन के रूप में देखा है। इस पेपर में, मैंने एक नए जोर का सुझाव देने का प्रयास किया है: दुनिया के बारे में नए तथ्यों और रुझानों की खोज के लिए बड़े ऑनलाइन टेक्स्टसंग्रह का उपयोग। मेरा सुझाव है कि प्रगति करने के लिए हमें पूरी तरह से कृत्रिम बुद्धिमान टेक्स्टविश्लेषण की आवश्यकता नहीं है; बल्कि, कम्प्यूटेशनल रूप से संचालित और उपयोगकर्ता-निर्देशित विश्लेषण का मिश्रण रोमांचक नए परिणामों का द्वार खोल सकता है।

हर्स्ट का 1999 का आवश्यकता संबंधी कथन एक दशक बाद टेक्स्ट विश्लेषण तकनीक और अभ्यास की स्थिति का अच्छी तरह से वर्णन करता है।

यह भी देखें

संदर्भ

उद्धरण

  1. Feldman, R. and Sanger, J. (2007). The text mining handbook. Cambridge University Press. New York
  2. [1] Archived March 3, 2012, at the Wayback Machine
  3. Hobbs, Jerry R.; Walker, Donald E.; Amsler, Robert A. (1982). "Natural language access to structured text". Proceedings of the 9th conference on Computational linguistics. Vol. 1. pp. 127–32. doi:10.3115/991813.991833. S2CID 6433117.
  4. "Unstructured Data and the 80 Percent Rule". Breakthrough Analysis. August 2008. Retrieved 2015-02-23.
  5. Antunes, João (2018-11-14). Exploração de informações contextuais para enriquecimento semântico em representações de textos (Mestrado em Ciências de Computação e Matemática Computacional thesis) (in português). São Carlos: Universidade de São Paulo. doi:10.11606/d.55.2019.tde-03012019-103253.
  6. Moro, Andrea; Raganato, Alessandro; Navigli, Roberto (December 2014). "Entity Linking meets Word Sense Disambiguation: a Unified Approach". Transactions of the Association for Computational Linguistics. 2: 231–244. doi:10.1162/tacl_a_00179. ISSN 2307-387X.
  7. Chang, Wui Lee; Tay, Kai Meng; Lim, Chee Peng (2017-02-06). "दस्तावेज़ क्लस्टरिंग और विज़ुअलाइज़ेशन के लिए स्थानीय पुनः सीखने के साथ एक नया विकसित वृक्ष-आधारित मॉडल". Neural Processing Letters. 46 (2): 379–409. doi:10.1007/s11063-017-9597-3. ISSN 1370-4621. S2CID 9100902.
  8. Benchimol, Jonathan; Kazinnik, Sophia; Saadon, Yossi (2022). "Text mining methodologies with R: An application to central bank texts". Machine Learning with Applications. 8: 100286. doi:10.1016/j.mlwa.2022.100286. S2CID 243798160.
  9. Mehl, Matthias R. (2006). "Quantitative Text Analysis". मनोविज्ञान में बहुपद्धति माप की पुस्तिका. p. 141. doi:10.1037/11383-011. ISBN 978-1-59147-318-3.
  10. Pang, Bo; Lee, Lillian (2008). "राय खनन और भावना विश्लेषण". Foundations and Trends in Information Retrieval. 2 (1–2): 1–135. CiteSeerX 10.1.1.147.2755. doi:10.1561/1500000011. ISSN 1554-0669. S2CID 207178694.
  11. Paltoglou, Georgios; Thelwall, Mike (2012-09-01). "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media". ACM Transactions on Intelligent Systems and Technology. 3 (4): 66. doi:10.1145/2337542.2337551. ISSN 2157-6904. S2CID 16600444.
  12. "Sentiment Analysis in Twitter < SemEval-2017 Task 4". alt.qcri.org. Retrieved 2018-10-02.
  13. Zanasi, Alessandro (2009). "Virtual Weapons for Real Wars: Text Mining for National Security". Proceedings of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing. Vol. 53. p. 53. doi:10.1007/978-3-540-88181-0_7. ISBN 978-3-540-88180-3.
  14. Badal, Varsha D.; Kundrotas, Petras J.; Vakser, Ilya A. (2015-12-09). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. ISSN 1553-7358. PMC 4674139. PMID 26650466.
  15. Cohen, K. Bretonnel; Hunter, Lawrence (2008). "टेक्स्ट माइनिंग में शुरुआत करना". PLOS Computational Biology. 4 (1): e20. Bibcode:2008PLSCB...4...20C. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946.
  16. Badal, V. D; Kundrotas, P. J; Vakser, I. A (2015). "प्रोटीन डॉकिंग के लिए टेक्स्ट माइनिंग". PLOS Computational Biology. 11 (12): e1004630. Bibcode:2015PLSCB..11E4630B. doi:10.1371/journal.pcbi.1004630. PMC 4674139. PMID 26650466.
  17. Papanikolaou, Nikolas; Pavlopoulos, Georgios A.; Theodosiou, Theodosios; Iliopoulos, Ioannis (2015). "Protein–protein interaction predictions using text mining methods". Methods. 74: 47–53. doi:10.1016/j.ymeth.2014.10.026. ISSN 1046-2023. PMID 25448298.
  18. Szklarczyk, Damian; Morris, John H; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T; Roth, Alexander (2016-10-18). "The STRING database in 2017: quality-controlled protein–protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. ISSN 0305-1048. PMC 5210637. PMID 27924014.
  19. Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (2018-10-01). "हृदय रोग में बाह्य कोशिकीय मैट्रिक्स प्रोटीन पैटर्न का विश्लेषण करने के लिए पाठ्य डेटा का वाक्यांश खनन". American Journal of Physiology. Heart and Circulatory Physiology. 315 (4): H910–H924. doi:10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406.
  20. Van Le, D; Montgomery, J; Kirkby, KC; Scanlan, J (10 August 2018). "एक इनपेशेंट फोरेंसिक मनोचिकित्सा सेटिंग में इलेक्ट्रॉनिक मानसिक स्वास्थ्य रिकॉर्ड्स की प्राकृतिक भाषा प्रसंस्करण का उपयोग करके जोखिम की भविष्यवाणी।". Journal of Biomedical Informatics. 86: 49–58. doi:10.1016/j.jbi.2018.08.007. PMID 30118855.
  21. Jenssen, Tor-Kristian; Lægreid, Astrid; Komorowski, Jan; Hovig, Eivind (2001). "जीन अभिव्यक्ति के उच्च-थ्रूपुट विश्लेषण के लिए मानव जीन का एक साहित्य नेटवर्क". Nature Genetics. 28 (1): 21–8. doi:10.1038/ng0501-21. PMID 11326270. S2CID 8889284.
  22. Masys, Daniel R. (2001). "माइक्रोएरे डेटा को साहित्य से जोड़ना". Nature Genetics. 28 (1): 9–10. doi:10.1038/ng0501-9. PMID 11326264. S2CID 52848745.
  23. Renganathan, Vinaitheerthan (2017). "दस्तावेज़ क्लस्टरिंग पर जोर के साथ बायोमेडिकल डोमेन में टेक्स्ट माइनिंग". Healthcare Informatics Research. 23 (3): 141–146. doi:10.4258/hir.2017.23.3.141. ISSN 2093-3681. PMC 5572517. PMID 28875048.
  24. [2] Archived October 4, 2013, at the Wayback Machine
  25. "पाठ विश्लेषण". Medallia. Retrieved 2015-02-23.
  26. Jump up to: 26.0 26.1 Coussement, Kristof; Van Den Poel, Dirk (2008). "मंथन पूर्वानुमान के लिए निर्णय समर्थन प्रणाली में कॉल सेंटर ईमेल के माध्यम से ग्राहकों की आवाज़ को एकीकृत करना". Information & Management. 45 (3): 164–74. CiteSeerX 10.1.1.113.3238. doi:10.1016/j.im.2008.01.005.
  27. Coussement, Kristof; Van Den Poel, Dirk (2008). "भविष्यवक्ताओं के रूप में भाषाई शैली सुविधाओं का उपयोग करके स्वचालित ईमेल वर्गीकरण द्वारा ग्राहक शिकायत प्रबंधन में सुधार करना". Decision Support Systems. 44 (4): 870–82. doi:10.1016/j.dss.2007.10.010.
  28. Ramiro H. Gálvez; Agustín Gravano (2017). "स्वचालित स्टॉक भविष्यवाणी प्रणालियों में ऑनलाइन संदेश बोर्ड खनन की उपयोगिता का आकलन करना". Journal of Computational Science. 19: 1877–7503. doi:10.1016/j.jocs.2017.01.001.
  29. Pang, Bo; Lee, Lillian; Vaithyanathan, Shivakumar (2002). "Thumbs up?". Proceedings of the ACL-02 conference on Empirical methods in natural language processing. Vol. 10. pp. 79–86. doi:10.3115/1118693.1118704. S2CID 7105713.
  30. Alessandro Valitutti; Carlo Strapparava; Oliviero Stock (2005). "Developing Affective Lexical Resources" (PDF). PsychNology Journal. 2 (1): 61–83.
  31. Erik Cambria; Robert Speer; Catherine Havasi; Amir Hussain (2010). "SenticNet: a Publicly Available Semantic Resource for Opinion Mining" (PDF). Proceedings of AAAI CSK. pp. 14–18.
  32. Calvo, Rafael A; d'Mello, Sidney (2010). "Affect Detection: An Interdisciplinary Review of Models, Methods, and Their Applications". IEEE Transactions on Affective Computing. 1 (1): 18–37. doi:10.1109/T-AFFC.2010.1. S2CID 753606.
  33. "मैनचेस्टर विश्वविद्यालय". Manchester.ac.uk. Retrieved 2015-02-23.
  34. "त्सुजी अबोरा और रय". Tsujii.is.s.u-tokyo.ac.jp. Retrieved 2015-02-23.
  35. "टोक्यो विश्वविद्यालय". UTokyo. Retrieved 2015-02-23.
  36. Jump up to: 36.0 36.1 Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015
  37. Network analysis of narrative content in large corpora; S Sudhahar, G De Fazio, R Franzosi, N Cristianini; Natural Language Engineering, 1-32, 2013
  38. Quantitative Narrative Analysis; Roberto Franzosi; Emory University © 2010
  39. Lansdall-Welfare, Thomas; Sudhahar, Saatviga; Thompson, James; Lewis, Justin; Team, FindMyPast Newspaper; Cristianini, Nello (2017-01-09). "Content analysis of 150 years of British periodicals". Proceedings of the National Academy of Sciences. 114 (4): E457–E465. Bibcode:2017PNAS..114E.457L. doi:10.1073/pnas.1606380114. ISSN 0027-8424. PMC 5278459. PMID 28069962.
  40. I. Flaounas, M. Turchi, O. Ali, N. Fyson, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, The Structure of EU Mediasphere, PLoS ONE, Vol. 5(12), pp. e14243, 2010.
  41. Nowcasting Events from the Social Web with Statistical Learning V Lampos, N Cristianini; ACM Transactions on Intelligent Systems and Technology (TIST) 3 (4), 72
  42. NOAM: news outlets analysis and monitoring system; I Flaounas, O Ali, M Turchi, T Snowsill, F Nicart, T De Bie, N Cristianini Proc. of the 2011 ACM SIGMOD international conference on Management of data
  43. Automatic discovery of patterns in media content, N Cristianini, Combinatorial Pattern Matching, 2-13, 2011
  44. I. Flaounas, O. Ali, T. Lansdall-Welfare, T. De Bie, N. Mosdell, J. Lewis, N. Cristianini, RESEARCH METHODS IN THE AGE OF DIGITAL JOURNALISM, Digital Journalism, Routledge, 2012
  45. Circadian Mood Variations in Twitter Content; Fabon Dzogang, Stafford Lightman, Nello Cristianini. Brain and Neuroscience Advances, 1, 2398212817744501.
  46. Effects of the Recession on Public Mood in the UK; T Lansdall-Welfare, V Lampos, N Cristianini; Mining Social Network Dynamics (MSND) session on Social Media Applications
  47. Researchers given data mining right under new UK copyright laws Archived June 9, 2014, at the Wayback Machine
  48. "Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. 2013-04-25. Retrieved 14 November 2014.
  49. "Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology. Antonelli Law Ltd. 19 November 2013. Retrieved 14 November 2014.
  50. "टेक्स्ट और डेटा माइनिंग". Australian Law Reform Commission. 4 June 2013. Retrieved 10 February 2023.
  51. "सेठ ग्रिम्स द्वारा टेक्स्ट एनालिटिक्स का एक संक्षिप्त इतिहास". Beyenetwork. 2007-10-30. Retrieved 2015-02-23.
  52. Hearst, Marti A. (1999). "Untangling text data mining". Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. pp. 3–10. doi:10.3115/1034678.1034679. ISBN 978-1-55860-609-8. S2CID 2340683.


स्रोत

  • अनानियाडौ, एस. और मैकनॉट, जे. (संपादक) (2006)। जीव विज्ञान और बायोमेडिसिन के लिए टेक्स्ट माइनिंग। आर्टेक हाउस बुक्स। ISBN 978-1-58053-984-5
  • बिलिसोली, आर. (2008). पर्ल के साथ प्रैक्टिकल टेक्स्ट माइनिंग। न्यूयॉर्क: जॉन विली एंड संस। ISBN 978-0-470-17643-6
  • फेल्डमैन, आर., और सेंगर, जे. (2006)। टेक्स्ट माइनिंग हैंडबुक। न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस. ISBN 978-0-521-83657-9
  • होथो, ए., नूर्नबर्गर, ए. और पास, जी. (2005)। टेक्स्ट माइनिंग का एक संक्षिप्त सर्वेक्षण। एलडीवी फोरम में, वॉल्यूम। 20(1), पृ. 19-62
  • इंदुर्ख्या, एन., और डेमेरौ, एफ. (2010)। प्राकृतिक भाषा प्रसंस्करण की पुस्तिका, दूसरा संस्करण। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-8592-1
  • काओ, ए., और पोटेट, एस. (संपादक)। प्राकृतिक भाषा प्रसंस्करण और टेक्स्टमाइनिंग । स्प्रिंगर. ISBN 1-84628-175-X
  • कोंचडी, एम. टेक्स्ट माइनिंग एप्लीकेशन प्रोग्रामिंग (प्रोग्रामिंग सीरीज)। चार्ल्स रिवर मीडिया। ISBN 1-58450-460-9
  • मैनिंग, सी., और शुट्ज़, एच. (1999)। सांख्यिकीय प्राकृतिक भाषा प्रसंस्करण की नींव। कैम्ब्रिज, एमए: एमआईटी प्रेस। ISBN 978-0-262-13360-9
  • माइनर, जी., एल्डर, जे., हिल। टी, निस्बेट, आर., डेलेन, डी. और फास्ट, ए. (2012)। गैर-संरचित टेक्स्टडेटा अनुप्रयोगों के लिए व्यावहारिक टेक्स्टमाइनिंग और सांख्यिकीय विश्लेषण। एल्सेवियर अकादमिक प्रेस। ISBN 978-0-12-386979-1
  • मैकनाइट, डब्ल्यू. (2005). बिजनेस इंटेलिजेंस का निर्माण: बिजनेस इंटेलिजेंस में टेक्स्ट डेटा माइनिंग। डीएम समीक्षा, 21-22.
  • श्रीवास्तव, ए., और सहामी। एम. (2009). टेक्स्ट माइनिंग: वर्गीकरण, क्लस्टरिंग और अनुप्रयोग। बोका रैटन, FL: सीआरसी प्रेस। ISBN 978-1-4200-5940-3
  • ज़ानासी, ए. (संपादक) (2007)। टेक्स्ट माइनिंग और इंटेलिजेंस, सीआरएम और नॉलेज मैनेजमेंट में इसके अनुप्रयोग। WIT प्रेस. ISBN 978-1-84564-131-3

बाहरी संबंध