अनुक्रमिक पैटर्न खनन

From Vigyanwiki
Revision as of 15:56, 5 December 2022 by alpha>Indicwiki (Created page with "अनुक्रमिक पैटर्न माइनिंग डेटा माइनिंग का एक विषय है जो डेटा उदाह...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)

अनुक्रमिक पैटर्न माइनिंग डेटा माइनिंग का एक विषय है जो डेटा उदाहरणों के बीच सांख्यिकीय रूप से प्रासंगिक पैटर्न खोजने से संबंधित है जहां मान अनुक्रम में वितरित किए जाते हैं।[1] आमतौर पर यह माना जाता है कि मूल्य असतत हैं, और इस प्रकार समय श्रृंखला खनन निकटता से संबंधित है, लेकिन आमतौर पर इसे एक अलग गतिविधि माना जाता है। अनुक्रमिक पैटर्न खनन संरचित डेटा खनन का एक विशेष मामला है।

इस क्षेत्र में कई प्रमुख पारंपरिक कम्प्यूटेशनल समस्याओं का समाधान किया गया है। इनमें अनुक्रम जानकारी के लिए कुशल डेटाबेस और इंडेक्स बनाना, बार-बार होने वाले पैटर्न को निकालना, समानता के लिए अनुक्रमों की तुलना करना और लापता अनुक्रम सदस्यों को पुनर्प्राप्त करना शामिल है। सामान्य तौर पर, अनुक्रम खनन की समस्याओं को स्ट्रिंग खनन के रूप में वर्गीकृत किया जा सकता है जो आमतौर पर स्ट्रिंग (कंप्यूटर विज्ञान) और आइटमसेट खनन पर आधारित होता है जो आमतौर पर संघ नियम सीखने पर आधारित होता है। स्थानीय प्रक्रिया मॉडल [2] अधिक जटिल पैटर्न के लिए अनुक्रमिक पैटर्न खनन का विस्तार करें जिसमें अनुक्रमिक ऑर्डरिंग निर्माण के अतिरिक्त (अनन्य) विकल्प, लूप और समवर्ती निर्माण शामिल हो सकते हैं।

स्ट्रिंग माइनिंग

स्ट्रिंग माइनिंग आमतौर पर अनुक्रम में दिखाई देने वाली वस्तुओं के लिए सीमित वर्णमाला से संबंधित है, लेकिन अनुक्रम स्वयं आमतौर पर बहुत लंबा हो सकता है। एक वर्णमाला के उदाहरण वे हो सकते हैं जो ASCII वर्ण सेट में प्राकृतिक भाषा पाठ, न्यूक्लियोटाइड बेस 'ए', 'जी', 'सी' और 'टी' [[डीएनए अनुक्रम]]ों में, या प्रोटीन अनुक्रमों के लिए अमीनो अम्ल में उपयोग किए जाते हैं। जीव विज्ञान अनुप्रयोगों में स्ट्रिंग्स में वर्णमाला की व्यवस्था के विश्लेषण का उपयोग जीन और प्रोटीन अनुक्रमों की जांच करने के लिए उनके गुणों को निर्धारित करने के लिए किया जा सकता है। डीएनए या प्रोटीन के अक्षरों के क्रम को जानना अपने आप में अंतिम लक्ष्य नहीं है। बल्कि, प्रमुख कार्य इसकी संरचना और कार्य (जीव विज्ञान) के संदर्भ में अनुक्रम को समझना है। यह आमतौर पर पहले प्रत्येक अनुक्रम के भीतर अलग-अलग क्षेत्रों या संरचनात्मक इकाइयों की पहचान करके और फिर प्रत्येक संरचनात्मक इकाई को एक कार्य निर्दिष्ट करके प्राप्त किया जाता है। कई मामलों में इसके लिए पहले अध्ययन किए गए अनुक्रमों के साथ दिए गए अनुक्रम की तुलना करने की आवश्यकता होती है। एक स्ट्रिंग में सम्मिलन (आनुवांशिकी), विलोपन (आनुवांशिकी) और उत्परिवर्तन होने पर तार के बीच तुलना जटिल हो जाती है।

बायोइन्फॉर्मेटिक्स के लिए अनुक्रम तुलना के लिए प्रमुख एल्गोरिदम का एक सर्वेक्षण और टैक्सोनॉमी अबूएलहोडा और घानेम (2010) द्वारा प्रस्तुत किया गया है, जिसमें शामिल हैं:[3]

  • दोहराव से संबंधित समस्याएं: जो एकल अनुक्रमों पर संचालन से निपटती हैं और स्ट्रिंग खोज एल्गोरिथ्म या अनुमानित स्ट्रिंग मिलान विधियों पर आधारित हो सकती हैं, जो बिखरी हुई निश्चित लंबाई और अधिकतम लंबाई को दोहराती हैं, अग्रानुक्रम दोहराती हैं, और अद्वितीय अनुगामी और लापता (अन-वर्तनी) का पता लगाती हैं। ) अनुवर्ती।
  • संरेखण समस्याएं: जो पहले एक या अधिक अनुक्रमों को संरेखित करके तारों के बीच तुलना से निपटती हैं; लोकप्रिय विधियों के उदाहरणों में डेटाबेस में एकाधिक अनुक्रमों के साथ एकल अनुक्रम की तुलना करने के लिए BLAST और एकाधिक संरेखण के लिए ClustalW शामिल हैं। संरेखण एल्गोरिदम या तो सटीक या अनुमानित तरीकों पर आधारित हो सकते हैं, और इसे वैश्विक संरेखण, अर्ध-वैश्विक संरेखण और स्थानीय संरेखण के रूप में भी वर्गीकृत किया जा सकता है। अनुक्रम संरेखण देखें।

आइटमसेट माइनिंग

सीक्वेंस माइनिंग में कुछ समस्याएं बार-बार आइटमसेट और उनके दिखाई देने वाले क्रम की खोज करने के लिए खुद को उधार देती हैं, उदाहरण के लिए, यदि कोई {ग्राहक कार खरीदता है}, तो वह 1 सप्ताह के भीतर {बीमा खरीद} सकता है, या स्टॉक की कीमतों के संदर्भ में, यदि {नोकिया अप और एरिक्सन अप}, तो यह संभावना है कि {मोटोरोला अप और सैमसंग अप} 2 दिनों के भीतर। परंपरागत रूप से, बड़े लेनदेन में अक्सर होने वाली वस्तुओं के बीच नियमितताओं की खोज के लिए विपणन अनुप्रयोगों में आइटमसेट खनन का उपयोग किया जाता है। उदाहरण के लिए, एक सुपरमार्केट में ग्राहक खरीदारी टोकरी के लेन-देन का विश्लेषण करके, एक नियम तैयार किया जा सकता है जो पढ़ता है कि यदि कोई ग्राहक एक साथ प्याज और आलू खरीदता है, तो वह उसी लेनदेन में हैमबर्गर मांस भी खरीद सकता है।

आइटम सेट खनन के लिए प्रमुख एल्गोरिदम का एक सर्वेक्षण और वर्गीकरण हान एट अल द्वारा प्रस्तुत किया गया है। (2007)।[4] एसोसिएशन रूल लर्निंग माइनिंग के लिए सीक्वेंस डेटाबेस पर लागू होने वाली दो सामान्य तकनीकें हैं प्रभावशाली एप्रीओरी एल्गोरिदम और हाल ही में एसोसिएशन रूल लर्निंग #FP-ग्रोथ एल्गोरिथम | FP-ग्रोथ तकनीक।

अनुप्रयोग

उत्पादों की एक बड़ी विविधता और उपयोगकर्ता के खरीद व्यवहार के साथ, जिस शेल्फ पर उत्पादों को प्रदर्शित किया जा रहा है, वह खुदरा वातावरण में सबसे महत्वपूर्ण संसाधनों में से एक है। खुदरा विक्रेता न केवल अपना लाभ बढ़ा सकते हैं, बल्कि शेल्फ स्पेस आवंटन और उत्पादों के प्रदर्शन के उचित प्रबंधन से लागत भी कम कर सकते हैं। इस समस्या को हल करने के लिए, जॉर्ज और बीनू (2013) ने PrefixSpan एल्गोरिथम का उपयोग करके माइन यूज़र ख़रीदने के पैटर्न के लिए एक दृष्टिकोण प्रस्तावित किया है और माइन्ड क्रय पैटर्न के क्रम के आधार पर उत्पादों को अलमारियों पर रखा है।[5]


एल्गोरिदम

आमतौर पर इस्तेमाल किए जाने वाले एल्गोरिदम में शामिल हैं:

  • जीएसपी एल्गोरिदम
  • समतुल्यता वर्गों (SPADE) का उपयोग करके अनुक्रमिक पैटर्न डिस्कवरी
  • फ्रीस्पैन
  • प्रीफिक्सस्पैन
  • एमएपीरेस[6]
  • Seq2Pat (बाधा-आधारित अनुक्रमिक पैटर्न खनन के लिए)[7][8]


यह भी देखें


संदर्भ

  1. Mabroukeh, N. R.; Ezeife, C. I. (2010). "अनुक्रमिक पैटर्न खनन एल्गोरिदम की एक वर्गीकरण". ACM Computing Surveys. 43: 1–41. CiteSeerX 10.1.1.332.4745. doi:10.1145/1824795.1824798. S2CID 207180619.
  2. Tax, N.; Sidorova, N.; Haakma, R.; van der Aalst, Wil M. P. (2016). "खनन स्थानीय प्रक्रिया मॉडल". Journal of Innovation in Digital Ecosystems. 3 (2): 183–196. arXiv:1606.06066. doi:10.1016/j.jides.2016.11.001. S2CID 10872379.
  3. Abouelhoda, M.; Ghanem, M. (2010). "String Mining in Bioinformatics". In Gaber, M. M. (ed.). वैज्ञानिक डेटा खनन और ज्ञान खोज. Springer. doi:10.1007/978-3-642-02788-8_9. ISBN 978-3-642-02787-1.
  4. Han, J.; Cheng, H.; Xin, D.; Yan, X. (2007). "फ़्रीक्वेंसी पैटर्न माइनिंग: वर्तमान स्थिति और भविष्य की दिशाएँ". Data Mining and Knowledge Discovery. 15 (1): 55–86. doi:10.1007/s10618-006-0059-1.
  5. George, A.; Binu, D. (2013). "PrefixSpan एल्गोरिथम का उपयोग करके सुपरमार्केट में उत्पाद प्लेसमेंट के लिए एक दृष्टिकोण". Journal of King Saud University-Computer and Information Sciences. 25 (1): 77–87. doi:10.1016/j.jksuci.2012.07.001.
  6. Ahmad, Ishtiaq; Qazi, Wajahat M.; Khurshid, Ahmed; Ahmad, Munir; Hoessli, Daniel C.; Khawaja, Iffat; Choudhary, M. Iqbal; Shakoori, Abdul R.; Nasir-ud-Din (1 May 2008). "MAPRes: पोस्ट-ट्रांसलेशनल संशोधनों के लिए लक्षित अमीनो एसिड के आसपास पसंदीदा अमीनो एसिड अवशेषों के बीच खनन संघ पैटर्न". Proteomics. 8 (10): 1954–1958. doi:10.1002/pmic.200700657. PMID 18491291. S2CID 22362167.
  7. Hosseininasab A, van Hoeve WJ, Cire AA (2019). "निर्णय आरेखों के साथ बाधा-आधारित अनुक्रमिक पैटर्न खनन". Proceedings of the AAAI Conference on Artificial Intelligence. 33: 1495–1502. arXiv:1811.06086. doi:10.1609/aaai.v33i01.33011495. S2CID 53427299.
  8. "Seq2Pat: अनुक्रम-से-पैटर्न जनरेशन लाइब्रेरी". GitHub. 9 April 2022.


इस पेज में लापता आंतरिक लिंक की सूची

  • एसोसिएशन नियम सीखना
  • म्यूटेशन
  • जीवविज्ञान
  • समारोह (जीव विज्ञान)
  • पैटर्न खरीदना

बाहरी संबंध

  • SPMF includes open-source implementations of GSP, PrefixSpan, SPADE, SPAM and many others.