जीनमार्क: Difference between revisions
No edit summary |
No edit summary |
||
Line 26: | Line 26: | ||
}} | }} | ||
'''जीनमार्क''', अटलांटा, जॉर्जिया में [[जॉर्जिया तकनीकी संस्थान]] में विकसित Gene_prediction#Ab_initio_methods जीन भविष्यवाणी कार्यक्रमों के परिवार का सामान्य नाम है। वर्ष 1993 में विकसित, मूल जीनमार्क का उपयोग 1995 में ''[[हेमोफिलस इन्फ्लुएंजा]]'' के पहले पूरी तरह से अनुक्रमित जीवाणु जीनोम के एनोटेशन के लिए प्राथमिक जीन भविष्यवाणी उपकरण के रूप में किया गया था, और वर्ष 1996 में ''[[मेथनोकोकस जन्नास्ची]]'' के पहले पुरातन जीनोम के लिए किया गया था। एल्गोरिदम ने प्रोटीन-कोडिंग [[डीएनए अनुक्रम]] के [[अमानवीय]] तीन-आवधिक [[मार्कोव श्रृंखला]] मॉडल पेश किए जो जीन भविष्यवाणी के साथ-साथ दो डीएनए स्ट्रैंड में जीन भविष्यवाणी के लिए बायेसियन दृष्टिकोण में मानक बन गए। मॉडलों के विशिष्ट विशिष्ट मापदंडों का अनुमान ज्ञात प्रकार (प्रोटीन-कोडिंग और गैर-कोडिंग) के अनुक्रमों के प्रशिक्षण सेट से लगाया गया था। एल्गोरिदम का प्रमुख चरण किसी दिए गए डीएनए टुकड़े के लिए छह संभावित रीडिंग फ़्रेमों में से प्रत्येक में प्रोटीन-कोडिंग (आनुवंशिक कोड ले जाना) ([[पूरक डीएनए]] स्ट्रैंड में तीन फ्रेम सहित) या गैर-कोडिंग होने की संभावनाओं की गणना करता है। मूल जीनमार्क (जैव सूचना विज्ञान में एचएमएम युग से पहले विकसित) एचएमएम जैसा एल्गोरिदम है; इसे उचित रूप से परिभाषित एचएमएम के लिए एचएमएम सिद्धांत पोस्टीरियर डिकोडिंग एल्गोरिदम में ज्ञात सन्निकटन के रूप में देखा जा सकता है। | |||
==प्रोकैरियोटिक जीन भविष्यवाणी== | ==प्रोकैरियोटिक जीन भविष्यवाणी== | ||
GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को छिपे [[छिपा हुआ मार्कोव मॉडल]] ढांचे में एकीकृत करने का था, जिसमें कोडिंग और गैर-कोडिंग क्षेत्रों के बीच संक्रमण को औपचारिक रूप से छिपे हुए राज्यों के बीच संक्रमण के रूप में व्याख्या किया गया था। इसके अतिरिक्त, [[राइबोसोम]] [[ बाध्यकारी साइट |बाध्यकारी साइट]] मॉडल का उपयोग जीन प्रारंभ भविष्यवाणी की सटीकता में सुधार के लिए किया गया था। अगला कदम स्व-प्रशिक्षण जीन पूर्वानुमान उपकरण | GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को छिपे [[छिपा हुआ मार्कोव मॉडल]] ढांचे में एकीकृत करने का था, जिसमें कोडिंग और गैर-कोडिंग क्षेत्रों के बीच संक्रमण को औपचारिक रूप से छिपे हुए राज्यों के बीच संक्रमण के रूप में व्याख्या किया गया था। इसके अतिरिक्त, [[राइबोसोम]] [[ बाध्यकारी साइट |बाध्यकारी साइट]] मॉडल का उपयोग जीन प्रारंभ भविष्यवाणी की सटीकता में सुधार के लिए किया गया था। अगला कदम स्व-प्रशिक्षण जीन पूर्वानुमान उपकरण जीनमार्क्स (2001) के विकास के साथ किया गया था। नए प्रोकैरियोटिक जीनोमिक अनुक्रमों में जीन की पहचान के लिए जीनोमिक्स समुदाय द्वारा जीनमार्क्स का सक्रिय उपयोग किया जा रहा है। | ||
जीनमार्क्स+, जीनमार्क्स का विस्तार जीन भविष्यवाणी में समजात प्रोटीन पर जानकारी को एकीकृत करता है जिसका उपयोग प्रोकैरियोटिक जीनोम एनोटेशन के लिए एनसीबीआई पाइपलाइन में किया जाता है; पाइपलाइन प्रतिदिन 2000 जीनोम तक एनोटेट कर सकती है ({{URL|https://www.ncbi.nlm.nih.gov/genome/annotation_prok/process | www.ncbi.nlm.nih.gov/genome/annotation_prok/process }}). | |||
==मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी == | ==मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी == | ||
जीनमार्क और GeneMark.hmm एल्गोरिदम के प्रजातियों के विशिष्ट मापदंडों की सटीक पहचान सटीक जीन भविष्यवाणियां करने के लिए महत्वपूर्ण शर्त थी। हालाँकि, वायरल जीनोम के अध्ययन से प्रेरित होकर यह सवाल उठाया गया था कि जीन भविष्यवाणी के लिए मापदंडों को छोटे अनुक्रम में कैसे परिभाषित किया जाए जिसका कोई बड़ा जीनोमिक संदर्भ न हो। 1999 में इस प्रश्न को अनुक्रम जी+सी सामग्री के कार्यों के रूप में मापदंडों की अनुमानी विधि गणना के विकास द्वारा संबोधित किया गया था। वर्ष 2004 से अनुमानी दृष्टिकोण द्वारा निर्मित मॉडल का उपयोग मेटागेनोमिक अनुक्रमों में जीन खोजने में किया गया है। इसके बाद, कई सौ प्रोकैरियोटिक जीनोम के विश्लेषण से वर्ष 2010 में अधिक उन्नत अनुमानी पद्धति (मेटाजेनमार्क में लागू) विकसित हुई। | |||
===यूकेरियोटिक जीन भविष्यवाणी=== | ===यूकेरियोटिक जीन भविष्यवाणी=== | ||
यूकेरियोटिक जीनोम में [[ intron | | यूकेरियोटिक जीनोम में [[ intron |इंट्रोन्स]] और [[इंटरजेनिक क्षेत्र|इंटरजेनिक क्षेत्रों]] के साथ [[एक्सॉन]] सीमाओं का मॉडलिंग एचएमएम के उपयोग से संबोधित बड़ी चुनौती प्रस्तुत करता है। यूकेरियोटिक GeneMark.hmm के एचएमएम आर्किटेक्चर में प्रारंभिक, आंतरिक और टर्मिनल एक्सॉन, इंट्रॉन, इंटरजेनिक क्षेत्र और दोनों डीएनए स्ट्रैंड में स्थित एकल एक्सॉन जीन के लिए छिपे हुए राज्य शामिल हैं। आरंभिक यूकेरियोटिक GeneMark.hmm को एल्गोरिथम मापदंडों के आकलन के लिए प्रशिक्षण सेट की आवश्यकता थी। वर्ष 2005 में स्व-प्रशिक्षण एल्गोरिदम जीनमार्क-ईएस का पहला संस्करण विकसित किया गया था। वर्ष 2008 में जीनमार्क-ईएस एल्गोरिदम को विशेष इंट्रॉन मॉडल और स्व-प्रशिक्षण की अधिक जटिल रणनीति विकसित करके फंगल जीनोम तक बढ़ाया गया था। फिर, वर्ष 2014 में, जीनमार्क-ईटी एल्गोरिथ्म जो मैप किए गए जीनोम अनअसेंबल RNA-Seq रीड्स से जानकारी द्वारा स्व-प्रशिक्षण को बढ़ाता है, को परिवार में जोड़ा गया था। यूकेरियोटिक प्रतिलेखों में जीन की भविष्यवाणी नए एल्गोरिदम जीनमार्कएस-टी (2015) द्वारा की जा सकती है | ||
==जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार== | ==जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार== |
Revision as of 06:04, 18 July 2023
Original author(s) | मार्क बोरोडोव्स्की का जैव सूचना विज्ञान समूह |
---|---|
Developer(s) | जॉर्जिया तकनीकी संस्थान |
Initial release | 1993 |
Operating system | Linux, Windows, and Mac OS |
License | मुफ़्त बाइनरी-केवल शैक्षणिक, गैर-लाभकारी या अमेरिकी सरकार के उपयोग के लिए |
Website | opal.biology.gatech.edu/GeneMark |
जीनमार्क, अटलांटा, जॉर्जिया में जॉर्जिया तकनीकी संस्थान में विकसित Gene_prediction#Ab_initio_methods जीन भविष्यवाणी कार्यक्रमों के परिवार का सामान्य नाम है। वर्ष 1993 में विकसित, मूल जीनमार्क का उपयोग 1995 में हेमोफिलस इन्फ्लुएंजा के पहले पूरी तरह से अनुक्रमित जीवाणु जीनोम के एनोटेशन के लिए प्राथमिक जीन भविष्यवाणी उपकरण के रूप में किया गया था, और वर्ष 1996 में मेथनोकोकस जन्नास्ची के पहले पुरातन जीनोम के लिए किया गया था। एल्गोरिदम ने प्रोटीन-कोडिंग डीएनए अनुक्रम के अमानवीय तीन-आवधिक मार्कोव श्रृंखला मॉडल पेश किए जो जीन भविष्यवाणी के साथ-साथ दो डीएनए स्ट्रैंड में जीन भविष्यवाणी के लिए बायेसियन दृष्टिकोण में मानक बन गए। मॉडलों के विशिष्ट विशिष्ट मापदंडों का अनुमान ज्ञात प्रकार (प्रोटीन-कोडिंग और गैर-कोडिंग) के अनुक्रमों के प्रशिक्षण सेट से लगाया गया था। एल्गोरिदम का प्रमुख चरण किसी दिए गए डीएनए टुकड़े के लिए छह संभावित रीडिंग फ़्रेमों में से प्रत्येक में प्रोटीन-कोडिंग (आनुवंशिक कोड ले जाना) (पूरक डीएनए स्ट्रैंड में तीन फ्रेम सहित) या गैर-कोडिंग होने की संभावनाओं की गणना करता है। मूल जीनमार्क (जैव सूचना विज्ञान में एचएमएम युग से पहले विकसित) एचएमएम जैसा एल्गोरिदम है; इसे उचित रूप से परिभाषित एचएमएम के लिए एचएमएम सिद्धांत पोस्टीरियर डिकोडिंग एल्गोरिदम में ज्ञात सन्निकटन के रूप में देखा जा सकता है।
प्रोकैरियोटिक जीन भविष्यवाणी
GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को छिपे छिपा हुआ मार्कोव मॉडल ढांचे में एकीकृत करने का था, जिसमें कोडिंग और गैर-कोडिंग क्षेत्रों के बीच संक्रमण को औपचारिक रूप से छिपे हुए राज्यों के बीच संक्रमण के रूप में व्याख्या किया गया था। इसके अतिरिक्त, राइबोसोम बाध्यकारी साइट मॉडल का उपयोग जीन प्रारंभ भविष्यवाणी की सटीकता में सुधार के लिए किया गया था। अगला कदम स्व-प्रशिक्षण जीन पूर्वानुमान उपकरण जीनमार्क्स (2001) के विकास के साथ किया गया था। नए प्रोकैरियोटिक जीनोमिक अनुक्रमों में जीन की पहचान के लिए जीनोमिक्स समुदाय द्वारा जीनमार्क्स का सक्रिय उपयोग किया जा रहा है।
जीनमार्क्स+, जीनमार्क्स का विस्तार जीन भविष्यवाणी में समजात प्रोटीन पर जानकारी को एकीकृत करता है जिसका उपयोग प्रोकैरियोटिक जीनोम एनोटेशन के लिए एनसीबीआई पाइपलाइन में किया जाता है; पाइपलाइन प्रतिदिन 2000 जीनोम तक एनोटेट कर सकती है (www.ncbi.nlm.nih.gov/genome/annotation_prok/process).
मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी
जीनमार्क और GeneMark.hmm एल्गोरिदम के प्रजातियों के विशिष्ट मापदंडों की सटीक पहचान सटीक जीन भविष्यवाणियां करने के लिए महत्वपूर्ण शर्त थी। हालाँकि, वायरल जीनोम के अध्ययन से प्रेरित होकर यह सवाल उठाया गया था कि जीन भविष्यवाणी के लिए मापदंडों को छोटे अनुक्रम में कैसे परिभाषित किया जाए जिसका कोई बड़ा जीनोमिक संदर्भ न हो। 1999 में इस प्रश्न को अनुक्रम जी+सी सामग्री के कार्यों के रूप में मापदंडों की अनुमानी विधि गणना के विकास द्वारा संबोधित किया गया था। वर्ष 2004 से अनुमानी दृष्टिकोण द्वारा निर्मित मॉडल का उपयोग मेटागेनोमिक अनुक्रमों में जीन खोजने में किया गया है। इसके बाद, कई सौ प्रोकैरियोटिक जीनोम के विश्लेषण से वर्ष 2010 में अधिक उन्नत अनुमानी पद्धति (मेटाजेनमार्क में लागू) विकसित हुई।
यूकेरियोटिक जीन भविष्यवाणी
यूकेरियोटिक जीनोम में इंट्रोन्स और इंटरजेनिक क्षेत्रों के साथ एक्सॉन सीमाओं का मॉडलिंग एचएमएम के उपयोग से संबोधित बड़ी चुनौती प्रस्तुत करता है। यूकेरियोटिक GeneMark.hmm के एचएमएम आर्किटेक्चर में प्रारंभिक, आंतरिक और टर्मिनल एक्सॉन, इंट्रॉन, इंटरजेनिक क्षेत्र और दोनों डीएनए स्ट्रैंड में स्थित एकल एक्सॉन जीन के लिए छिपे हुए राज्य शामिल हैं। आरंभिक यूकेरियोटिक GeneMark.hmm को एल्गोरिथम मापदंडों के आकलन के लिए प्रशिक्षण सेट की आवश्यकता थी। वर्ष 2005 में स्व-प्रशिक्षण एल्गोरिदम जीनमार्क-ईएस का पहला संस्करण विकसित किया गया था। वर्ष 2008 में जीनमार्क-ईएस एल्गोरिदम को विशेष इंट्रॉन मॉडल और स्व-प्रशिक्षण की अधिक जटिल रणनीति विकसित करके फंगल जीनोम तक बढ़ाया गया था। फिर, वर्ष 2014 में, जीनमार्क-ईटी एल्गोरिथ्म जो मैप किए गए जीनोम अनअसेंबल RNA-Seq रीड्स से जानकारी द्वारा स्व-प्रशिक्षण को बढ़ाता है, को परिवार में जोड़ा गया था। यूकेरियोटिक प्रतिलेखों में जीन की भविष्यवाणी नए एल्गोरिदम जीनमार्कएस-टी (2015) द्वारा की जा सकती है
जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार
बैक्टीरिया, आर्किया
- जीनमार्क
- जीनमार्क्स
- जीनमार्क्स+
मेटाजेनोम्स और मेटाट्रांसस्क्रिप्टोम्स
- मेटाजेनमार्क
यूकेरियोट्स
- जीनमार्क
- जीनमार्क.हम्म [1]
- जीनमार्क-ईएस: यूकेरियोटिक जीनोम के लिए जीन खोज एल्गोरिथ्म जो बिना पर्यवेक्षित एब इनिटियो मोड में स्वचालित प्रशिक्षण करता है।[2]
- GeneMark-ET: GeneMark-ES को नवीन विधि के साथ संवर्धित करता है जो RNA-Seq रीड संरेखण को स्व-प्रशिक्षण प्रक्रिया में एकीकृत करता है।[3]
- जीनमार्क-ईएक्स: जीनोम एनोटेशन के लिए पूरी तरह से स्वचालित एकीकृत उपकरण जो विभिन्न आकार, संरचना और गुणवत्ता के इनपुट डेटा में मजबूत प्रदर्शन दिखाता है। एल्गोरिदम इनपुट डेटा की मात्रा, गुणवत्ता और विशेषताओं, आरएनए-सीक्यू डेटासेट के आकार, प्रजातियों की फाइलोजेनेटिक स्थिति, असेंबली विखंडन की डिग्री के आधार पर पैरामीटर अनुमान के दृष्टिकोण का चयन करता है। यह प्रश्न में जीनोम की विशेषताओं को फिट करने और जीन भविष्यवाणी की प्रक्रिया में प्रतिलेख और प्रोटीन जानकारी को एकीकृत करने के लिए एचएमएम वास्तुकला को स्वचालित रूप से संशोधित करने में सक्षम है।[4]
वायरस, फेज और प्लास्मिड
- अनुमानी मॉडल
आरएनए-सेक से इकट्ठे किए गए प्रतिलेख पढ़ें
- जीनमार्कएस-टी
यह भी देखें
- जीन भविष्यवाणी सॉफ्टवेयर की सूची
- जीन भविष्यवाणी
संदर्भ
- Borodovsky M. and McIninch J. "GeneMark: parallel gene recognition for both DNA strands." Computers & Chemistry (1993) 17 (2): 123–133.
- Lukashin A. and Borodovsky M. "GeneMark.hmm: new solutions for gene finding." Nucleic Acids Research (1998) 26 (4): 1107–1115. doi:10.1093/nar/26.4.1107
- Besemer J. and Borodovsky M. "Heuristic approach to deriving models for gene finding." Nucleic Acids Research (1999) 27 (19): 3911–3920. doi:10.1093/nar/27.19.3911
- Besemer J., Lomsadze A. and Borodovsky M. "GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions." Nucleic Acids Research (2001) 29 (12): 2607–2618. doi:10.1093/nar/29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. and Borodovsky M. "Improving gene annotation in complete viral genomes." Nucleic Acids Research (2003) 31 (23): 7041–7055. doi:10.1093/nar/gkg878
- Besemer J. and Borodovsky M. "GeneMark: web software for gene finding in prokaryotes, eukaryotes and viruses." Nucleic Acids Research (2005) 33 (Web Server Issue): W451-454. doi:10.1093/nar/gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. and Borodovsky M. "Gene identification in novel eukaryotic genomes by self-training algorithm." Nucleic Acids Research (2005) 33 (20): 6494–6506. doi:10.1093/nar/gki937
- Zhu W., Lomsadze A. and Borodovsky M. "Ab initio gene identification in metagenomic sequences." Nucleic Acids Research (2010) 38 (12): e132. doi:10.1093/nar/gkq275