जीनमार्क: Difference between revisions
(Created page with "{{Short description|Gene prediction algorithm}} {{Infobox software | name = GeneMark | title = GeneMark | logo = <!-- Fi...") |
No edit summary |
||
Line 26: | Line 26: | ||
}} | }} | ||
GeneMark, अटलांटा, जॉर्जिया में [[जॉर्जिया तकनीकी संस्थान]] में विकसित Gene_prediction#Ab_initio_methods जीन भविष्यवाणी कार्यक्रमों के | GeneMark, अटलांटा, जॉर्जिया में [[जॉर्जिया तकनीकी संस्थान]] में विकसित Gene_prediction#Ab_initio_methods जीन भविष्यवाणी कार्यक्रमों के परिवार का सामान्य नाम है। 1993 में विकसित, मूल जीनमार्क का उपयोग 1995 में ''[[हेमोफिलस इन्फ्लुएंजा]]'' के पहले पूरी तरह से अनुक्रमित जीवाणु जीनोम के एनोटेशन के लिए प्राथमिक जीन भविष्यवाणी उपकरण के रूप में किया गया था, और 1996 में ''[[मेथनोकोकस जन्नास्ची]]'' के पहले पुरातन जीनोम के लिए किया गया था। एल्गोरिदम ने प्रोटीन-कोडिंग [[डीएनए अनुक्रम]] के [[अमानवीय]] तीन-आवधिक [[मार्कोव श्रृंखला]] मॉडल पेश किए जो जीन भविष्यवाणी के साथ-साथ दो डीएनए स्ट्रैंड में जीन भविष्यवाणी के लिए बायेसियन दृष्टिकोण में मानक बन गए। मॉडलों के विशिष्ट विशिष्ट मापदंडों का अनुमान ज्ञात प्रकार (प्रोटीन-कोडिंग और गैर-कोडिंग) के अनुक्रमों के प्रशिक्षण सेट से लगाया गया था। एल्गोरिदम का प्रमुख चरण किसी दिए गए डीएनए टुकड़े के लिए छह संभावित रीडिंग फ़्रेमों में से प्रत्येक में प्रोटीन-कोडिंग (आनुवंशिक कोड ले जाना) ([[पूरक डीएनए]] स्ट्रैंड में तीन फ्रेम सहित) या गैर-कोडिंग होने की संभावनाओं की गणना करता है। मूल जीनमार्क (जैव सूचना विज्ञान में एचएमएम युग से पहले विकसित) एचएमएम जैसा एल्गोरिदम है; इसे उचित रूप से परिभाषित एचएमएम के लिए एचएमएम सिद्धांत पोस्टीरियर डिकोडिंग एल्गोरिदम में ज्ञात सन्निकटन के रूप में देखा जा सकता है। | ||
==प्रोकैरियोटिक जीन भविष्यवाणी== | ==प्रोकैरियोटिक जीन भविष्यवाणी== | ||
GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को | GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को छिपे [[छिपा हुआ मार्कोव मॉडल]] ढांचे में एकीकृत करने का था, जिसमें कोडिंग और गैर-कोडिंग क्षेत्रों के बीच संक्रमण को औपचारिक रूप से छिपे हुए राज्यों के बीच संक्रमण के रूप में व्याख्या किया गया था। इसके अतिरिक्त, [[राइबोसोम]] [[ बाध्यकारी साइट |बाध्यकारी साइट]] मॉडल का उपयोग जीन प्रारंभ भविष्यवाणी की सटीकता में सुधार के लिए किया गया था। अगला कदम स्व-प्रशिक्षण जीन पूर्वानुमान उपकरण GeneMarkS (2001) के विकास के साथ किया गया था। नए प्रोकैरियोटिक जीनोमिक अनुक्रमों में जीन की पहचान के लिए जीनोमिक्स समुदाय द्वारा GeneMarkS का सक्रिय उपयोग किया जा रहा है। | ||
GeneMarkS+, GeneMarkS का विस्तार जीन भविष्यवाणी में समजात प्रोटीन पर जानकारी को एकीकृत करता है जिसका उपयोग प्रोकैरियोटिक जीनोम एनोटेशन के लिए एनसीबीआई पाइपलाइन में किया जाता है; पाइपलाइन प्रतिदिन 2000 जीनोम तक एनोटेट कर सकती है ({{URL|https://www.ncbi.nlm.nih.gov/genome/annotation_prok/process | www.ncbi.nlm.nih.gov/genome/annotation_prok/process }}). | GeneMarkS+, GeneMarkS का विस्तार जीन भविष्यवाणी में समजात प्रोटीन पर जानकारी को एकीकृत करता है जिसका उपयोग प्रोकैरियोटिक जीनोम एनोटेशन के लिए एनसीबीआई पाइपलाइन में किया जाता है; पाइपलाइन प्रतिदिन 2000 जीनोम तक एनोटेट कर सकती है ({{URL|https://www.ncbi.nlm.nih.gov/genome/annotation_prok/process | www.ncbi.nlm.nih.gov/genome/annotation_prok/process }}). | ||
==मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी == | ==मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी == | ||
GeneMark और GeneMark.hmm एल्गोरिदम के प्रजातियों के विशिष्ट मापदंडों की सटीक पहचान सटीक जीन भविष्यवाणियां करने के लिए महत्वपूर्ण शर्त थी। हालाँकि, वायरल जीनोम के अध्ययन से प्रेरित होकर यह सवाल उठाया गया था कि जीन भविष्यवाणी के लिए मापदंडों को | GeneMark और GeneMark.hmm एल्गोरिदम के प्रजातियों के विशिष्ट मापदंडों की सटीक पहचान सटीक जीन भविष्यवाणियां करने के लिए महत्वपूर्ण शर्त थी। हालाँकि, वायरल जीनोम के अध्ययन से प्रेरित होकर यह सवाल उठाया गया था कि जीन भविष्यवाणी के लिए मापदंडों को छोटे अनुक्रम में कैसे परिभाषित किया जाए जिसका कोई बड़ा जीनोमिक संदर्भ न हो। 1999 में इस प्रश्न को अनुक्रम G+C सामग्री के कार्यों के रूप में मापदंडों की अनुमानी विधि गणना के विकास द्वारा संबोधित किया गया था। 2004 से अनुमानी दृष्टिकोण द्वारा निर्मित मॉडल का उपयोग मेटागेनोमिक अनुक्रमों में जीन खोजने में किया गया है। इसके बाद, कई सौ प्रोकैरियोटिक जीनोम के विश्लेषण से 2010 में अधिक उन्नत अनुमानी पद्धति (मेटाजेनमार्क में लागू) विकसित हुई। | ||
===यूकेरियोटिक जीन भविष्यवाणी=== | ===यूकेरियोटिक जीन भविष्यवाणी=== | ||
यूकेरियोटिक जीनोम में [[ intron ]] और [[इंटरजेनिक क्षेत्र]] | यूकेरियोटिक जीनोम में [[ intron |intron]] और [[इंटरजेनिक क्षेत्र|इंटरजेनिक क्षेत्रों]] के साथ [[एक्सॉन]] सीमाओं का मॉडलिंग एचएमएम के उपयोग से संबोधित बड़ी चुनौती प्रस्तुत करता है। यूकेरियोटिक GeneMark.hmm के HMM आर्किटेक्चर में प्रारंभिक, आंतरिक और टर्मिनल एक्सॉन, इंट्रॉन, इंटरजेनिक क्षेत्र और दोनों डीएनए स्ट्रैंड में स्थित एकल एक्सॉन जीन के लिए छिपे हुए राज्य शामिल हैं। आरंभिक यूकेरियोटिक GeneMark.hmm को एल्गोरिथम मापदंडों के आकलन के लिए प्रशिक्षण सेट की आवश्यकता थी। 2005 में स्व-प्रशिक्षण एल्गोरिदम GeneMark-ES का पहला संस्करण विकसित किया गया था। 2008 में जीनमार्क-ईएस एल्गोरिदम को विशेष इंट्रॉन मॉडल और स्व-प्रशिक्षण की अधिक जटिल रणनीति विकसित करके फंगल जीनोम तक बढ़ाया गया था। फिर, 2014 में, GeneMark-ET एल्गोरिथ्म जो मैप किए गए जीनोम अनअसेंबल RNA-Seq रीड्स से जानकारी द्वारा स्व-प्रशिक्षण को बढ़ाता है, को परिवार में जोड़ा गया था। यूकेरियोटिक प्रतिलेखों में जीन की भविष्यवाणी नए एल्गोरिदम GeneMarkS-T (2015) द्वारा की जा सकती है | ||
==जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार== | ==जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार== | ||
Line 53: | Line 54: | ||
* जीनमार्क.हम्म <ref>{{Cite web|url=http://exon.gatech.edu/GeneMark/gmhmme.cgi|title=GeneMark.HMM eukaryotic}}</ref> | * जीनमार्क.हम्म <ref>{{Cite web|url=http://exon.gatech.edu/GeneMark/gmhmme.cgi|title=GeneMark.HMM eukaryotic}}</ref> | ||
* जीनमार्क-ईएस: यूकेरियोटिक जीनोम के लिए जीन खोज एल्गोरिथ्म जो बिना पर्यवेक्षित एब इनिटियो मोड में स्वचालित प्रशिक्षण करता है।<ref>{{Cite web|url=https://academic.oup.com/nar/article/33/20/6494/1082033|title = Validate User}}</ref> | * जीनमार्क-ईएस: यूकेरियोटिक जीनोम के लिए जीन खोज एल्गोरिथ्म जो बिना पर्यवेक्षित एब इनिटियो मोड में स्वचालित प्रशिक्षण करता है।<ref>{{Cite web|url=https://academic.oup.com/nar/article/33/20/6494/1082033|title = Validate User}}</ref> | ||
* GeneMark-ET: GeneMark-ES को | * GeneMark-ET: GeneMark-ES को नवीन विधि के साथ संवर्धित करता है जो RNA-Seq रीड संरेखण को स्व-प्रशिक्षण प्रक्रिया में एकीकृत करता है।<ref>{{Cite web|url=https://www.rna-seqblog.com/genemark-et-gene-finding-algorithm-for-eukaryotic-genomes/|title = GeneMark-ET – gene finding algorithm for eukaryotic genomes | RNA-Seq Blog|date = 9 July 2014}}</ref> | ||
* जीनमार्क-ईएक्स: जीनोम एनोटेशन के लिए | * जीनमार्क-ईएक्स: जीनोम एनोटेशन के लिए पूरी तरह से स्वचालित एकीकृत उपकरण जो विभिन्न आकार, संरचना और गुणवत्ता के इनपुट डेटा में मजबूत प्रदर्शन दिखाता है। एल्गोरिदम इनपुट डेटा की मात्रा, गुणवत्ता और विशेषताओं, आरएनए-सीक्यू डेटासेट के आकार, प्रजातियों की फाइलोजेनेटिक स्थिति, असेंबली विखंडन की डिग्री के आधार पर पैरामीटर अनुमान के दृष्टिकोण का चयन करता है। यह प्रश्न में जीनोम की विशेषताओं को फिट करने और जीन भविष्यवाणी की प्रक्रिया में प्रतिलेख और प्रोटीन जानकारी को एकीकृत करने के लिए एचएमएम वास्तुकला को स्वचालित रूप से संशोधित करने में सक्षम है।<ref>https://pag.confex.com/pag/xxvi/meetingapp.cgi/Paper/31299 GeneMark-EX</ref> | ||
===वायरस, फेज और प्लास्मिड=== | ===वायरस, फेज और प्लास्मिड=== | ||
* अनुमानी मॉडल | * अनुमानी मॉडल | ||
Line 78: | Line 77: | ||
* Zhu W., Lomsadze A. and Borodovsky M. "[https://archive.today/20130415160959/http://nar.oxfordjournals.org/content/38/12/e132.full?sid=f4ddafac-da4f-4345-9a69-9430ab59aa37 Ab initio gene identification in metagenomic sequences.]" ''Nucleic Acids Research'' (2010) '''38''' (12): e132. {{doi|10.1093/nar/gkq275}} | * Zhu W., Lomsadze A. and Borodovsky M. "[https://archive.today/20130415160959/http://nar.oxfordjournals.org/content/38/12/e132.full?sid=f4ddafac-da4f-4345-9a69-9430ab59aa37 Ab initio gene identification in metagenomic sequences.]" ''Nucleic Acids Research'' (2010) '''38''' (12): e132. {{doi|10.1093/nar/gkq275}} | ||
{{refend}} | {{refend}} | ||
==बाहरी संबंध== | ==बाहरी संबंध== | ||
*{{Official website|http://opal.biology.gatech.edu/GeneMark/}} | *{{Official website|http://opal.biology.gatech.edu/GeneMark/}} | ||
[[Category: मेटाजेनोमिक्स सॉफ्टवेयर]] [[Category: गणितीय और सैद्धांतिक जीव विज्ञान]] [[Category: जीनोमिक्स]] [[Category: जैव सूचना विज्ञान सॉफ्टवेयर]] | [[Category: मेटाजेनोमिक्स सॉफ्टवेयर]] [[Category: गणितीय और सैद्धांतिक जीव विज्ञान]] [[Category: जीनोमिक्स]] [[Category: जैव सूचना विज्ञान सॉफ्टवेयर]] | ||
Revision as of 18:46, 17 July 2023
Original author(s) | Bioinformatics group of Mark Borodovsky |
---|---|
Developer(s) | Georgia Institute of Technology |
Initial release | 1993 |
Operating system | Linux, Windows, and Mac OS |
License | Free binary-only for academic, non-profit or U.S. Government use |
Website | opal.biology.gatech.edu/GeneMark |
GeneMark, अटलांटा, जॉर्जिया में जॉर्जिया तकनीकी संस्थान में विकसित Gene_prediction#Ab_initio_methods जीन भविष्यवाणी कार्यक्रमों के परिवार का सामान्य नाम है। 1993 में विकसित, मूल जीनमार्क का उपयोग 1995 में हेमोफिलस इन्फ्लुएंजा के पहले पूरी तरह से अनुक्रमित जीवाणु जीनोम के एनोटेशन के लिए प्राथमिक जीन भविष्यवाणी उपकरण के रूप में किया गया था, और 1996 में मेथनोकोकस जन्नास्ची के पहले पुरातन जीनोम के लिए किया गया था। एल्गोरिदम ने प्रोटीन-कोडिंग डीएनए अनुक्रम के अमानवीय तीन-आवधिक मार्कोव श्रृंखला मॉडल पेश किए जो जीन भविष्यवाणी के साथ-साथ दो डीएनए स्ट्रैंड में जीन भविष्यवाणी के लिए बायेसियन दृष्टिकोण में मानक बन गए। मॉडलों के विशिष्ट विशिष्ट मापदंडों का अनुमान ज्ञात प्रकार (प्रोटीन-कोडिंग और गैर-कोडिंग) के अनुक्रमों के प्रशिक्षण सेट से लगाया गया था। एल्गोरिदम का प्रमुख चरण किसी दिए गए डीएनए टुकड़े के लिए छह संभावित रीडिंग फ़्रेमों में से प्रत्येक में प्रोटीन-कोडिंग (आनुवंशिक कोड ले जाना) (पूरक डीएनए स्ट्रैंड में तीन फ्रेम सहित) या गैर-कोडिंग होने की संभावनाओं की गणना करता है। मूल जीनमार्क (जैव सूचना विज्ञान में एचएमएम युग से पहले विकसित) एचएमएम जैसा एल्गोरिदम है; इसे उचित रूप से परिभाषित एचएमएम के लिए एचएमएम सिद्धांत पोस्टीरियर डिकोडिंग एल्गोरिदम में ज्ञात सन्निकटन के रूप में देखा जा सकता है।
प्रोकैरियोटिक जीन भविष्यवाणी
GeneMark.hmm एल्गोरिथ्म (1998) को छोटे जीन और जीन प्रारंभ को खोजने में जीन भविष्यवाणी सटीकता में सुधार करने के लिए डिज़ाइन किया गया था। विचार जीनमार्क में प्रयुक्त मार्कोव श्रृंखला मॉडल को छिपे छिपा हुआ मार्कोव मॉडल ढांचे में एकीकृत करने का था, जिसमें कोडिंग और गैर-कोडिंग क्षेत्रों के बीच संक्रमण को औपचारिक रूप से छिपे हुए राज्यों के बीच संक्रमण के रूप में व्याख्या किया गया था। इसके अतिरिक्त, राइबोसोम बाध्यकारी साइट मॉडल का उपयोग जीन प्रारंभ भविष्यवाणी की सटीकता में सुधार के लिए किया गया था। अगला कदम स्व-प्रशिक्षण जीन पूर्वानुमान उपकरण GeneMarkS (2001) के विकास के साथ किया गया था। नए प्रोकैरियोटिक जीनोमिक अनुक्रमों में जीन की पहचान के लिए जीनोमिक्स समुदाय द्वारा GeneMarkS का सक्रिय उपयोग किया जा रहा है।
GeneMarkS+, GeneMarkS का विस्तार जीन भविष्यवाणी में समजात प्रोटीन पर जानकारी को एकीकृत करता है जिसका उपयोग प्रोकैरियोटिक जीनोम एनोटेशन के लिए एनसीबीआई पाइपलाइन में किया जाता है; पाइपलाइन प्रतिदिन 2000 जीनोम तक एनोटेट कर सकती है (www.ncbi.nlm.nih.gov/genome/annotation_prok/process).
मेटाजेनोम्स और मेटाट्रांससिप्टोम्स में अनुमानी मॉडल और जीन भविष्यवाणी
GeneMark और GeneMark.hmm एल्गोरिदम के प्रजातियों के विशिष्ट मापदंडों की सटीक पहचान सटीक जीन भविष्यवाणियां करने के लिए महत्वपूर्ण शर्त थी। हालाँकि, वायरल जीनोम के अध्ययन से प्रेरित होकर यह सवाल उठाया गया था कि जीन भविष्यवाणी के लिए मापदंडों को छोटे अनुक्रम में कैसे परिभाषित किया जाए जिसका कोई बड़ा जीनोमिक संदर्भ न हो। 1999 में इस प्रश्न को अनुक्रम G+C सामग्री के कार्यों के रूप में मापदंडों की अनुमानी विधि गणना के विकास द्वारा संबोधित किया गया था। 2004 से अनुमानी दृष्टिकोण द्वारा निर्मित मॉडल का उपयोग मेटागेनोमिक अनुक्रमों में जीन खोजने में किया गया है। इसके बाद, कई सौ प्रोकैरियोटिक जीनोम के विश्लेषण से 2010 में अधिक उन्नत अनुमानी पद्धति (मेटाजेनमार्क में लागू) विकसित हुई।
यूकेरियोटिक जीन भविष्यवाणी
यूकेरियोटिक जीनोम में intron और इंटरजेनिक क्षेत्रों के साथ एक्सॉन सीमाओं का मॉडलिंग एचएमएम के उपयोग से संबोधित बड़ी चुनौती प्रस्तुत करता है। यूकेरियोटिक GeneMark.hmm के HMM आर्किटेक्चर में प्रारंभिक, आंतरिक और टर्मिनल एक्सॉन, इंट्रॉन, इंटरजेनिक क्षेत्र और दोनों डीएनए स्ट्रैंड में स्थित एकल एक्सॉन जीन के लिए छिपे हुए राज्य शामिल हैं। आरंभिक यूकेरियोटिक GeneMark.hmm को एल्गोरिथम मापदंडों के आकलन के लिए प्रशिक्षण सेट की आवश्यकता थी। 2005 में स्व-प्रशिक्षण एल्गोरिदम GeneMark-ES का पहला संस्करण विकसित किया गया था। 2008 में जीनमार्क-ईएस एल्गोरिदम को विशेष इंट्रॉन मॉडल और स्व-प्रशिक्षण की अधिक जटिल रणनीति विकसित करके फंगल जीनोम तक बढ़ाया गया था। फिर, 2014 में, GeneMark-ET एल्गोरिथ्म जो मैप किए गए जीनोम अनअसेंबल RNA-Seq रीड्स से जानकारी द्वारा स्व-प्रशिक्षण को बढ़ाता है, को परिवार में जोड़ा गया था। यूकेरियोटिक प्रतिलेखों में जीन की भविष्यवाणी नए एल्गोरिदम GeneMarkS-T (2015) द्वारा की जा सकती है
जीन भविष्यवाणी कार्यक्रमों का जीनमार्क परिवार
बैक्टीरिया, आर्किया
- जीनमार्क
- जीनमार्क्स
- जीनमार्क्स+
मेटाजेनोम्स और मेटाट्रांसस्क्रिप्टोम्स
- मेटाजेनमार्क
यूकेरियोट्स
- जीनमार्क
- जीनमार्क.हम्म [1]
- जीनमार्क-ईएस: यूकेरियोटिक जीनोम के लिए जीन खोज एल्गोरिथ्म जो बिना पर्यवेक्षित एब इनिटियो मोड में स्वचालित प्रशिक्षण करता है।[2]
- GeneMark-ET: GeneMark-ES को नवीन विधि के साथ संवर्धित करता है जो RNA-Seq रीड संरेखण को स्व-प्रशिक्षण प्रक्रिया में एकीकृत करता है।[3]
- जीनमार्क-ईएक्स: जीनोम एनोटेशन के लिए पूरी तरह से स्वचालित एकीकृत उपकरण जो विभिन्न आकार, संरचना और गुणवत्ता के इनपुट डेटा में मजबूत प्रदर्शन दिखाता है। एल्गोरिदम इनपुट डेटा की मात्रा, गुणवत्ता और विशेषताओं, आरएनए-सीक्यू डेटासेट के आकार, प्रजातियों की फाइलोजेनेटिक स्थिति, असेंबली विखंडन की डिग्री के आधार पर पैरामीटर अनुमान के दृष्टिकोण का चयन करता है। यह प्रश्न में जीनोम की विशेषताओं को फिट करने और जीन भविष्यवाणी की प्रक्रिया में प्रतिलेख और प्रोटीन जानकारी को एकीकृत करने के लिए एचएमएम वास्तुकला को स्वचालित रूप से संशोधित करने में सक्षम है।[4]
वायरस, फेज और प्लास्मिड
- अनुमानी मॉडल
आरएनए-सेक से इकट्ठे किए गए प्रतिलेख पढ़ें
- जीनमार्कएस-टी
यह भी देखें
- जीन भविष्यवाणी सॉफ्टवेयर की सूची
- जीन भविष्यवाणी
संदर्भ
- Borodovsky M. and McIninch J. "GeneMark: parallel gene recognition for both DNA strands." Computers & Chemistry (1993) 17 (2): 123–133.
- Lukashin A. and Borodovsky M. "GeneMark.hmm: new solutions for gene finding." Nucleic Acids Research (1998) 26 (4): 1107–1115. doi:10.1093/nar/26.4.1107
- Besemer J. and Borodovsky M. "Heuristic approach to deriving models for gene finding." Nucleic Acids Research (1999) 27 (19): 3911–3920. doi:10.1093/nar/27.19.3911
- Besemer J., Lomsadze A. and Borodovsky M. "GeneMarkS: a self-training method for prediction of gene starts in microbial genomes. Implications for finding sequence motifs in regulatory regions." Nucleic Acids Research (2001) 29 (12): 2607–2618. doi:10.1093/nar/29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. and Borodovsky M. "Improving gene annotation in complete viral genomes." Nucleic Acids Research (2003) 31 (23): 7041–7055. doi:10.1093/nar/gkg878
- Besemer J. and Borodovsky M. "GeneMark: web software for gene finding in prokaryotes, eukaryotes and viruses." Nucleic Acids Research (2005) 33 (Web Server Issue): W451-454. doi:10.1093/nar/gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. and Borodovsky M. "Gene identification in novel eukaryotic genomes by self-training algorithm." Nucleic Acids Research (2005) 33 (20): 6494–6506. doi:10.1093/nar/gki937
- Zhu W., Lomsadze A. and Borodovsky M. "Ab initio gene identification in metagenomic sequences." Nucleic Acids Research (2010) 38 (12): e132. doi:10.1093/nar/gkq275