के-मेर
जैव सूचना विज्ञान के अंतर्गत, के-मेर जीववैज्ञानिक अनुक्रम में सम्मिलित होने वाले लंबाई के उपरज्जु को कहते हैं। इनका उपयोग प्रमुख रूप से संगणनात्मक जीनोमिक्स और अनुक्रम विश्लेषण के संदर्भ में किया जाता है जहां के-मेर, आणविकों (अर्थात् A, T, G और C) से मिलकर बने होते हैं।[1] के-मेर का उपयोग डीएनए संकलन, परजीवी जीन[2][3] अभिव्यक्ति को सुधारने, मेटाजेनोमिक[4] सैंपल में प्रजातियों की पहचान, और क्षीण टीका[5] बनाने के लिए किया जाता है। सामान्यतः, 'k-मेर' शब्द का उपयोग एक अनुक्रम के सभी उप-अनुक्रमों को संदर्भित करने के लिए किया जाता है, जिनकी लंबाई k होती है, इस प्रकार अनुक्रम AGAT में चार मोनोमेर्स (A, G, A और T), तीन 2-मेर (AG, GA, AT), दो 3-मेर (AGA और GAT) और एक 4-मेर (AGAT) होंगे। और अधिक व्यापक रूप से, लंबाई वाले एक अनुक्रम में के-मेर होंगे और कुल संभव के-मेर होंगे, यहां संभावित मोनोमेरों की संख्या है।
परिचय
के-मेर केवल लंबाई के अनुक्रम होतें हैं ,परिणामस्वरूप . उदाहरण के लिए, डीएनए अनुक्रम के सभी संभावित के-मेर निम्न रूप में दर्शाये गए हैं:
k | के-मेर |
---|---|
1 | G, T, A, C |
2 | GT, TA, AG, GA, AG, GC, CT, TG |
3 | GTA, TAG, AGA, GAG, AGC, GCT, CTG, TGT |
4 | GTAG, TAGA, AGAG, GAGC, AGCT, GCTG, CTGT |
5 | GTAGA, TAGAG, AGAGC, GAGCT, AGCTG, GCTGT |
6 | GTAGAG, TAGAGC, AGAGCT, GAGCTG, AGCTGT |
7 | GTAGAGC, TAGAGCT, AGAGCTG, GAGCTGT |
8 | GTAGAGCT, TAGAGCTG, AGAGCTGT |
9 | GTAGAGCTG, TAGAGCTGT |
10 | GTAGAGCTGT |
के-मेर को दृश्यीकरण करने का एक तरीका, के-मेर स्पेक्ट्रम कहलाता है, जिसमें एक अनुक्रम में प्रत्येक के-मेर की बहुतायत और उस बहुतायत वाले के-मेरों की संख्या का तुलनात्मक माप दिखाया जाता है।[6] एक प्रजाति के जीनोम के के-मेर स्पेक्ट्रम में मोडों की संख्या भिन्न-भिन्न होती है, जबकि अधिकांश प्रजातियों में एक मोड का वितरण होता है।[7] यहाँ तक कि सभी स्तनधारी प्राणियों में एकाधिक मोड के साथ एक बहुमोडाल वितरण होता है। के-मेर स्पेक्ट्रम के भीतर मोडों की संख्या जीनोम के विभिन्न क्षेत्रों में भी भिन्न हो सकती है: मानवों में 5' यूटीआर और एक्सोन में एकाधिक मोड के साथ के-मेर स्पेक्ट्रम होता है, जबकि 3' यूटीआर और इंट्रोनस में बहुमोडाल स्पेक्ट्रम होता है।
डीएनए के-मेर आवृत्ति को प्रभावित करने वाली शक्तियां
के-मेर के उपयोग की आवृत्ति को कई बाधाएं प्रभावित करती हैं, जो विभिन्न स्तरों पर कार्य करती हैं और प्रायः एक-दूसरे के विरोध में होती हैं। महत्वपूर्ण बात यह है कि k के अधिक मानों के लिए के-मेर पर प्रभावित करने वाली शक्तियों से भी प्रभावित होते हैं। जो न्यूनतम मानों के के-मेर पर प्रभावित कर रहे होते हैं। उदाहरण के लिए, यदि 1-मेर A किसी अनुक्रम में नहीं होता है, तो A को सम्मिलित करने वाले 2-मेर (AA, AT, AG और AC) भी नहीं होंगे, जिससे विभिन्न प्रभावों के प्रभाव को संबद्ध करते हैं।
के = 1
जब k = 1 होता है, तो डीएनए के चार के-मेर होते हैं, अर्थात् A, T, G और C आणविक स्तर पर, G और C के मध्य तीन हाइड्रोजन बंधनही होते हैं, जबकि A और T के मध्य केवल दो होते हैं। अतिरिक्त हाइड्रोजन बन्ध (और मजबूत स्टैकिंग अंतराक्रियाओं) के परिणामस्वरूप GC बंधन AT बंधन की तुलना में अधिक तापात्मक रूप से स्थिर होते हैं।[8] स्तनधारी प्राणियों और पक्षियों में Gs और Cs का अनुपात As और Ts की तुलना में अधिक होता है, जिसके कारण जीसी-सामग्री विविधता के पीछे थर्मल स्थिरता होने की अवधारणा होती थी ।[9] यद्यपि , यह अवधारणा जांच के दौरान समेर्थन नहीं प्राप्त कर पाई: विभिन्न प्रोकैरियोटों के मध्य विश्लेषण ने दिखाया कि जीसी-सामग्री और तापमान के मध्य कोई संबंध नहीं होता है, जैसा कि थर्मल अनुकूलन के अवधारणा के अनुसार होना चाहिए।[10] वास्तव में, यदि प्राकृतिक चयन जीसी-सामग्री विविधता के पीछे चलने वाला बल होता है, तो यह आवश्यक होगा कि एक पदार्थ के एकल न्यूक्लियोटाइड परिवर्तन, जो प्रायः शांत होते हैं, किसी प्राणी की सुसंगतता को परिवर्तित कर सकते है।[11]
वर्तमान प्रमाण सुझाव देता है कि जीसी-विशिष्ट जीन संवर्धन (जीबीजीसी) जीसी सामग्री में विविधता के पीछे एक चलने वाला कारक है।[11] जीबीजीसी एक पुनर्विन्यास के दौरान होने वाली प्रक्रिया है जिसमें A और T को G और C से परिवर्तित कर दिया जाता है। यह प्रक्रिया, प्राकृतिक चयन से पृथक होने के अतिरिक्त , पुनः भी जीनोम में जीसी प्रतिस्थापनों के प्रति चयनात्मक दबाव डाल सकती है।[12] इसलिए, जीबीजीसी को प्राकृतिक चयन का "प्रतारक" माना जा सकता है।[13] जीसी सामग्री उन स्थानों पर अधिक होती है जहां पुनर्विन्यास अधिक होता है। इसके अलावा, पुनर्विन्यास दरों में अधिकतम होने वाले प्राणियों में उच्च जीसी सामग्री पाई जाती है, जो जीबीजीसी की अवधारणा के प्रभावों के साथ मेल खाता है।[14] दिलचस्प बात यह है कि जीबीजीसी यूकैर्योसाइटों सीमित नहीं होता है।[15] बैक्टीरिया और आर्किया जैसे एकीकृत जीवों को भी जीन संवर्धन के माध्यम से पुनर्विन्यास का सामेरिक अनुभव होता है, जो अकार्योगामी अंगिका प्रक्रिया है जिसके परिणामस्वरूप जीनोम में कई एक ही अनुक्रम होते हैं।[16] जीवन के सभी डोमेन में पुनर्विन्यास द्वारा जीसी सामग्री को ऊपर ले जाने का मतलब है कि जीबीजीसी सर्वत्र संरक्षित होता है। यह निर्धारित करना शेष है कि जीबीजीसी एक (अधिकांशतः) शांत उत्पाद है जो जीवन के आणविक यंत्र का हिस्सा है या यह स्वयं चयन के तहत है, इसकी वास्तविक तत्व और जीवविज्ञान के लिए इसके परिणामस्वरूप लाभ या हानि वर्तमान में अज्ञात है।[17]
के = 2
जीसी-सामग्री पूर्वाग्रहों पर चर्चा करने वाले साहित्य के तुलनात्मक रूप से बड़े समूह के अतिरिक्त , द्विनाभिपूर्वक पूर्वाग्रहों के बारे में अपेक्षाकृत न्यूनतम लिखा गया है। यह ज्ञात है कि जीसी-सामग्री के विपरीत, ये द्विनाभिपूर्वक पूर्वाग्रह पूरे जीनोम में अपेक्षाकृत स्थिर होते हैं, जैसा कि ऊपर देखा गया है,या अत्यधिक भिन्न हो सकते हैं।[18] यह एक महत्वपूर्ण अंतर्दृष्टि है जिसे उपेक्षा नहीं किया जाना चाहिए। यदि द्विनाभिपूर्वक पूर्वाग्रह अनुवाद के परिणामस्वरूप दबाव के अधीन थे, तो कोडिंग क्षेत्र और गैर-कोडिंग डीएनए क्षेत्रों में द्विनाभिपूर्वक पूर्वाग्रह के पृथक पैटर्न होंगे जो कुछ डाइनुसेलोटाइड्स की न्यूनतम अनुवादात्मक दक्षता से प्रेरित होते है।[19] इसलिए यह निष्कर्ष निकाला जा सकता है कि द्विनाभिपूर्वक पक्ष को मोड़ने वाले बल अनुवाद से अस्पष्ट हों जाता हैं। द्विनाभिपूर्वक पक्षों के अनुवादिक परिकल्पना को प्रभावित करने के विरोधी प्रमाण है कि वायरसों के द्विनाभिपूर्वक पक्ष उनके मात्रिका समूह से अधिक परिवर्तित करते हैं, जो उनके मेजबानों के अनुवादिक यंत्रों को वायरल समूहों के विरुद्ध परिवर्तित करते हैं।[20]
जीबीजीसी की बढ़ती जीसी-सामग्री का प्रतिकार सीजी दमन है, जो मिथाइलेशन सीजी द्विनाभिपूर्वकों की डीमिनेशन के कारण सीपीजी साइट 2-मेर्स की आवृत्ति को न्यूनतम कर देता है, जिसके परिणामस्वरूप टीजी के साथ सीजी का प्रतिस्थापन होता है, जिससे जीसी-सामग्री न्यूनतम हो जाती है।[21] यह इंटरैक्शन k के पृथक -पृथक मानों के लिए के-मेर को प्रभावित करने वाली शक्ति के मध्य अंतर्संबंध पर प्रकाश डालता है।
द्विनाभिपूर्वक पक्ष के एक रोचक तथ्य यह है कि यह जीनवंशीय रूप से समान प्राणीजातीय जीनोम के मध्य एक "दूरी" माप के रूप में कार्य कर सकता है। घनिष्ठ रूप से संबंधित संगठनों के जीनोम के मध्य तुलनात्मक रूप से दूर संबंधित संगठनों के जोड़ों के मध्य द्विनाभिपूर्वक पक्ष अधिक समान होते हैं।[18]
के = 3
प्रोटीन जो डीएनए संकेतित करता है, बनाने के लिए इस्तेमाल की जाने वाली चालक विभिन्न प्राकृतिक एमिनो एसिड होते हैं। यद्यपि , केवल चार न्यूक्लियोटाइड होते हैं। इसलिए, न्यूक्लियोटाइड्स और एमिनो एसिड्स के मध्य एक-से-एक संबंध नहीं हो सकता है। उसी तरह, 16 2-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को स्पष्टतः प्रतिष्ठित करने के लिए पर्याप्त नहीं हैं। यद्यपि , डीएनए में 64 अलग-अलग 3-मेर्स होते हैं, जो प्रत्येक एमिनो एसिड को अद्वितीय रूप से प्रतिष्ठित करने के लिए पर्याप्त होते हैं। ये पृथक 3-मेर्स कोडॉन कहलाते हैं। यद्यपि , प्रत्येक कोडॉन केवल एक एमिनो एसिड से मिलता है, प्रत्येक एमिनो एसिड को कई कोडॉन से प्रतिष्ठित किया जा सकता है। इस प्रकार, एक ही एमिनो एसिड अनुक्रम के कई डीएनए प्रतिष्ठान बना सकता है। रोचक बात यह है कि प्रत्येक एमिनो एसिड के लिए कोडॉन का उपयोग बराबर प्रमाण में नहीं होता है। इसे कोडन उपयोग पूर्वाग्रह (सीयूबी) कहा जाता है। जब k = 3 होता है, तो सच्चा 3-मेर आवृत्ति और सीयूबी के मध्य एक अंतर किया जाना चाहिए।[22] उदाहरण के लिए, श्रृंगार एक ऐसी पदार्थ है जिसमें चार 3-मेर शब्द होते हैं (ATG, TGG, GGC और GCA), जबकि केवल दो कोडॉन (ATG और GCA) होते हैं। यद्यपि , सीयूबी 3-मेर उपयोग अवसाद का मुख्य कारक होता है (क्योंकि एक कोडिंग क्षेत्र में के-मेरों के १/३ हिस्से कोडॉन होते हैं) और इस पर ध्यान केंद्रित होता है।
विभिन्न कोडॉनों की आवृत्ति में विविधता के यथार्थ कारण को पूर्णतः समझा नहीं जा सका है। यह जाना जाता है कि कोडॉन प्राथमिकता टीआरएनए प्रचुरताओं के संगठन से संबद्ध होती है, जहां प्रचुरतम tRNA के समान कोडॉन उसी प्रमाण में अधिक आवृत्तिक होते हैं।[22] और यह जाना जाता है कि अधिक उच्च स्तर पर प्रकटित प्रोटीनों में अधिक सीयूबी होता है।[23] इससे प्रकट होता है कि अनुवादात्मक क्षमता या सटीकता के लिए चयन प्राथमिकता सीयूबी विविधता के पीछे चलने वाला बल होता है।
के = 4
द्विनाभिपूर्वक पूर्वाग्रह में देखे गए प्रभाव के समान, फ़ाइलोजेनेटिक रूप से समान जीवों के टेट्रान्यूक्लियोटाइड पूर्वाग्रह न्यूनतम निकटता से संबंधित जीवों की तुलना में अधिक समान हैं।[4]टेट्रान्यूक्लियोटाइड पूर्वाग्रह में भिन्नता का सटीक कारण अच्छी तरह से समझा नहीं गया है, परंतु यह अनुमान लगाया गया है कि यह आणविक स्तर पर आनुवंशिक स्थिरता के रखरखाव का परिणाम है।[24]
अनुप्रयोग
एक प्रजाति के जीनोम, एक जीनोमिक क्षेत्र या एक सरणी के वर्ग में एक सेट के के-मेर की आवृत्ति उपस्थित सरणी की "हस्ताक्षर" के रूप में उपयोग की जा सकती है। इन आवृत्तियों की तुलना करना अनुक्रम संरेखण से कम्प्यूटेशनली आसान होता है और इसे संरेखण-मुक्त अनुक्रम विश्लेषण में महत्वपूर्ण तकनीक के रूप में मान्यता प्राप्त है। यह एक संरेखण से पहले का पहला चरण विश्लेषण के रूप में भी उपयोग किया जा सकता है।
अनुक्रम संयोजन

सिरणी संचालन में, के-मेर का उपयोग दे ब्रुइन आरेख के निर्माण के दौरान किया जाता है।[25][26] डी ब्रुइन आरेख बनाने के लिए, प्रत्येक सिरा में संग्रहीत के-मेर को संग्रहीत किया जाना चाहिए, जिसकी लंबाई होती है, और इसे एक दूसरे सिरे में 𝐿 − 1 द्वारा ओवरलैप करना चाहिए क्योंकि एक वर्टेक्स बनाया जा सके। अगली पीढ़ी अनुक्रम द्वारा उत्पन्न किए जाने वाले रीड के सामान्यतः विभिन्न रीड लंबाई होती हैं। उदाहरण के लिए, आईल्यूमिना की अनुक्रम प्रौद्योगिकी द्वारा 100-मेर की रीड को दर्ज किया जाता है। यद्यपि , अनुक्रम में पाए जाने वाले संपूर्ण संभावित 100-मेर में से केवल छोटा हिस्सा वास्तव में उत्पन्न होता है। इसका कारण है रीड त्रुटियाँ, परंतु अधिक महत्वपूर्ण है, अनुक्रम के दौरान संचालन होने वाले सीधे कवरेज को दी जाती है। समस्या यह है कि इन संभावित के-अधिक के छोटे हिस्से दे ब्रुइन आरेख की मुख्य मान्यता को उल्लंघन करते हैं, जहां सभी के-अधिक रीड्स को संचालन में आग्रहित होने की अपेक्षा होती है कि इसके पास अपने पड़ोसी के-अधिक से के माध्यम से ओवरलैप हो जाता है।
इस समस्या का समाधान इन के-मेर आकार के रीड्स को छोटे के-मेर में विभाजित होता है, क्योंकि परिणामी छोटे के-मेर उस छोटे आकार के सभी संभावित के-मेर का प्रतिनिधित्व करेंगे जो जीनोम में उपस्थित होते हैं।[27] इसके अलावा, के-मेर को छोटे आकारों में विभाजित करने से विभिन्न प्रारंभिक पढ़ने की लंबाई की समस्या को न्यूनतम करने में भी सहायता मिलती है। इस उदाहरण में, पांच रीड्स जीनोम के सभी संभावित 7-मेर्स का लेखा जोखा नहीं देते हैं, और इस प्रकार, एक डी ब्रुइज़न आरेख़ नहीं बनाया जा सकता है। परंतु , जब उन्हें 4-मेर्स में विभाजित किया जाता है, तो परिणामस्वरूप उपक्रम दे ब्रुइन आरेख का उपयोग करके जीनोम का पुनर्निर्माण करने के लिए पर्याप्त होते हैं।
अनुक्रम संचालन के लिए सीधे उपयोग किए जाने के अलावा, के-मेर का उपयोग जीनोम मिस-संचालन का पता लगाने के लिए भी किया जा सकता है, जो कि अधिक प्रस्तुत किए गए के-मेर की पहचान करके होता है जो संयुक्त किए गए दोहराए गए अनुक्रम (डीएनए) की उपस्थिति का सुझाव देता है।[28] इसके अलावा, के-मेर का उपयोग यूकेरियोटिक जीनोम संचालन के दौरान जीवाणु संदूषण का पता लगाने के लिए भी किया जाता है,जो मेटाजेनोमिक्स के क्षेत्र से लाए गए एक दृष्टिकोण से उधारण किया गया है।[29][30]
के-मेर आकार का विकल्प
के-मेर आकार के चुनाव का अनुक्रम संयोजन पर बहुत पृथक प्रभाव पड़ते हैं। ये प्रभाव छोटे आकार और बड़े आकार के के-मेर के मध्य अत्यधिक भिन्न होते हैं। इसलिए, प्रभावों को संतुलित करने वाले उपयुक्त आकार को चुनने के लिए विभिन्न के-मेर आकारों की समझ प्राप्त की जानी चाहिए। आकारों के प्रभाव निम्न उल्लिखित हैं।
न्यूनतम के-मेर आकार
- न्यूनतम के-मेर आकार से आरेख़ में संग्रहीत किनारों की मात्रा न्यूनतम हो जाएगी, और इस तरह, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक स्थान की मात्रा को न्यूनतम करने में सहायता मिलेगी।
- छोटे आकार होने से सभी के-मेर के ओवरलैप होने की संभावना बढ़ जाएगी, और इस तरह, डी ब्रुइज़न आरेख के निर्माण के लिए आवश्यक अनुवर्तीताएं होंगी।[31]
- यद्यपि , छोटे आकार के k-mer होने से, आपको एकल k-mer में ले जाने वाले आरेख़ में कई शीर्ष होने का भी जोखिम होता है। इसलिए, इससे जीनोम का पुनर्निर्माण और अधिक कठिन हो जाएगा क्योंकि बड़ी मात्रा में शीर्षों को पार करने की आवश्यकता के कारण पथ अस्पष्टता का एक उच्च स्तर हमारे सामने आ सकती है।
- के-मेर छोटे हो जाने से जानकारी नष्ट हो जाती है।
- 'उदा. 'AGTCGTAGATGCTG की संभावना ACGT से न्यूनतम है, और इस प्रकार, अधिक मात्रा में जानकारी रखती है।
- छोटे के-मेर में डीएनए में उन क्षेत्रों को हल करने में सक्षम नहीं होने की भी समस्या होती है जहां छोटे सूक्ष्म उपग्रह या दोहराव होते हैं। ऐसा इसलिए है क्योंकि छोटे के-मेर पूरी तरह से दोहराव क्षेत्र के अंदर बैठे रहेंगे और इसलिए यह निर्धारित करना कठिन है कि वास्तव में कितनी पुनरावृत्ति हुई है।
- 'उदा. 'अनुवर्ती ATGTGTGTGTGTGTACG के लिए, यदि 16 से न्यूनतम के-मेर आकार चुना जाता है, तो टीजी की पुनरावृत्ति की मात्रा खो जाएगी। ऐसा इसलिए है क्योंकि अधिकांश के-मेर दोहराए गए क्षेत्र में बैठेंगे और पुनरावृत्ति की मात्रा को संदर्भित करने के अतिरिक्त उसी के-मेर के पुनरावृत्ति के रूप में खारिज कर दिया जा सकता है।
उच्च के-मेर आकार
- बड़े आकार के के-मेर होने से आरेख़ में किनारों की संख्या बढ़ जाएगी, जिसके परिणामस्वरूप, डीएनए अनुक्रम को संग्रहीत करने के लिए आवश्यक मेमोरी की मात्रा बढ़ जाएगी।
- के-मेर का आकार बढ़ाने से शीर्षों की संख्या भी न्यूनतम हो जाएगी। इससे जीनोम के निर्माण में सहायता मिलेगी क्योंकि आरेख़ में पार करने के लिए न्यूनतम रास्ते होंगे।[31]*
- बड़े के-मेर में प्रत्येक के-मेर से बाहरी शीर्ष न होने का जोखिम भी अधिक होता है। यह बड़े के-मेर के कारण यह जोखिम बढ़ रहा है कि यह किसी अन्य k-mer के साथ ओवरलैप नहीं होगा . इसलिए, इससे रीड्स में गड़बड़ी हो सकती है, और इस तरह, अधिक मात्रा में छोटे संपर्क हो सकते हैं।
- बड़े के-मेर आकार छोटे पुनरावृत्ति वाले क्षेत्रों की समस्या को न्यूनतम करने में सहायता करते हैं। यह इस तथ्य के कारण है कि के-मेर में पुनरावृत्ति क्षेत्र और निकटवर्ती डीएनए अनुक्रमों का संतुलन होगा (बशर्ते यह पर्याप्त बड़ा आकार हो) जो उस विशेष क्षेत्र में पुनरावृत्ति की मात्रा को हल करने में सहायता कर सकता है।
आनुवंशिकी और जीनोमिक्स
रोग संबंधी परिप्रेक्ष्य में, द्विनुकलोटाइड अधिकार को रोगाणुता से जुड़े आनुवंशिक द्वीपों की पहचान में प्रारंभ किया जा चुका है।[11] पूर्व अध्ययन ने यह भी दर्शाया है कि चतुर्णुकलोटाइड अधिकार प्रोकर्योट्स[32] और यूकर्योट्स[33] में क्षैतिज जीन स्थानांतरण की सक्षमता को सफलतापूर्वक देख सकते हैं।
क-मेरों का एक और अनुप्रयोग जीनोमिक्स-आधारित टैक्सोनोमी में होता है। उदाहरण के रूप में, मध्यम सफलता के साथ एर्विनिया के प्रजातियों के मध्य जीसी-सामग्री का उपयोग किया गया है।[34] टैक्सोनोमी के लिए जीसी-सामग्री के सीधे उपयोग के समान ही डीएनए की मेल्टिंग तापमान, अर्थात टीएम, का उपयोग किया जाता है।[35] क्योंकि जीसी बन्ध अधिक तापतन स्थिर होते हैं, जीसी सामग्री वाले संकेत में उच्च टीएम प्रदर्शित करती है। 1987 में, बैक्टीरियल सिस्टमाटिक्स के प्रति दृष्टिकोण को समाधान करने के लिए एड हॉक समिति ने फाइटोजेनेटिक प्रजाति संकल्प के हिस्से के रूप में जाति सीमाओं की निर्धारण में डेल्टा टीएम का उपयोग करने की प्रार्थना की, यद्यपि यह प्रार्थना वैज्ञानिक समुदाय में प्रभावी नहीं रही है।
आनुवंशिकता और जीनोमिक्स के अन्य अनुप्रयोग में सम्मिलित हैं:
- आरएनए अनुक्रम डेटा से आरएनए आयसोफॉर्म की मात्रा का मापन होता है।[36]
- मानव माइटोकॉन्ड्रियल हैप्लोग्रुप का वर्गीकरण करता है। [37]
- जीनोम्स में पुनर्जनन स्थलों का पता लगाना होता है।[38]
- के-मेर आवृत्ति बनाम के-अधिक गहराई का उपयोग करके जीनोम आकार का अनुमान लगाया जाता है। [39]
- फ्लैंकिंग क्षेत्रों द्वारा सीपीजी द्वीपों का वर्णन किया जाता है। [40][41]
- पुनरावृत्ति तत्व जैसे ट्रांसपोजेबल तत्व के नए पत्ते का खोज करना होता है ।[42]
- प्रजातियों की डीएनए बारकोडिंग का पता लगाना होता है ।।[7][43]
- प्रोटीन-बाइंडिंग सिक्वेंस मोटिफ का वर्णन किया जाता है। [44]
- अगली पीढ़ी के डीएनए अनुक्रमण डेटा का उपयोग करके उत्परिवर्तन या बहुरूपता (जीव विज्ञान) की पहचान करना होता है।[45]
मेटाजेनोमिक्स
मेटाजेनोमिक्स में क-मेर आवृत्ति और स्पेक्ट्रम विविधता का व्यापक उपयोग विश्लेषण[46][47] और बिनिंग के लिए किया जाता है। बिनिंग में, सीक्वेंसिंग रीड्स को प्रत्येक जीवाणु (या संचालनक टैक्सोनोमिक इकाई) के लिए "बिन्स" में अलग करने की चुनौती होती है, जिन्हें पुनः वे आस्थापित किए जाएंगे। टीईटीआरए एक महत्वपूर्ण उपकरण है जो मेटाजेनोमिक प्रारूप को लेता है और उन्हें उनके चतुर्नुक्लियोटाइड (k = 4) आवृत्ति के आधार पर जीवाणुओं में बिन्स में डालता है।[48] मेटाजेनोमिक बिनिंग के लिए क-मेर आवृत्ति पर आधारित अन्य उपकरण हैं कंपोस्टबिन (k = 6),[49] पीसीएहिर,[50] फाइलोपाइथिया (5 ≤ k ≤ 6),[[51] क्लार्क (k ≥ 20),[52] और टैकोटाकोआ (2 ≤ k ≤ 6).[53] वर्तमान की विकासों ने मेटाजेनोमिक बिनिंग[54] में क-मेर का उपयोग करके गहन अध्ययन को भी प्रारंभ किया है।
मेटाजेनोमिक्स के अन्य अनुप्रयोग सम्मिलित हैं:
- कच्चे रीड्स से रीडिंग फ्रेम की पुनःप्राप्ति करता है।[55]
- मेटागेनोमिक प्रारूपों में प्रजातियों की प्रमुखता का अनुमान लगाता है।[56]
- प्रारूपों में उपस्थित प्रजातियों की निर्धारण करता है।[57][58]
- प्रारूपों से रोगों के लिए बायोमार्कर की पहचान करता है। [59]
जैव प्रौद्योगिकी
अनुवाद संबंधी दक्षता को नियंत्रित करने के लिए जैव प्रौद्योगिकी अनुप्रयोगों में डीएनए अनुक्रमों में के-मेर आवृत्तियों को संशोधित करने का बड़े पैमाने पर उपयोग किया गया है।विशेष रूप से, इसका उपयोग प्रोटीन उत्पादन दर को उच्च या निम्न स्तर पर नियंत्रित करने के लिए किया गया है।
प्रोटीन उत्पादन बढ़ाने के संबंध में, प्रतिकूल द्विनाभिपूर्वक आवृत्ति को न्यूनतम करने से प्रोटीन संश्लेषण की उच्च दर प्राप्त होती है।[60] इसके अलावा, कोडॉन उपयोग विभेद को संश्लेषण दर को बढ़ाने वाले समेरूपी अनुक्रमों का निर्माण करने के लिए संशोधित किया गया है।[2][3]इसी प्रकार, कोडन जोड़ी अनुकूलन, डाइनुसेलोटाइड और कोडन अनुकूलन का संयोजन, का भी अभिव्यक्ति को बढ़ाने के लिए सफलतापूर्वक उपयोग किया गया है।[61]
अनुवाद प्रभावशीलता को न्यूनतम करने के लिए क-मेर का सबसे अध्ययनित अनुप्रयोग है टीके बनाने के लिए वायरसों को कमजोर करने के लिए कोडॉन-पेयर मानिपुलेशन का उपयोग करना। शोधकर्ताओं ने डेंगू वायरस का कारण बनने वाले वायरस को इस तरह से रीकोड किया कि इसका कोडॉन-पेयर विचारप्रधानता पशुवैज्ञानिक कोडॉन उपयोग पसंद से अधिक पृथक था।[62] यद्यपि इसमें एक अभिन्न एमिनो एसिड अनुक्रम था, परंतु रीकोड किए गए वायरस ने महत्वपूर्ण रूप से कमजोर रोगीता दिखाई दी जबकि यह मजबूत प्रतिरक्षा प्रतिक्रिया उत्पन्न कर रहा था। यह दृष्टिपट्ट में भी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन का सफलतापूर्वक उपयोग इंफ्लुएंजा वैक्सीन[63] और मारेक का रोग हर्पेसवायरस (एमडीवी) के लिए वैक्सीन बनाने में भी किया गया है।[64] यह उल्लेखनीय है कि एमडीवी को कमजोर करने के लिए वापसी कोडॉन-पेयर विचारप्रधानता मानिपुलेशन ने वायरस की कैंसरजनन को सफलतापूर्वक कम नहीं किया, जिससे यह दर्शाता है कि इस उपयोग के जैव प्रौद्योगिकी अनुप्रयोगों में पोटेंशियल की कमजोरी है। अब तक, कोडॉन-पेयर गैरउत्पादित वैक्सीन को अनुमति नहीं मिली है।
दो उपरांत के लेखों से स्पष्ट होता है कि कोडॉन-पेयर अनुप्रोजननीकरण के पीछे वास्तविक तंत्र का विवरण समझाने में सहायता मिलती है: कोडॉन-पेयर विचारप्रधानता द्विनुकलोटाइड विचारप्रधानता के परिणामस्वरूप होती है।।[65][66] वायरस और उनके मेजबानों का अध्ययन करके, दोनों लेखकों ने यह निर्धारित किया कि वायरसों की कमजोर रूप से अनुवाद के लिए अनुपयुक्त द्विनुकलोटाइडों की वृद्धि ही उस आणविक तंत्र का परिणाम होती है जो वायरसों को कमजोर करता है।
पीसीआर , एक महत्वपूर्ण जैव प्रौद्योगिकी उपकरण में यौगिक गलनांक की पूर्वानुमान करने के लिए जीसी-सामग्री (जीसी सामग्री) का उपयोग किया जाता है।
कार्यान्वयन
स्यूडोकोड
किसी रीड के संभावित के-मेर का निर्धारण केवल स्ट्रिंग की लंबाई पर एक-एक करके साइकिल चलाकर और लंबाई के प्रत्येक सबस्ट्रिंग को निकालकर किया जा सकता है। इसे प्राप्त करने के लिए छद्मकोड इस प्रकार है:
procedure k-mers(string seq, integer k) is L ← length(seq) arr ← new array of L − k + 1 empty strings // iterate over the number of k-mers in seq, // storing the nth k-mer in the output array for n ← 0 to L − k + 1 exclusive do arr[n] ← subsequence of seq from letter n inclusive to letter n + k exclusive return arr
जैव सूचना विज्ञान पाइपलाइनों में
क्योंकि k के मान के लिए के-मेर की संख्या गणनात्मक रूप से बढ़ती है, इसलिए बड़े k के लिए (सामान्यतः >10) के-मेर की गणना एक संगणनीय रूप से कठिन कार्य है। जबकि छोटे k मानों के लिए उपरोक्त छद्मकोड जैसे सरल अमलन कार्यों का कार्य करते हैं, उन्हें उच्च-प्रवाह अनुप्रयोगों या जब k बड़ा होता है, तों उसके लिए अनुकूलित करना चाहिए। इस समस्या को हल करने के लिए, विभिन्न उपकरणों का विकास किया गया है:
- जेलीफ़िश के-मेर गणना के लिए एक मल्टीथ्रेडेड, लॉक-फ्री हैश तालिका का उपयोग करता है और इसमें पायथन , रूबी , और पर्ल बाइंडिंग है।[67]
- केएमसी के-मेर गणना के लिए एक उपकरण है जो अनुकूलित गति के लिए मल्टीडिस्क आर्किटेक्चर का उपयोग करने वाला उपकरण है[68]
- जरबिल हैश तालिका दृष्टिकोण का उपयोग करता है परंतु जीपीयू त्वरण के लिए अतिरिक्त समेर्थन के साथ जोड़ा गया है।[69]
- के-मेर विश्लेषण टूलकिट (के-एटी) के-मेर गणना का विश्लेषण करने के लिए जेलिफ़िश के एक संशोधित संस्करण करके के-मेर गणना का विश्लेषण करने के लिए उपयोग होता है।[6]
यह भी देखें
संदर्भ
Some of the content in this article was copied from K-mer at the PLOS wiki, which is available under a Creative Commons Attribution 2.5 Generic (CC BY 2.5) license.
- ↑ Compeau, Phillip E C; Pevzner, Pavel A; Tesler, Glenn (November 2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology (in English). 29 (11): 987–991. doi:10.1038/nbt.2023. ISSN 1087-0156. PMC 5531759. PMID 22068540.
- ↑ Jump up to: 2.0 2.1 Welch, Mark; Govindarajan, Sridhar; Ness, Jon E.; Villalobos, Alan; Gurney, Austin; Minshull, Jeremy; Gustafsson, Claes (2009-09-14). Kudla, Grzegorz (ed.). "एस्चेरिचिया कोलाई में सिंथेटिक जीन अभिव्यक्ति को नियंत्रित करने के लिए डिज़ाइन पैरामीटर". PLOS ONE (in English). 4 (9): e7002. Bibcode:2009PLoSO...4.7002W. doi:10.1371/journal.pone.0007002. ISSN 1932-6203. PMC 2736378. PMID 19759823.
- ↑ Jump up to: 3.0 3.1 Gustafsson, Claes; Govindarajan, Sridhar; Minshull, Jeremy (July 2004). "कोडन पूर्वाग्रह और विषम प्रोटीन अभिव्यक्ति". Trends in Biotechnology (in English). 22 (7): 346–353. doi:10.1016/j.tibtech.2004.04.006. PMID 15245907.
- ↑ Jump up to: 4.0 4.1 Perry, Scott C.; Beiko, Robert G. (2010-01-01). "Distinguishing Microbial Genome Fragments Based on Their Composition: Evolutionary and Comparative Genomic Perspectives". Genome Biology and Evolution (in English). 2: 117–131. doi:10.1093/gbe/evq004. ISSN 1759-6653. PMC 2839357. PMID 20333228.
- ↑ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (2018-01-29). Mocarski, Edward (ed.). "कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन". PLOS Pathogens (in English). 14 (1): e1006857. doi:10.1371/journal.ppat.1006857. ISSN 1553-7374. PMC 5805365. PMID 29377958.
- ↑ Jump up to: 6.0 6.1 Mapleson, Daniel; Garcia Accinelli, Gonzalo; Kettleborough, George; Wright, Jonathan; Clavijo, Bernardo J. (2016-10-22). "KAT: a K-mer analysis toolkit to quality control NGS datasets and genome assemblies". Bioinformatics (in English). 33 (4): 574–576. doi:10.1093/bioinformatics/btw663. ISSN 1367-4803. PMC 5408915. PMID 27797770.
- ↑ Jump up to: 7.0 7.1 Chor, Benny; Horn, David; Goldman, Nick; Levy, Yaron; Massingham, Tim (2009). "Genomic DNA k-mer spectra: models and modalities". Genome Biology (in English). 10 (10): R108. doi:10.1186/gb-2009-10-10-r108. ISSN 1465-6906. PMC 2784323. PMID 19814784.
- ↑ Yakovchuk, P. (2006-01-30). "बेस-स्टैकिंग और बेस-पेयरिंग डीएनए डबल हेलिक्स की थर्मल स्थिरता में योगदान देता है". Nucleic Acids Research (in English). 34 (2): 564–574. doi:10.1093/nar/gkj454. ISSN 0305-1048. PMC 1360284. PMID 16449200.
- ↑ Bernardi, Giorgio (January 2000). "आइसोकोर्स और कशेरुकियों के विकासवादी जीनोमिक्स". Gene (in English). 241 (1): 3–17. doi:10.1016/S0378-1119(99)00485-0. PMID 10607893.
- ↑ Hurst, Laurence D.; Merchant, Alexa R. (2001-03-07). "High guanine–cytosine content is not an adaptation to high temperature: a comparative analysis amongst prokaryotes". Proceedings of the Royal Society B: Biological Sciences (in English). 268 (1466): 493–497. doi:10.1098/rspb.2000.1397. ISSN 1471-2954. PMC 1088632. PMID 11296861.
- ↑ Jump up to: 11.0 11.1 11.2 Mugal, Carina F.; Weber, Claudia C.; Ellegren, Hans (December 2015). "GC-biased gene conversion links the recombination landscape and demography to genomic base composition: GC-biased gene conversion drives genomic base composition across a wide range of species". BioEssays (in English). 37 (12): 1317–1326. doi:10.1002/bies.201500058. PMID 26445215. S2CID 21843897.
- ↑ Romiguier, Jonathan; Roux, Camille (2017-02-15). "आणविक विकास में जीसी-सामग्री से जुड़े विश्लेषणात्मक पूर्वाग्रह". Frontiers in Genetics. 8: 16. doi:10.3389/fgene.2017.00016. ISSN 1664-8021. PMC 5309256. PMID 28261263.
- ↑ Spencer, C.C.A. (2006-08-01). "Human polymorphism around recombination hotspots: Figure 1". Biochemical Society Transactions (in English). 34 (4): 535–536. doi:10.1042/BST0340535. ISSN 0300-5127. PMID 16856853.
- ↑ Weber, Claudia C; Boussau, Bastien; Romiguier, Jonathan; Jarvis, Erich D; Ellegren, Hans (December 2014). "एवियन बेस संरचना में वंश-अंतर के चालक के रूप में जीसी-पक्षपाती जीन रूपांतरण के लिए साक्ष्य". Genome Biology (in English). 15 (12): 549. doi:10.1186/s13059-014-0549-1. ISSN 1474-760X. PMC 4290106. PMID 25496599.
- ↑ Lassalle, Florent; Périan, Séverine; Bataillon, Thomas; Nesme, Xavier; Duret, Laurent; Daubin, Vincent (2015-02-06). Petrov, Dmitri A. (ed.). "GC-Content Evolution in Bacterial Genomes: The Biased Gene Conversion Hypothesis Expands". PLOS Genetics (in English). 11 (2): e1004941. doi:10.1371/journal.pgen.1004941. ISSN 1553-7404. PMC 4450053. PMID 25659072.
- ↑ Santoyo, G; Romero, D (April 2005). "जीवाणु जीनोम में जीन रूपांतरण और ठोस विकास". FEMS Microbiology Reviews (in English). 29 (2): 169–183. doi:10.1016/j.femsre.2004.10.004. PMID 15808740.
- ↑ Bhérer, Claude; Auton, Adam (2014-06-16), John Wiley & Sons Ltd (ed.), "Biased Gene Conversion and Its Impact on Genome Evolution", eLS (in English), John Wiley & Sons, Ltd, doi:10.1002/9780470015902.a0020834.pub2, ISBN 9780470015902
- ↑ Jump up to: 18.0 18.1 Karlin, Samuel (October 1998). "वैश्विक डाइन्यूक्लियोटाइड हस्ताक्षर और जीनोमिक विविधता का विश्लेषण". Current Opinion in Microbiology (in English). 1 (5): 598–610. doi:10.1016/S1369-5274(98)80095-7. PMID 10066522.
- ↑ Beutler, E.; Gelbart, T.; Han, J. H.; Koziol, J. A.; Beutler, B. (1989-01-01). "Evolution of the genome and the genetic code: selection at the dinucleotide level by methylation and polyribonucleotide cleavage". Proceedings of the National Academy of Sciences (in English). 86 (1): 192–196. Bibcode:1989PNAS...86..192B. doi:10.1073/pnas.86.1.192. ISSN 0027-8424. PMC 286430. PMID 2463621.
- ↑ Di Giallonardo, Francesca; Schlub, Timothy E.; Shi, Mang; Holmes, Edward C. (2017-04-15). Dermody, Terence S. (ed.). "पशु आरएनए वायरस में डाइन्यूक्लियोटाइड संरचना मेजबान प्रजातियों की तुलना में वायरस परिवार द्वारा अधिक आकार में होती है". Journal of Virology (in English). 91 (8). doi:10.1128/JVI.02381-16. ISSN 0022-538X. PMC 5375695. PMID 28148785.
- ↑ Żemojtel, Tomasz; kiełbasa, Szymon M.; Arndt, Peter F.; Behrens, Sarah; Bourque, Guillaume; Vingron, Martin (2011-01-01). "CpG Deamination Creates Transcription Factor–Binding Sites with High Efficiency". Genome Biology and Evolution (in English). 3: 1304–1311. doi:10.1093/gbe/evr107. ISSN 1759-6653. PMC 3228489. PMID 22016335.
- ↑ Jump up to: 22.0 22.1 Hershberg, R; Petrov, DA (2008). "कोडन पूर्वाग्रह पर चयन". Annual Review of Genetics. 42: 287–299. doi:10.1146/annurev.genet.42.110807.091442. PMID 18983258.
- ↑ Sharp, Paul M.; Li, Wen-Hsiung (1987). "कोडन अनुकूलन सूचकांक - दिशात्मक पर्यायवाची कोडन उपयोग पूर्वाग्रह और इसके संभावित अनुप्रयोगों का एक माप". Nucleic Acids Research (in English). 15 (3): 1281–1295. doi:10.1093/nar/15.3.1281. ISSN 0305-1048. PMC 340524. PMID 3547335.
- ↑ Noble, Peter A.; Citek, Robert W.; Ogunseitan, Oladele A. (April 1998). "माइक्रोबियल जीनोम में टेट्रान्यूक्लियोटाइड आवृत्तियाँ". Electrophoresis. 19 (4): 528–535. doi:10.1002/elps.1150190412. ISSN 0173-0835. PMID 9588798. S2CID 9539686.
- ↑ Nagarajan, Niranjan; Pop, Mihai (2013). "अनुक्रम संयोजन का रहस्योद्घाटन किया गया". Nature Reviews Genetics (in English). 14 (3): 157–167. doi:10.1038/nrg3367. ISSN 1471-0056. PMID 23358380. S2CID 3519991.
- ↑ Li; et al. (2010). "बड़े पैमाने पर समानांतर लघु पठन अनुक्रमण के साथ मानव जीनोम की डे नोवो असेंबली". Genome Research. 20 (2): 265–272. doi:10.1101/gr.097261.109. PMC 2813482. PMID 20019144.
- ↑ Compeau, P.; Pevzner, P.; Teslar, G. (2011). "जीनोम असेंबली में डी ब्रुइज़ ग्राफ़ कैसे लागू करें". Nature Biotechnology. 29 (11): 987–991. doi:10.1038/nbt.2023. PMC 5531759. PMID 22068540.
- ↑ Phillippy, Schatz, Pop (2008). "Genome assembly forensics: finding the elusive mis-assembly". Bioinformatics. 9 (3): R55. doi:10.1186/gb-2008-9-3-r55. PMC 2397507. PMID 18341692.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ↑ Delmont, Eren (2016). "Identifying contamination with advanced visualization and analysis practices: metagenomic approaches for eukaryotic genome assemblies". PeerJ. 4: e1839. doi:10.7717/peerj.1839. PMC 4824900. PMID 27069789.
- ↑ Bemm; et al. (2016). "Genome of a tardigrade: Horizontal gene transfer or bacterial contamination?". Proceedings of the National Academy of Sciences. 113 (22): E3054–E3056. Bibcode:2016PNAS..113E3054B. doi:10.1073/pnas.1525116113. PMC 4896698. PMID 27173902.
- ↑ Jump up to: 31.0 31.1 Zerbino, Daniel R.; Birney, Ewan (2008). "Velvet: algorithms for de novo short read assembly using de Bruijn graphs". Genome Research. 18 (5): 821–829. doi:10.1101/gr.074492.107. PMC 2336801. PMID 18349386.
- ↑ Goodur, Haswanee D.; Ramtohul, Vyasanand; Baichoo, Shakuntala (2012-11-11). "GIDT — A tool for the identification and visualization of genomic islands in prokaryotic organisms". 2012 IEEE 12th International Conference on Bioinformatics & Bioengineering (BIBE): 58–63. doi:10.1109/bibe.2012.6399707. ISBN 978-1-4673-4358-9. S2CID 6368495.
- ↑ Jaron, K. S.; Moravec, J. C.; Martinkova, N. (2014-04-15). "SigHunt: horizontal gene transfer finder optimized for eukaryotic genomes". Bioinformatics (in English). 30 (8): 1081–1086. doi:10.1093/bioinformatics/btt727. ISSN 1367-4803. PMID 24371153.
- ↑ Starr, M. P.; Mandel, M. (1969-04-01). "फाइटोपैथोजेनिक और अन्य एंटरोबैक्टीरिया की डीएनए बेस संरचना और वर्गीकरण". Journal of General Microbiology (in English). 56 (1): 113–123. doi:10.1099/00221287-56-1-113. ISSN 0022-1287. PMID 5787000.
- ↑ Moore, W. E. C.; Stackebrandt, E.; Kandler, O.; Colwell, R. R.; Krichevsky, M. I.; Truper, H. G.; Murray, R. G. E.; Wayne, L. G.; Grimont, P. A. D. (1987-10-01). "बैक्टीरियल सिस्टमैटिक्स के दृष्टिकोण के समाधान पर तदर्थ समिति की रिपोर्ट". International Journal of Systematic and Evolutionary Microbiology (in English). 37 (4): 463–464. doi:10.1099/00207713-37-4-463. ISSN 1466-5026.
- ↑ Patro, Mount, Kingsford (2014). "सेलफ़िश हल्के एल्गोरिदम का उपयोग करके आरएनए-सीक्यू रीड्स से संरेखण-मुक्त आइसोफॉर्म मात्रा का ठहराव सक्षम करता है". Nature Biotechnology. 32 (5): 462–464. arXiv:1308.3700. doi:10.1038/nbt.2862. PMC 4077321. PMID 24752080.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ↑ Navarro-Gomez; et al. (2015). "Phy-Mer: a novel alignment-free and reference-independent mitochondrial haplogroup classifier". Bioinformatics. 31 (8): 1310–1312. doi:10.1093/bioinformatics/btu825. PMC 4393525. PMID 25505086.
- ↑ Wang, Rong; Xu, Yong; Liu, Bin (2016). "गैप्ड के-मर्स के आधार पर पुनर्संयोजन स्थान की पहचान". Scientific Reports (in English). 6 (1): 23934. Bibcode:2016NatSR...623934W. doi:10.1038/srep23934. ISSN 2045-2322. PMC 4814916. PMID 27030570.
- ↑ Lamichhaney, Sangeet; Fan, Guangyi; Widemo, Fredrik; Gunnarsson, Ulrika; Thalmann, Doreen Schwochow; Hoeppner, Marc P; Kerje, Susanne; Gustafson, Ulla; Shi, Chengcheng (2016). "रफ़ में वैकल्पिक प्रजनन रणनीतियों के अंतर्गत संरचनात्मक जीनोमिक परिवर्तन होते हैं (फिलोमाचस पुग्नैक्स)". Nature Genetics (in English). 48 (1): 84–88. doi:10.1038/ng.3430. ISSN 1061-4036. PMID 26569123.
- ↑ Chae; et al. (2013). "के-मेर और के-फ़्लैंक पैटर्न का उपयोग करके तुलनात्मक विश्लेषण स्तनधारी जीनोम में सीपीजी द्वीप अनुक्रम विकास के लिए सबूत प्रदान करता है". Nucleic Acids Research. 41 (9): 4783–4791. doi:10.1093/nar/gkt144. PMC 3643570. PMID 23519616.
- ↑ Mohamed Hashim, Abdullah (2015). "Rare k-mer DNA: Identification of sequence motifs and prediction of CpG island and promoter". Journal of Theoretical Biology. 387: 88–100. Bibcode:2015JThBi.387...88M. doi:10.1016/j.jtbi.2015.09.014. PMID 26427337.
- ↑ Price, Jones, Pevzner (2005). "बड़े जीनोम में दोहराए गए परिवारों की डे नोवो पहचान". Bioinformatics. 21(supp 1): i351–8. doi:10.1093/bioinformatics/bti1018. PMID 15961478.
{{cite journal}}
: CS1 maint: multiple names: authors list (link) - ↑ Meher, Prabina Kumar; Sahu, Tanmaya Kumar; Rao, A.R. (2016). "के-मेर फीचर वेक्टर और रैंडम फॉरेस्ट क्लासिफायर का उपयोग करके डीएनए बारकोड के आधार पर प्रजातियों की पहचान". Gene (in English). 592 (2): 316–324. doi:10.1016/j.gene.2016.07.010. PMID 27393648.
- ↑ Newburger, Bulyk (2009). "UniPROBE: an online database of protein binding microarray data on protein–DNA interactions". Nucleic Acids Research. 37(supp 1) (Database issue): D77–82. doi:10.1093/nar/gkn660. PMC 2686578. PMID 18842628.
- ↑ Nordstrom; et al. (2013). "के-मर्स का उपयोग करके उत्परिवर्ती और जंगली प्रकार के व्यक्तियों से पूरे-जीनोम अनुक्रमण डेटा की प्रत्यक्ष तुलना द्वारा उत्परिवर्तन की पहचान". Nature Biotechnology. 31 (4): 325–330. doi:10.1038/nbt.2515. PMID 23475072.
- ↑ Zhu, Jianfeng; Zheng, Wei-Mou (2014). "मेटा-जीनोम के लिए स्व-संगठित दृष्टिकोण". Computational Biology and Chemistry (in English). 53: 118–124. doi:10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
- ↑ Dubinkina; Ischenko; Ulyantsev; Tyakht; Alexeev (2016). "मेटागेनोमिक असमानता विश्लेषण के लिए के-मेर स्पेक्ट्रम प्रयोज्यता का आकलन". BMC Bioinformatics. 17: 38. doi:10.1186/s12859-015-0875-7. PMC 4715287. PMID 26774270.
- ↑ Teeling, H; Waldmann, J; Lombardot, T; Bauer, M; Glöckner, F (2004). "TETRA: a web-service and a stand-alone program for the analysis and comparison of tetranucleotide usage patterns in DNA sequences". BMC Bioinformatics. 5: 163. doi:10.1186/1471-2105-5-163. PMC 529438. PMID 15507136.
- ↑ Chatterji, Sourav; Yamazaki, Ichitaro; Bai, Zhaojun; Eisen, Jonathan A. (2008), Vingron, Martin; Wong, Limsoon (eds.), "CompostBin: A DNA Composition-Based Algorithm for Binning Environmental Shotgun Reads", Research in Computational Molecular Biology (in English), Springer Berlin Heidelberg, vol. 4955, pp. 17–28, arXiv:0708.3098, doi:10.1007/978-3-540-78839-3_3, ISBN 9783540788386, S2CID 7832512
- ↑ Zheng, Hao; Wu, Hongwei (2010). "Short Prokaryotic DNA Fragment Binning Using a Hierarchical Classifier Based on Linear Discriminant Analysis and Principal Component Analysis". Journal of Bioinformatics and Computational Biology (in English). 08 (6): 995–1011. doi:10.1142/S0219720010005051. ISSN 0219-7200. PMID 21121023.
- ↑ McHardy, Alice Carolyn; Martín, Héctor García; Tsirigos, Aristotelis; Hugenholtz, Philip; Rigoutsos, Isidore (2007). "चर-लंबाई वाले डीएनए अंशों का सटीक फ़ाइलोजेनेटिक वर्गीकरण". Nature Methods (in English). 4 (1): 63–72. doi:10.1038/nmeth976. ISSN 1548-7091. PMID 17179938. S2CID 28797816.
- ↑ Ounit, Rachid; Wanamaker, Steve; Close, Timothy J; Lonardi, Stefano (2015). "CLARK: fast and accurate classification of metagenomic and genomic sequences using discriminative k-mers". BMC Genomics (in English). 16 (1): 236. doi:10.1186/s12864-015-1419-2. ISSN 1471-2164. PMC 4428112. PMID 25879410.
- ↑ Diaz, Naryttza N; Krause, Lutz; Goesmann, Alexander; Niehaus, Karsten; Nattkemper, Tim W (2009). "TACOA – Taxonomic classification of environmental genomic fragments using a kernelized nearest neighbor approach". BMC Bioinformatics (in English). 10 (1): 56. doi:10.1186/1471-2105-10-56. ISSN 1471-2105. PMC 2653487. PMID 19210774.
- ↑ Fiannaca, Antonino; La Paglia, Laura; La Rosa, Massimo; Lo Bosco, Giosue’; Renda, Giovanni; Rizzo, Riccardo; Gaglio, Salvatore; Urso, Alfonso (2018). "मेटागेनोमिक डेटा के बैक्टीरिया वर्गीकरण वर्गीकरण के लिए गहन शिक्षण मॉडल". BMC Bioinformatics (in English). 19 (S7): 198. doi:10.1186/s12859-018-2182-6. ISSN 1471-2105. PMC 6069770. PMID 30066629.
- ↑ Zhu, Zheng (2014). "मेटा-जीनोम के लिए स्व-संगठित दृष्टिकोण". Computational Biology and Chemistry. 53: 118–124. doi:10.1016/j.compbiolchem.2014.08.016. PMID 25213854.
- ↑ Lu, Jennifer; Breitwieser, Florian P.; Thielen, Peter; Salzberg, Steven L. (2017-01-02). "Bracken: estimating species abundance in metagenomics data". PeerJ Computer Science (in English). 3: e104. doi:10.7717/peerj-cs.104. ISSN 2376-5992.
- ↑ Wood, Derrick E; Salzberg, Steven L (2014). "Kraken: ultrafast metagenomic sequence classification using exact alignments". Genome Biology (in English). 15 (3): R46. doi:10.1186/gb-2014-15-3-r46. ISSN 1465-6906. PMC 4053813. PMID 24580807.
- ↑ Rosen, Gail; Garbarine, Elaine; Caseiro, Diamantino; Polikar, Robi; Sokhansanj, Bahrad (2008). "-मेर फ्रीक्वेंसी प्रोफाइल का उपयोग करके मेटाजेनोम फ्रैगमेंट वर्गीकरण". Advances in Bioinformatics (in English). 2008: 205969. doi:10.1155/2008/205969. ISSN 1687-8027. PMC 2777009. PMID 19956701.
- ↑ Wang, Ying; Fu, Lei; Ren, Jie; Yu, Zhaoxia; Chen, Ting; Sun, Fengzhu (2018-05-03). "लंबे के-मेर अनुक्रम हस्ताक्षरों का उपयोग करके माइक्रोबियल समुदायों के लिए समूह-विशिष्ट अनुक्रमों की पहचान करना". Frontiers in Microbiology. 9: 872. doi:10.3389/fmicb.2018.00872. ISSN 1664-302X. PMC 5943621. PMID 29774017.
- ↑ Al-Saif, Maher; Khabar, Khalid SA (2012). "UU/UA Dinucleotide Frequency Reduction in Coding Regions Results in Increased mRNA Stability and Protein Expression". Molecular Therapy (in English). 20 (5): 954–959. doi:10.1038/mt.2012.29. PMC 3345983. PMID 22434136.
- ↑ Trinh, R; Gurbaxani, B; Morrison, SL; Seyfzadeh, M (2004). "Optimization of codon pair use within the (GGGGS)3 linker sequence results in enhanced protein expression". Molecular Immunology. 40 (10): 717–722. doi:10.1016/j.molimm.2003.08.006. PMID 14644097. S2CID 36734007.
- ↑ Shen, Sam H.; Stauft, Charles B.; Gorbatsevych, Oleksandr; Song, Yutong; Ward, Charles B.; Yurovsky, Alisa; Mueller, Steffen; Futcher, Bruce; Wimmer, Eckard (2015-04-14). "कीट बनाम स्तनधारी प्राथमिकता को पुनर्संतुलित करने के लिए अर्बोवायरस जीनोम की बड़े पैमाने पर रीकोडिंग". Proceedings of the National Academy of Sciences (in English). 112 (15): 4749–4754. Bibcode:2015PNAS..112.4749S. doi:10.1073/pnas.1502864112. ISSN 0027-8424. PMC 4403163. PMID 25825721.
- ↑ Kaplan, Bryan S.; Souza, Carine K.; Gauger, Phillip C.; Stauft, Charles B.; Robert Coleman, J.; Mueller, Steffen; Vincent, Amy L. (2018). "कोडन-जोड़ी पूर्वाग्रह डी-ऑप्टिमाइज्ड जीवित क्षीणित इन्फ्लूएंजा टीका वाले सूअरों का टीकाकरण सजातीय चुनौती से बचाता है". Vaccine (in English). 36 (8): 1101–1107. doi:10.1016/j.vaccine.2018.01.027. PMID 29366707.
- ↑ Eschke, Kathrin; Trimpert, Jakob; Osterrieder, Nikolaus; Kunec, Dusan (2018-01-29). Mocarski, Edward (ed.). "कोडन जोड़ी पूर्वाग्रह डीऑप्टिमाइजेशन द्वारा एक बहुत ही विषैले मारेक रोग हर्पीसवायरस (एमडीवी) का क्षीणन". PLOS Pathogens (in English). 14 (1): e1006857. doi:10.1371/journal.ppat.1006857. ISSN 1553-7374. PMC 5805365. PMID 29377958.
- ↑ Kunec, Dusan; Osterrieder, Nikolaus (2016). "कोडन जोड़ी पूर्वाग्रह डायन्यूक्लियोटाइड पूर्वाग्रह का प्रत्यक्ष परिणाम है". Cell Reports (in English). 14 (1): 55–67. doi:10.1016/j.celrep.2015.12.011. PMID 26725119.
- ↑ Tulloch, Fiona; Atkinson, Nicky J; Evans, David J; Ryan, Martin D; Simmonds, Peter (2014-12-09). "RNA virus attenuation by codon pair deoptimisation is an artefact of increases in CpG/UpA dinucleotide frequencies". eLife (in English). 3: e04531. doi:10.7554/eLife.04531. ISSN 2050-084X. PMC 4383024. PMID 25490153.
- ↑ Marçais, Guillaume; Kingsford, Carl (2011-03-15). "के-मर्स की घटनाओं की कुशल समानांतर गणना के लिए एक तेज़, लॉक-मुक्त दृष्टिकोण". Bioinformatics (in English). 27 (6): 764–770. doi:10.1093/bioinformatics/btr011. ISSN 1460-2059. PMC 3051319. PMID 21217122.
- ↑ Deorowicz, Sebastian; Kokot, Marek; Grabowski, Szymon; Debudaj-Grabysz, Agnieszka (2015-05-15). "KMC 2: fast and resource-frugal k-mer counting". Bioinformatics (in English). 31 (10): 1569–1576. doi:10.1093/bioinformatics/btv022. ISSN 1460-2059. PMID 25609798.
- ↑ Erbert, Marius; Rechner, Steffen; Müller-Hannemann, Matthias (2017). "Gerbil: a fast and memory-efficient k-mer counter with GPU-support". Algorithms for Molecular Biology (in English). 12 (1): 9. doi:10.1186/s13015-017-0097-9. ISSN 1748-7188. PMC 5374613. PMID 28373894.