फाइलोजेनी में बायेसियन अनुमान

From Vigyanwiki
Revision as of 12:04, 3 December 2023 by alpha>Shivanidubey
Bayesian inference in phylogeny
ClassificationEvolutionary biology
SubclassificationMolecular phylogenetics
Optimally search criteriaBayesian inference

बायेसियन कम्प्यूटेशनल फाइलोजेनेटिक्स ट्री की तथाकथित पश्च प्रायिकता बनाने के लिए पूर्व और डेटा प्रायिकता में जानकारी को जोड़ती है, जो प्रायिकता है कि डेटा, पूर्व और प्रायिकता मॉडल को देखते हुए ट्री सही है। बायेसियन अनुमान को 1990 के दशक में तीन स्वतंत्र समूहों द्वारा आणविक फ़ाइलोजेनेटिक्स में प्रस्तुत किया गया था: बर्कले में ब्रूस रन्नाला और ज़िहेंग यांग,[1][2] मैडिसन में बॉब माउ,[3] और आयोवा विश्वविद्यालय में शुयिंग ली,[4] अंतिम दो उस समय पीएचडी छात्र थे। 2001 में मिस्टरबेयस सॉफ्टवेयर के प्रारम्भ होने के बाद से यह दृष्टिकोण बहुत लोकप्रिय हो गया है।[5] और अब आणविक फ़ाइलोजेनेटिक्स में सबसे लोकप्रिय तरीकों में से एक है।

फ़ाइलोजेनी पृष्ठभूमि और आधारों का बायेसियन निष्कर्ष

बेयस प्रमेय
एमसीएमसी विधि चरणों को दर्शाने वाला रूपक

बायेसियन निष्कर्ष, बेयस प्रमेय के आधार पर रेवरेंड थॉमस बेयस द्वारा विकसित प्रायिकता पद्धति को संदर्भित करता है। 1763 में मरणोपरांत प्रकाशित यह व्युत्क्रम प्रायिकता की पहली अभिव्यक्ति थी और बायेसियन निष्कर्ष का आधार थी। स्वतंत्र रूप से, बेयस के काम से अनजान, पियरे-साइमन लाप्लास ने 1774 में बेयस प्रमेय विकसित किया था।[6]

बायेसियन निष्कर्ष या व्युत्क्रम प्रायिकता विधि RA फिशर द्वारा विकसित किए जाने से पहले 1900 के दशक की प्रारम्भ तक सांख्यिकीय सोच में मानक दृष्टिकोण थी जिसे अब क्लासिकल/फ़्रीक्वेंटिस्ट/फिशरियन अनुमान के रूप में जाना जाता है। कम्प्यूटेशनल कठिनाइयों और दार्शनिक आपत्तियों ने 1990 के दशक तक बायेसियन दृष्टिकोण को व्यापक रूप से अपनाने से रोक दिया था, जब मार्कोव श्रृंखला मोंटे कार्लो (एमसीएमसी) एल्गोरिदम ने बायेसियन गणना में क्रांति ला दी थी।

फाइलोजेनेटिक पुनर्निर्माण के लिए बायेसियन दृष्टिकोण ट्री P (A) की पूर्व प्रायिकता को डेटा (B) की संभावना के साथ जोड़ता है जिससे की ट्री P (A | B) पर पश्च प्रायिकता वितरण उत्पन्न हो सकता है।[7] किसी ट्री की पिछली प्रायिकता यह प्रायिकता होगी कि ट्री सही है, पूर्व, डेटा और प्रायिकता मॉडल की शुद्धता को देखते हुए।

एमसीएमसी विधियों को तीन चरणों में वर्णित किया जा सकता है: पहले स्टोकेस्टिक तंत्र का उपयोग करके मार्कोव श्रृंखला के लिए नया स्टेट प्रस्तावित किया गया है। दूसरे, इस नई स्थिति के सही होने की प्रायिकता की गणना की जाती है। तीसरा, नया यादृच्छिक चर (0,1) प्रस्तावित है। यदि यह नया मान स्वीकृति प्रायिकता से कम है तो नई स्थिति स्वीकार कर ली जाती है और श्रृंखला की स्थिति अद्यतन कर दी जाती है। यह प्रक्रिया हजारों या लाखों बार चलती है। श्रृंखला के समय एक ही ट्री पर जितनी बार दौरा किया जाता है, वह इसकी पिछली संभावना का निष्कर्ष है। एमसीएमसी विधियों में उपयोग किए जाने वाले कुछ सबसे सरल एल्गोरिदम में मेट्रोपोलिस-हेस्टिंग्स एल्गोरिदम, मेट्रोपोलिस-युग्मन एमसीएमसी (MC³) और लार्जेट और साइमन के लोकल एल्गोरिदम सम्मिलित हैं।

मेट्रोपोलिस-हेस्टिंग्स एल्गोरिथम

उपयोग की जाने वाली सबसे आम एमसीएमसी विधियों में से एक मेट्रोपोलिस-हेस्टिंग्स एल्गोरिदम है,[8] मूल मेट्रोपोलिस एल्गोरिदम का एक संशोधित संस्करण।[9] यह जटिल और बहुआयामी वितरण संभावनाओं से यादृच्छिक रूप से नमूना लेने की एक व्यापक रूप से उपयोग की जाने वाली विधि है। मेट्रोपोलिस एल्गोरिथ्म को निम्नलिखित चरणों में वर्णित किया गया है: रेफरी>Felsenstein J (2004). फाइलोजेनीज़ का अनुमान लगाना. Sunderland, Massachusetts: Sinauer Associates.</ref>

रेफरी>Yang Z (2014). आणविक विकास: एक सांख्यिकीय दृष्टिकोण. Oxford, England: Oxford University Press.</ref>

  1. एक प्रारंभिक वृक्ष, टीi, यादृच्छिक रूप से चुना गया है।
  2. एक पड़ोसी पेड़, टीj, पेड़ों के संग्रह से चुना गया है।
  3. टी की संभावनाओं (या संभाव्यता घनत्व कार्यों) का अनुपात, आरj और टीi इस प्रकार गणना की जाती है: R = f(Tj)/एफ(टीi)
  4. यदि R ≥ 1, Tj वर्तमान वृक्ष के रूप में स्वीकार किया जाता है।
  5. यदि आर <1, टीj संभाव्यता R, अन्यथा T के साथ वर्तमान वृक्ष के रूप में स्वीकार किया जाता हैi रखा गया है।
  6. इस बिंदु पर प्रक्रिया को चरण 2 से एन बार दोहराया जाता है।

एल्गोरिथम तब तक चलता रहता है जब तक यह एक संतुलन वितरण तक नहीं पहुंच जाता। यह भी मानता है कि एक नए पेड़ के प्रस्ताव की संभावना टीj जब हम पुराने वृक्ष की अवस्था T पर होते हैंi, T को प्रस्तावित करने की समान संभावना हैi जब हम टी पर होते हैंj. जब ऐसा नहीं होता है तो हेस्टिंग्स सुधार लागू किए जाते हैं। मेट्रोपोलिस-हेस्टिंग्स एल्गोरिथ्म का उद्देश्य एक निर्धारित वितरण के साथ राज्यों का एक संग्रह तैयार करना है जब तक कि मार्कोव प्रक्रिया एक स्थिर वितरण तक नहीं पहुंच जाती। एल्गोरिदम के दो घटक हैं:

  1. एक संक्रमण संभाव्यता फ़ंक्शन q का उपयोग करके एक राज्य से दूसरे राज्य (i → j) में संभावित संक्रमणi,j
  2. संभाव्यता α के साथ j को बताने के लिए श्रृंखला का संचलनi,j और प्रायिकता 1 - α के साथ i में रहता हैi,j.[2]


महानगर-युग्मित एमसीएमसी

मेट्रोपोलिस-युग्मित एमसीएमसी एल्गोरिदम (एमसी³) [10] जब लक्ष्य वितरण में कई स्थानीय चोटियाँ होती हैं, जो कम घाटियों से अलग होती हैं, तो पेड़ की जगह में मौजूद होने के लिए मार्कोव श्रृंखला की व्यावहारिक चिंता को हल करने का प्रस्ताव दिया गया है। अधिकतम पारसीमोनी (एमपी), अधिकतम संभावना (एमएल), और न्यूनतम विकास (एमई) मानदंड के तहत अनुमानी वृक्ष खोज के दौरान यही स्थिति है, और एमसीएमसी का उपयोग करके स्टोकेस्टिक वृक्ष खोज के लिए भी यही उम्मीद की जा सकती है। इस समस्या के परिणामस्वरूप नमूने पश्च घनत्व का सही ढंग से अनुमान नहीं लगा पाएंगे। (एमसी³) पश्च घनत्व में कई स्थानीय चोटियों की उपस्थिति में मार्कोव श्रृंखलाओं के मिश्रण में सुधार करता है। यह समानांतर में कई (एम) श्रृंखला चलाता है, प्रत्येक एन पुनरावृत्तियों के लिए और विभिन्न स्थिर वितरण के साथ , , जहां पहला वाला, जबकि लक्ष्य घनत्व है , मिश्रण को बेहतर बनाने के लिए चुना जाता है। उदाहरण के लिए, कोई प्रपत्र का वृद्धिशील तापन चुन सकता है:

ताकि पहली श्रृंखला सही लक्ष्य घनत्व वाली ठंडी सांकल हो, जबकि चेन गर्म जंजीरें हैं. ध्यान दें कि घनत्व बढ़ाना सत्ता के लिए साथ किसी धातु को गर्म करने के समान, वितरण को समतल करने का प्रभाव होता है। ऐसे वितरण में, मूल वितरण की तुलना में चोटियों (घाटियों द्वारा अलग) के बीच पार करना आसान होता है। प्रत्येक पुनरावृत्ति के बाद, मेट्रोपोलिस-प्रकार के चरण के माध्यम से दो यादृच्छिक रूप से चुनी गई श्रृंखलाओं के बीच राज्यों की अदला-बदली प्रस्तावित है। होने देना श्रृंखला में वर्तमान स्थिति हो , . जंजीरों की अवस्थाओं के बीच अदला-बदली और संभाव्यता के साथ स्वीकार किया जाता है:

रन के अंत में, केवल कोल्ड चेन से प्राप्त आउटपुट का उपयोग किया जाता है, जबकि हॉट चेन से प्राप्त आउटपुट को हटा दिया जाता है। अनुमानतः, गर्म शृंखलाएँ आसानी से स्थानीय चोटियों पर जाएँगी, और शृंखलाओं के बीच राज्यों की अदला-बदली से शीत शृंखला कभी-कभी घाटियों में कूद जाएगी, जिससे बेहतर मिश्रण होगा। हालांकि, यदि अस्थिर है, प्रस्तावित स्वैप को शायद ही कभी स्वीकार किया जाएगा। यही कारण है कि कई श्रृंखलाओं का उपयोग किया जाता है जो केवल क्रमिक रूप से भिन्न होती हैं।

एल्गोरिथम का एक स्पष्ट नुकसान यह है शृंखलाएँ चलाई जाती हैं और अनुमान के लिए केवल एक शृंखला का उपयोग किया जाता है। इस कारण से, समानांतर मशीनों पर कार्यान्वयन के लिए आदर्श रूप से उपयुक्त है, क्योंकि सामान्य तौर पर प्रत्येक श्रृंखला को प्रति पुनरावृत्ति समान मात्रा में गणना की आवश्यकता होगी।

लार्जेट और साइमन का स्थानीय एल्गोरिदम

स्थानीय एल्गोरिदम[11] पिछले तरीकों की तुलना में कम्प्यूटेशनल लाभ प्रदान करता है और दर्शाता है कि बायेसियन दृष्टिकोण बड़े पेड़ों में व्यावहारिक रूप से अनिश्चितता का आकलन करने में सक्षम है। LOCAL एल्गोरिथम माउ, न्यूटन और लार्जेट (1999) में प्रस्तुत ग्लोबल एल्गोरिथम का सुधार है।[12] जिसमें प्रत्येक चक्र में सभी शाखाओं की लंबाई बदल जाती है। LOCAL एल्गोरिदम यादृच्छिक रूप से पेड़ की आंतरिक शाखा का चयन करके पेड़ को संशोधित करता है। इस शाखा के सिरों पर प्रत्येक नोड दो अन्य शाखाओं से जुड़ा हुआ है। प्रत्येक जोड़ी में से एक को यादृच्छिक रूप से चुना जाता है। इन तीन चयनित किनारों को लेने और उन्हें बाएं से दाएं कपड़े की रस्सी की तरह बांधने की कल्पना करें, जहां दिशा (बाएं/दाएं) भी यादृच्छिक रूप से चुनी गई है। चयनित पहली शाखा के दो अंतिम बिंदुओं पर एक उप-वृक्ष लाइन से बंधे कपड़े के टुकड़े की तरह लटका हुआ होगा। एल्गोरिथ्म तीन चयनित शाखाओं को एक सामान्य यादृच्छिक राशि से गुणा करके आगे बढ़ता है, जैसे कपड़े की रेखा को खींचना या सिकोड़ना। अंत में दो लटकते उप-वृक्षों में से सबसे बाईं ओर को काट दिया जाता है और यादृच्छिक रूप से समान रूप से चयनित स्थान पर कपड़े की रेखा से दोबारा जोड़ दिया जाता है। यह उम्मीदवार वृक्ष होगा.

मान लीजिए कि हमने लंबाई के साथ आंतरिक शाखा का चयन करके शुरुआत की जो टैक्सा को अलग करता है और शेष में से। मान लीजिए कि हमारे पास लंबाई सहित (यादृच्छिक रूप से) चयनित शाखाएँ हैं और प्रत्येक तरफ से, और हमने इन शाखाओं को उन्मुख किया। होने देना , कपड़े की लाइन की वर्तमान लंबाई हो। हम नई लंबाई का चयन करते हैं , कहाँ पर एक समान यादृच्छिक चर है . फिर LOCAL एल्गोरिथम के लिए, स्वीकृति संभावना की गणना इस प्रकार की जा सकती है:


अभिसरण का आकलन

एक शाखा की लंबाई का अनुमान लगाने के लिए जे.सी. के नीचे एक 2-टैक्सन वृक्ष का, जिसमें साइटें विविध हैं और परिवर्तनशील हैं, दर के साथ घातीय पूर्व वितरण मानते हैं . घनत्व है . संभावित साइट पैटर्न की संभावनाएँ हैं:

विभिन्न साइटों के लिए, और

इस प्रकार असामान्य पश्च वितरण है:

या, वैकल्पिक रूप से,

आधी-चौड़ाई वाली विंडो से यादृच्छिक रूप से समान रूप से नया मान चुनकर शाखा की लंबाई अपडेट करें वर्तमान मूल्य पर केन्द्रित:

कहाँ के बीच समान रूप से वितरित किया जाता है और . अनुमोदन संभावना है:

उदाहरण: , . हम दो मानों के परिणामों की तुलना करेंगे , और . प्रत्येक मामले में, हम प्रारंभिक लंबाई से शुरुआत करेंगे और लंबाई अद्यतन करें बार.

अधिकतम कंजूसी और अधिकतम संभावना

टाइगर फ़ाइलोजेनेटिक संबंध, बूटस्ट्रैप मान शाखाओं में दिखाए गए हैं।
लंबी शाखा आकर्षण का उदाहरण. लंबी शाखाएँ (ए और सी) अधिक निकटता से संबंधित प्रतीत होती हैं।

फ़ाइलोजेनेटिक पेड़ों के पुनर्निर्माण के लिए कई दृष्टिकोण हैं, जिनमें से प्रत्येक के फायदे और नुकसान हैं, और "सबसे अच्छा तरीका क्या है?" इसका कोई सीधा जवाब नहीं है। अधिकतम पारसीमोनी (एमपी) और अधिकतम संभावना (एमएल) पारंपरिक तरीके हैं जिनका व्यापक रूप से फाइलोजेनी के आकलन के लिए उपयोग किया जाता है और दोनों सीधे चरित्र जानकारी का उपयोग करते हैं, जैसा कि बायेसियन विधियां करती हैं।

मैक्सिमम पार्सिमोनी टैक्सा के एक निश्चित समूह के लिए अलग-अलग वर्णों के मैट्रिक्स के आधार पर एक या एक से अधिक इष्टतम पेड़ों को पुनर्प्राप्त करता है और इसके लिए विकासवादी परिवर्तन के मॉडल की आवश्यकता नहीं होती है। एमपी डेटा के दिए गए सेट के लिए सबसे सरल स्पष्टीकरण देता है, एक फ़ाइलोजेनेटिक पेड़ का पुनर्निर्माण करता है जिसमें अनुक्रमों में यथासंभव कम बदलाव शामिल होते हैं। पेड़ की शाखाओं का समर्थन बूटस्ट्रैपिंग#फ़ाइलोजेनेटिक्स प्रतिशत द्वारा दर्शाया गया है। इसी कारण से कि इसका व्यापक रूप से उपयोग किया गया है, इसकी सादगी के कारण, एमपी को भी आलोचना मिली है और इसे एमएल और बायेसियन तरीकों द्वारा पृष्ठभूमि में धकेल दिया गया है। एमपी कई समस्याएं और सीमाएँ प्रस्तुत करता है। जैसा कि फेल्सेंस्टीन (1978) द्वारा दिखाया गया है, एमपी सांख्यिकीय रूप से असंगत हो सकता है,[13] इसका मतलब यह है कि जैसे-जैसे अधिक से अधिक डेटा (जैसे अनुक्रम लंबाई) जमा होता है, परिणाम एक गलत पेड़ पर एकत्रित हो सकते हैं और लंबी शाखा आकर्षण का कारण बन सकते हैं, एक फ़ाइलोजेनेटिक घटना जहां लंबी शाखाओं (कई चरित्र स्थिति परिवर्तन) के साथ टैक्सा अधिक निकटता से संबंधित दिखाई देते हैं वे वास्तव में जितने हैं उससे कहीं अधिक फ़ाइलोजेनी। रूपात्मक डेटा के लिए, हाल के सिमुलेशन अध्ययनों से पता चलता है कि बायेसियन दृष्टिकोण का उपयोग करके बनाए गए पेड़ों की तुलना में पारसीमोनी कम सटीक हो सकती है,[14] संभवतः अत्यधिक परिशुद्धता के कारण,[15] हालाँकि इस पर विवाद हो चुका है।[16] उपन्यास सिमुलेशन विधियों का उपयोग करने वाले अध्ययनों से पता चला है कि अनुमान विधियों के बीच अंतर उपयोग की गई अनुकूलन के बजाय नियोजित खोज रणनीति और आम सहमति विधि से उत्पन्न होता है।[17] अधिकतम कंजूसी की तरह, अधिकतम संभावना वैकल्पिक पेड़ों का मूल्यांकन करेगी। हालाँकि यह विकास के मॉडल के आधार पर दिए गए डेटा की व्याख्या करने वाले प्रत्येक पेड़ की संभावना पर विचार करता है। इस मामले में, डेटा को समझाने की सबसे अधिक संभावना वाले पेड़ को अन्य पेड़ों की तुलना में चुना जाता है।[18] दूसरे शब्दों में, यह तुलना करता है कि विभिन्न पेड़ प्रेक्षित डेटा की भविष्यवाणी कैसे करते हैं। एमएल विश्लेषण में विकास के एक मॉडल की शुरूआत एमपी पर एक फायदा प्रस्तुत करती है क्योंकि न्यूक्लियोटाइड प्रतिस्थापन की संभावना और इन प्रतिस्थापनों की दरों को ध्यान में रखा जाता है, जिससे टैक्सा के फाइलोजेनेटिक संबंधों को और अधिक यथार्थवादी तरीके से समझाया जाता है। इस पद्धति का एक महत्वपूर्ण विचार शाखा की लंबाई है, जिसे कंजूस लोग नजरअंदाज कर देते हैं, छोटी शाखाओं की तुलना में लंबी शाखाओं में परिवर्तन होने की अधिक संभावना होती है। यह दृष्टिकोण लंबी शाखा के आकर्षण को समाप्त कर सकता है और एमपी की तुलना में एमएल की अधिक स्थिरता को समझा सकता है। हालाँकि सैद्धांतिक दृष्टिकोण से फ़ाइलोजेनी का अनुमान लगाने के लिए इसे कई लोग सबसे अच्छा तरीका मानते हैं, लेकिन एमएल कम्प्यूटेशनल रूप से गहन है और सभी पेड़ों का पता लगाना लगभग असंभव है क्योंकि बहुत सारे पेड़ हैं। बायेसियन अनुमान में विकास का एक मॉडल भी शामिल है और एमपी और एमएल पर मुख्य लाभ यह है कि यह पारंपरिक तरीकों की तुलना में कम्प्यूटेशनल रूप से अधिक कुशल है, यह अनिश्चितता के स्रोत को मापता है और संबोधित करता है और विकास के जटिल मॉडल को शामिल करने में सक्षम है।

नुकसान और विवाद

  • बूटस्ट्रैप मान बनाम पश्च संभावनाएँ। यह देखा गया है कि बूटस्ट्रैप समर्थन मान, पारसीमोनी या अधिकतम संभावना के तहत गणना की जाती है, बायेसियन अनुमान द्वारा प्राप्त पिछली संभावनाओं से कम होती है।[19][20][21][22][23] इससे कई प्रश्न उठते हैं जैसे: क्या पिछली संभावनाओं के कारण परिणामों पर अतिविश्वास हो जाता है?[24] क्या बूटस्ट्रैप मान पिछली संभावनाओं से अधिक मजबूत हैं?
  • पूर्व संभावनाओं का उपयोग करने का विवाद। बायेसियन विश्लेषण के लिए पूर्व संभावनाओं का उपयोग करना कई लोगों द्वारा एक लाभ के रूप में देखा गया है क्योंकि यह विश्लेषण किए जा रहे डेटा के अलावा अन्य स्रोतों से जानकारी को शामिल करने का एक तरीका प्रदान करता है। हालाँकि, जब ऐसी बाहरी जानकारी की कमी होती है, तो किसी को पूर्व का उपयोग करने के लिए मजबूर किया जाता है, भले ही कुल अज्ञानता का प्रतिनिधित्व करने के लिए सांख्यिकीय वितरण का उपयोग करना असंभव हो। यह भी एक चिंता का विषय है कि बायेसियन पश्च संभावनाएँ व्यक्तिपरक राय को प्रतिबिंबित कर सकती हैं जब पूर्व मनमाना और व्यक्तिपरक हो।
  • मॉडल का चयन. फाइलोजेनी के बायेसियन विश्लेषण के परिणाम सीधे तौर पर चुने गए विकास के मॉडल से संबंधित होते हैं, इसलिए ऐसा मॉडल चुनना महत्वपूर्ण है जो देखे गए डेटा के अनुकूल हो, अन्यथा फाइलोजेनी में अनुमान गलत होंगे। कई वैज्ञानिकों ने मॉडल अज्ञात या गलत होने पर बायेसियन अनुमान की व्याख्या पर सवाल उठाए हैं। उदाहरण के लिए, एक अति सरलीकृत मॉडल उच्चतर पश्च संभावनाएँ दे सकता है।[19][25]


MrBayes सॉफ़्टवेयर

मिस्टरबेयस एक मुफ्त सॉफ्टवेयर टूल है जो फाइलोजेनी का बायेसियन अनुमान लगाता है। यह मूल रूप से 2001 में जॉन पी. ह्यूलसेनबेक और फ्रेडरिक रॉनक्विस्ट द्वारा लिखा गया था।[26] जैसे-जैसे बायेसियन तरीकों की लोकप्रियता बढ़ती गई, मिस्टरबेयस कई आणविक फ़ाइलोजेनेटिकिस्टों के लिए पसंद के सॉफ़्टवेयर में से एक बन गया। यह मैकिंटोश, विंडोज़ और यूनिक्स ऑपरेटिंग सिस्टम के लिए पेश किया गया है और इसमें एक कमांड-लाइन इंटरफ़ेस है। कार्यक्रम मानक एमसीएमसी एल्गोरिदम के साथ-साथ मेट्रोपोलिस युग्मित एमसीएमसी संस्करण का उपयोग करता है। मिस्टरबेयस मानक नेक्सस फ़ाइल में अनुक्रमों (डीएनए या अमीनो एसिड) के संरेखित मैट्रिक्स को पढ़ता है।[27] मिस्टरबेयस पेड़ों की पिछली संभावनाओं का अनुमान लगाने के लिए एमसीएमसी का उपयोग करता है।[9]उपयोगकर्ता प्रतिस्थापन मॉडल, प्राथमिकताओं और एमसी³ विश्लेषण के विवरण की धारणाओं को बदल सकता है। यह उपयोगकर्ता को विश्लेषण में टैक्सा और वर्णों को हटाने और जोड़ने की भी अनुमति देता है। कार्यक्रम डीएनए प्रतिस्थापन के सबसे मानक मॉडल का उपयोग करता है, 4x4 जिसे जेसी69 भी कहा जाता है, जो मानता है कि न्यूक्लियोटाइड में परिवर्तन समान संभावना के साथ होते हैं।[28] यह अमीनो एसिड प्रतिस्थापन के कई 20x20 मॉडल और डीएनए प्रतिस्थापन के कोडन मॉडल भी लागू करता है। यह न्यूक्लियोटाइड साइटों पर समान प्रतिस्थापन दर की धारणा को शिथिल करने के लिए विभिन्न तरीके प्रदान करता है।[29] मिस्टरबेयस फ़ाइलोजेनेटिक ट्री और मॉडल मापदंडों में अनिश्चितता को समायोजित करने वाले पैतृक राज्यों का अनुमान लगाने में भी सक्षम है।

मिस्टरबेयस 3[30] मूल मिस्टरबेयस का पूर्णतः पुनर्गठित और पुनर्गठित संस्करण था। मुख्य नवीनता डेटा सेट की विविधता को समायोजित करने की सॉफ़्टवेयर की क्षमता थी। यह नया ढांचा उपयोगकर्ता को विभिन्न प्रकार के डेटा (जैसे प्रोटीन, न्यूक्लियोटाइड और मॉर्फोलॉजिकल) से निपटने के दौरान मॉडलों को मिश्रित करने और बायेसियन एमसीएमसी विश्लेषण की दक्षता का लाभ उठाने की अनुमति देता है। यह डिफ़ॉल्ट रूप से मेट्रोपोलिस-कपलिंग एमसीएमसी का उपयोग करता है।

मिस्टरबेयस 3.2 2012 में रिलीज़ हुआ था[31] नया संस्करण उपयोगकर्ताओं को समानांतर में कई विश्लेषण चलाने की अनुमति देता है। यह तेज़ संभावना गणना भी प्रदान करता है और इन गणनाओं को ग्राफिक्स प्रोसेसिंग यूनिट्स (जीपीयू) को सौंपने की अनुमति देता है। संस्करण 3.2 फिगट्री और अन्य ट्री व्यूअर्स के साथ संगत व्यापक आउटपुट विकल्प प्रदान करता है।

फ़ाइलोजेनेटिक्स सॉफ़्टवेयर की सूची

इस तालिका में बायेसियन ढांचे के तहत फ़ाइलोजेनी का अनुमान लगाने के लिए उपयोग किए जाने वाले कुछ सबसे सामान्य फ़ाइलोजेनेटिक सॉफ़्टवेयर शामिल हैं। उनमें से कुछ विशेष रूप से बायेसियन तरीकों का उपयोग नहीं करते हैं।

Name Description Method Author Website link
MrBayes Phylogenetic inference A program for Bayesian inference and model choice across a wide range of phylogenetic and evolutionary models. Zangh, Huelsenbeck, Der Mark, Ronquist & Teslenko https://nbisweden.github.io/MrBayes/
BEAST Bayesian Evolutionary Analysis Sampling Trees Bayesian inference, relaxed molecular clock, demographic history A. J. Drummond, A. Rambaut & M. A. Suchard [32] https://beast.community
BEAST 2 A software platform for Bayesian evolutionary analysis Bayesian inference, packages, multiple models R Bouckaert, J Heled, D Kühnert, T Vaughan, CH Wu, D Xie, MA Suchard, A Rambaut, AJ Drummond.[33] http://www.beast2.org
PhyloBayes / PhyloBayes MPI Bayesian Monte Carlo Markov Chain (MCMC) sampler for phylogenetic reconstruction. Non-parametric methods for modeling among-site variation in nucleotide or amino-acid propensities. N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer [34] http://www.atgc-montpellier.fr/phylobayes/
Bali-Phy Simultaneous Bayesian inference of alignment and phylogeny Bayesian inference, alignment as well as tree search Suchard MA, Redelings BD[35] http://www.bali-phy.org
BUCKy Bayesian concordance of gene trees Bayesian concordance using modified greedy consensus of unrooted quartets C. Ané, B. Larget, D.A. Baum, S.D. Smith, A. Rokas and B. Larget, S.K. Kotha, C.N. Dewey, C. Ané[36] http://www.stat.wisc.edu/~ane/bucky/
BATWING Bayesian Analysis of Trees With Internal Node Generation Bayesian inference, demographic history, population splits I. J. Wilson, D. Weale, D.Balding [37] http://www.maths.abdn.ac.uk/˜ijw[permanent dead link]
Bayes Phylogenies Bayesian inference of trees using Markov Chain Monte Carlo methods Bayesian inference, multiple models, mixture model (auto-partitioning) M. Pagel, A. Meade[38] http://www.evolution.rdg.ac.uk/BayesPhy.html Archived 2020-02-19 at the Wayback Machine
Armadillo Workflow Platform Workflow platform dedicated to phylogenetic and general bioinformatic analysis GUI wrapper around MrBayes E. Lord, M. Leclercq, A. Boc, A.B. Diallo and V. Makarenkov[39] https://github.com/armadilloUQAM/armadillo2/
Geneious (MrBayes plugin) Geneious provides genome and proteome research tools GUI wrapper around MrBayes A. J. Drummond,M.Suchard,V.Lefort et al. http://www.geneious.com
TOPALi Phylogenetic inference GUI wrapper around MrBayes I.Milne, D.Lindner, et al.[40] http://www.topali.org


अनुप्रयोग

Bayesian Inference has extensively been used by molecular phylogeneticists for a wide number of applications. Some of these include:

BEAST का उपयोग करके आणविक घड़ी विश्लेषण से प्राप्त क्रोनोग्राम। प्रत्येक नोड में पाई चार्ट बायेसियन बाइनरी एमसीएमसी विश्लेषण (बीबीएम) से अनुमानित संभावित पैतृक वितरण को इंगित करता है।

* फ़ाइलोजेनीज़ का अनुमान।[41][42]

  • फ़ाइलोजेनीज़ की अनिश्चितता का अनुमान और मूल्यांकन।[43]
  • पैतृक चरित्र अवस्था विकास का अनुमान।[44][45]
  • पैतृक क्षेत्रों का अनुमान।[46]
  • आणविक डेटिंग विश्लेषण।[47][48]
  • प्रजातियों के विविधीकरण और विलुप्त होने की मॉडल गतिशीलता[49]
  • रोगज़नक़ों के फैलाव में पैटर्न को स्पष्ट करें।[50]
  • फेनोटाइपिक लक्षण विकास का अनुमान।[51][52]

संदर्भ

  1. Rannala, Bruce; Yang, Ziheng (September 1996). "Probability distribution of molecular evolutionary trees: A new method of phylogenetic inference". Journal of Molecular Evolution. 43 (3): 304–311. Bibcode:1996JMolE..43..304R. doi:10.1007/BF02338839. PMID 8703097. S2CID 8269826.
  2. 2.0 2.1 Yang, Z.; Rannala, B. (1 July 1997). "Bayesian phylogenetic inference using DNA sequences: a Markov Chain Monte Carlo Method". Molecular Biology and Evolution. 14 (7): 717–724. doi:10.1093/oxfordjournals.molbev.a025811. PMID 9214744.
  3. Mau, Bob; Newton, Michael A.; Larget, Bret (March 1999). "मार्कोव चेन मोंटे कार्लो विधियों के माध्यम से बायेसियन फाइलोजेनेटिक अनुमान". Biometrics. 55 (1): 1–12. doi:10.1111/j.0006-341x.1999.00001.x. JSTOR 2533889. PMID 11318142. S2CID 932887.
  4. Li, Shuying; Pearl, Dennis K.; Doss, Hani (June 2000). "मार्कोव चेन मोंटे कार्लो का उपयोग करके फ़ाइलोजेनेटिक वृक्ष निर्माण". Journal of the American Statistical Association. 95 (450): 493–508. doi:10.1080/01621459.2000.10474227. JSTOR 2669394. S2CID 122459537.
  5. Huelsenbeck, J. P.; Ronquist, F. (1 August 2001). "MRBAYES: Bayesian inference of phylogenetic trees". Bioinformatics. 17 (8): 754–755. doi:10.1093/bioinformatics/17.8.754. PMID 11524383.
  6. Laplace P (1774). "घटनाओं द्वारा कारणों की संभाव्यता पर संस्मरण". L'Académie Royale des Sciences. 6: 621–656. NAID 10010866843. English translation by Stigler SM (1986). "Memoir on the Probability of the Causes of Events". Statistical Science. 1 (3): 359–378. doi:10.1214/ss/1177013620.
  7. Nascimento, Fabrícia F.; Reis, Mario dos; Yang, Ziheng (October 2017). "बायेसियन फाइलोजेनेटिक विश्लेषण के लिए एक जीवविज्ञानी की मार्गदर्शिका". Nature Ecology & Evolution. 1 (10): 1446–1454. doi:10.1038/s41559-017-0280-x. PMC 5624502. PMID 28983516.
  8. Hastings WK (April 1970). "मार्कोव श्रृंखलाओं और उनके अनुप्रयोगों का उपयोग करके मोंटे कार्लो नमूनाकरण विधियाँ". Biometrika. 57 (1): 97–109. Bibcode:1970Bimka..57...97H. doi:10.1093/biomet/57.1.97.
  9. 9.0 9.1 Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH, Teller E (June 1953). "तेज़ कंप्यूटिंग मशीनों द्वारा राज्य गणना का समीकरण". The Journal of Chemical Physics. 21 (6): 1087–92. Bibcode:1953JChPh..21.1087M. doi:10.1063/1.1699114. OSTI 4390578. S2CID 1046577.
  10. Geyer CJ (1991). "Markov chain Monte Carlo maximum likelihood.". In Keramidas EM, Kaufman SM (eds.). Computing Science and Statistics: Proceedings of the 23rd Symposium on the Interface. Fairfax Station: Interface Foundation. pp. 156–163. OCLC 26603816.
  11. Larget B, Simon DL (June 1999). "फ़ाइलोजेनेटिक पेड़ों के बायेसियन विश्लेषण के लिए मार्कोव श्रृंखला मोंटे कार्लो एल्गोरिदम". Molecular Biology and Evolution. 16 (6): 750–9. doi:10.1093/oxfordjournals.molbev.a026160.
  12. Mau B, Newton MA, Larget B (March 1999). "मार्कोव श्रृंखला मोंटे कार्लो विधियों के माध्यम से बायेसियन फ़ाइलोजेनेटिक अनुमान". Biometrics. 55 (1): 1–12. doi:10.1111/j.0006-341x.1999.00001.x. PMID 11318142. S2CID 932887.
  13. Felsenstein J (December 1978). "ऐसे मामले जिनमें कंजूसी या अनुकूलता के तरीके सकारात्मक रूप से भ्रामक होंगे". Systematic Zoology. 27 (4): 401–10. doi:10.1093/sysbio/27.4.401.
  14. Castorani MC, Reed DC, Raimondi PT, Alberto F, Bell TW, Cavanaugh KC, et al. (January 2017). "जनसंख्या उर्वरता में उतार-चढ़ाव जनसांख्यिकीय कनेक्टिविटी और मेटापॉप्यूलेशन गतिशीलता में भिन्नता उत्पन्न करता है". Proceedings. Biological Sciences. 284 (1847): 20162086. doi:10.1098/rspb.2016.2086. PMC 5310032. PMID 28123088.
  15. O'Reilly JE, Puttick MN, Parry L, Tanner AR, Tarver JE, Fleming J, Pisani D, Donoghue PC (April 2016). "बायेसियन विधियाँ पारसीमोनी से बेहतर प्रदर्शन करती हैं लेकिन असतत रूपात्मक डेटा से फाइलोजेनी के अनुमान में सटीकता की कीमत पर". Biology Letters. 12 (4): 20160081. doi:10.1098/rsbl.2016.0081. PMC 4881353. PMID 27095266.
  16. Goloboff PA, Torres A, Arias JS (2018). "आकृति विज्ञान के लिए उपयुक्त मॉडल के तहत भारित पारसीमोनी फ़ाइलोजेनेटिक अनुमान के अन्य तरीकों से बेहतर प्रदर्शन करती है". Cladistics. 34 (4): 407–437. doi:10.1111/cla.12205. ISSN 0748-3007. PMID 34649370.
  17. Keating JN, Sansom RS, Sutton MD, Knight CG, Garwood RJ (February 2020). "उपन्यास विकासवादी सिमुलेशन का उपयोग करके मॉर्फोलॉजिकल फ़ाइलोजेनेटिक्स का मूल्यांकन किया गया". Systematic Biology. 69 (5): 897–912. doi:10.1093/sysbio/syaa012. PMC 7440746. PMID 32073641.
  18. Swofford DL, Olsen GJ, Waddell PJ, Hillis DM (1996). "Phylogenetic inference". In Hillis DM, Moritz C, Mable BK (eds.). Molecular Systematics, 2nd edition. Sunderland, MA: Sinauer. pp. 407–514. ISBN 9780878932825.
  19. 19.0 19.1 Suzuki Y, Glazko GV, Nei M (December 2002). "बायेसियन फ़ाइलोजेनेटिक्स द्वारा प्राप्त आणविक फ़ाइलोजेनीज़ की अत्यधिक विश्वसनीयता". Proceedings of the National Academy of Sciences of the United States of America. 99 (25): 16138–43. Bibcode:2002PNAS...9916138S. doi:10.1073/pnas.212646199. PMC 138578. PMID 12451182.
  20. Alfaro ME, Zoller S, Lutzoni F (February 2003). "Bayes or bootstrap? A simulation study comparing the performance of Bayesian Markov chain Monte Carlo sampling and bootstrapping in assessing phylogenetic confidence". Molecular Biology and Evolution. 20 (2): 255–66. doi:10.1093/molbev/msg028. PMID 12598693.
  21. Douady CJ, Delsuc F, Boucher Y, Doolittle WF, Douzery EJ (February 2003). "बायेसियन की तुलना और फ़ाइलोजेनेटिक विश्वसनीयता के अधिकतम संभावना बूटस्ट्रैप उपाय". Molecular Biology and Evolution. 20 (2): 248–54. doi:10.1093/molbev/msg042. PMID 12598692.
  22. García-Sandoval R (January 2014). "क्यों कुछ समूहों में कम बूटस्ट्रैप आवृत्तियाँ और उच्च बायेसियन पश्च संभावनाएँ होती हैं". Israel Journal of Ecology & Evolution. 60 (1): 41–4. doi:10.1080/15659801.2014.937900.
  23. Yang, Z. (18 April 2007). "फेयर-बैलेंस पैराडॉक्स, स्टार-ट्री पैराडॉक्स, और बायेसियन फाइलोजेनेटिक्स". Molecular Biology and Evolution. 24 (8): 1639–1655. doi:10.1093/molbev/msm081. PMID 17488737.
  24. Yang, Ziheng; Zhu, Tianqi (20 February 2018). "गलत निर्दिष्ट मॉडलों का बायेसियन चयन अति आत्मविश्वासपूर्ण है और फ़ाइलोजेनेटिक पेड़ों के लिए नकली पश्च संभावनाओं का कारण बन सकता है". Proceedings of the National Academy of Sciences. 115 (8): 1854–1859. Bibcode:2018PNAS..115.1854Y. doi:10.1073/pnas.1712673115. PMC 5828583. PMID 29432193.
  25. Erixon P, Svennblad B, Britton T, Oxelman B (October 2003). "फ़ाइलोजेनेटिक्स में बायेसियन पश्च संभावनाओं और बूटस्ट्रैप आवृत्तियों की विश्वसनीयता". Systematic Biology. 52 (5): 665–73. doi:10.1080/10635150390235485. PMID 14530133.
  26. Huelsenbeck JP, Ronquist F (August 2001). "MRBAYES: Bayesian inference of phylogenetic trees". Bioinformatics. Oxford, England. 17 (8): 754–5. doi:10.1093/bioinformatics/17.8.754. PMID 11524383.
  27. Maddison DR, Swofford DL, Maddison WP (December 1997). "NEXUS: an extensible file format for systematic information". Systematic Biology. 46 (4): 590–621. doi:10.1093/sysbio/46.4.590. PMID 11975335.
  28. Jukes TH, Cantor CR (1969). प्रोटीन अणुओं का विकास. New York: Academic Press. pp. 21–132.
  29. Yang Z (November 1993). "जब प्रतिस्थापन दरें साइटों पर भिन्न होती हैं तो डीएनए अनुक्रमों से फाइलोजेनी की अधिकतम संभावना का अनुमान". Molecular Biology and Evolution. 10 (6): 1396–401. doi:10.1093/oxfordjournals.molbev.a040082. PMID 8277861.
  30. Ronquist F, Huelsenbeck JP (August 2003). "MrBayes 3: Bayesian phylogenetic inference under mixed models". Bioinformatics. Oxford, England. 19 (12): 1572–4. doi:10.1093/bioinformatics/btg180. PMID 12912839.
  31. Ronquist F, Teslenko M, van der Mark P, Ayres DL, Darling A, Höhna S, Larget B, Liu L, Suchard MA, Huelsenbeck JP (May 2012). "MrBayes 3.2: efficient Bayesian phylogenetic inference and model choice across a large model space". Systematic Biology. 61 (3): 539–42. doi:10.1093/sysbio/sys029. PMC 3329765. PMID 22357727.
  32. Drummond AJ, Suchard MA, Xie D, Rambaut A (August 2012). "Bayesian phylogenetics with BEAUti and the BEAST 1.7". Molecular Biology and Evolution. 29 (8): 1969–73. doi:10.1093/molbev/mss075. PMC 3408070. PMID 22367748.
  33. Bouckaert R, Heled J, Kühnert D, Vaughan T, Wu CH, Xie D, Suchard MA, Rambaut A, Drummond AJ (April 2014). "BEAST 2: a software platform for Bayesian evolutionary analysis". PLOS Computational Biology. 10 (4): e1003537. Bibcode:2014PLSCB..10E3537B. doi:10.1371/journal.pcbi.1003537. PMC 3985171. PMID 24722319.
  34. Lartillot N, Philippe H (June 2004). "A Bayesian mixture model for across-site heterogeneities in the amino-acid replacement process". Molecular Biology and Evolution. 21 (6): 1095–109. doi:10.1093/molbev/msh112. PMID 15014145.
  35. Suchard MA, Redelings BD (August 2006). "BAli-Phy: simultaneous Bayesian inference of alignment and phylogeny". Bioinformatics. 22 (16): 2047–8. doi:10.1093/bioinformatics/btl175. PMID 16679334.
  36. Ané C, Larget B, Baum DA, Smith SD, Rokas A (February 2007). "Bayesian estimation of concordance among gene trees". Molecular Biology and Evolution. 24 (2): 412–26. doi:10.1093/molbev/msl170. PMID 17095535.
  37. Wilson IJ, Weale ME, Balding DJ (June 2003). "Inferences from DNA data: population histories, evolutionary processes and forensic match probabilities". Journal of the Royal Statistical Society, Series A (Statistics in Society). 166 (2): 155–88. doi:10.1111/1467-985X.00264.
  38. Pagel M, Meade A (June 2006). "Bayesian analysis of correlated evolution of discrete characters by reversible-jump Markov chain Monte Carlo". The American Naturalist. 167 (6): 808–25. doi:10.1086/503444. PMID 16685633. S2CID 205984494.
  39. Lord E, Leclercq M, Boc A, Diallo AB, Makarenkov V (2012). "Armadillo 1.1: an original workflow platform for designing and conducting phylogenetic analysis and simulations". PLOS ONE. 7 (1): e29903. Bibcode:2012PLoSO...729903L. doi:10.1371/journal.pone.0029903. PMC 3256230. PMID 22253821.
  40. Milne I, Lindner D, Bayer M, Husmeier D, McGuire G, Marshall DF, Wright F (January 2009). "TOPALi v2: a rich graphical interface for evolutionary analyses of multiple alignments on HPC clusters and multi-core desktops". Bioinformatics. 25 (1): 126–7. doi:10.1093/bioinformatics/btn575. PMC 2638937. PMID 18984599.
  41. Alonso R, Crawford AJ, Bermingham E (March 2012). "Molecular phylogeny of an endemic radiation of Cuban toads (Bufonidae: Peltophryne) based on mitochondrial and nuclear genes". Journal of Biogeography. 39 (3): 434–51. doi:10.1111/j.1365-2699.2011.02594.x. S2CID 4152245.
  42. Antonelli A, Sanmartín I (October 2011). "Mass extinction, gradual cooling, or rapid radiation? Reconstructing the spatiotemporal evolution of the ancient angiosperm genus Hedyosmum (Chloranthaceae) using empirical and simulated approaches". Systematic Biology. 60 (5): 596–615. doi:10.1093/sysbio/syr062. hdl:10261/34829. PMID 21856636.
  43. de Villemereuil P, Wells JA, Edwards RD, Blomberg SP (June 2012). "फ़ाइलोजेनेटिक अनिश्चितता को एकीकृत करने वाले तुलनात्मक विश्लेषण के लिए बायेसियन मॉडल". BMC Evolutionary Biology. 12: 102. doi:10.1186/1471-2148-12-102. PMC 3582467. PMID 22741602.
  44. Ronquist F (September 2004). "चरित्र विकास का बायेसियन अनुमान". Trends in Ecology & Evolution. 19 (9): 475–81. doi:10.1016/j.tree.2004.07.002. PMID 16701310.
  45. Schäffer S, Koblmüller S, Pfingstl T, Sturmbauer C, Krisper G (August 2010). "पैतृक राज्य पुनर्निर्माण से "हायर ओरिबेटिडा" (अकारी) में नैदानिक ​​रूपात्मक लक्षणों के कई स्वतंत्र विकास का पता चलता है, जो वर्तमान वर्गीकरण योजनाओं के साथ विरोधाभासी है।". BMC Evolutionary Biology. 10: 246. doi:10.1186/1471-2148-10-246. PMC 2930640. PMID 20701742. {{cite journal}}: zero width space character in |title= at position 66 (help)
  46. Filipowicz N, Renner SS (July 2012). "Brunfelsia (Solanaceae): a genus evenly divided between South America and radiations on Cuba and other Antillean islands". Molecular Phylogenetics and Evolution. 64 (1): 1–11. doi:10.1016/j.ympev.2012.02.026. PMID 22425729.
  47. Bacon CD, Baker WJ, Simmons MP (May 2012). "मियोसीन फैलाव पाम जनजाति ट्रैचीकारपी (एरेकेसी) में द्वीप विकिरण को संचालित करता है". Systematic Biology. 61 (3): 426–42. doi:10.1093/sysbio/syr123. PMID 22223444.
  48. Särkinen T, Bohs L, Olmstead RG, Knapp S (September 2013). "A phylogenetic framework for evolutionary study of the nightshades (Solanaceae): a dated 1000-tip tree". BMC Evolutionary Biology. 13: 214. doi:10.1186/1471-2148-13-214. PMC 3850475. PMID 24283922.
  49. Silvestro D, Schnitzler J, Liow LH, Antonelli A, Salamin N (May 2014). "अपूर्ण जीवाश्म घटना डेटा से प्रजाति और विलुप्त होने का बायेसियन अनुमान". Systematic Biology. 63 (3): 349–67. doi:10.1093/sysbio/syu006. PMC 4361715. PMID 24510972.
  50. Lemey P, Rambaut A, Drummond AJ, Suchard MA (September 2009). "बायेसियन फाइलोगोग्राफ़ी अपनी जड़ें ढूंढती है". PLOS Computational Biology. 5 (9): e1000520. Bibcode:2009PLSCB...5E0520L. doi:10.1371/journal.pcbi.1000520. PMC 2740835. PMID 19779555.
  51. Cybis G, Sinsheimer J, Bedford T, Mather A, Lemey P, Suchard MA (2015). "बहुभिन्नरूपी फाइलोजेनेटिक अव्यक्त दायित्व मॉडल के माध्यम से फेनोटाइपिक सहसंबंध का आकलन करना". The Annals of Applied Statistics. 9 (2): 969–991. doi:10.1214/15-AOAS821. ISSN 1932-6157. PMC 4820077. PMID 27053974.
  52. Tolkoff M, Alfaro M, Baele G, Lemey P, Suchard MA (2018). "फ़ाइलोजेनेटिक फ़ैक्टर विश्लेषण". Systematic Biology (in English). 67 (3): 384–399. doi:10.1093/sysbio/syx066. ISSN 1063-5157. PMC 5920329. PMID 28950376.


बाहरी संबंध