इंटरप्रो: Difference between revisions
No edit summary |
|||
(20 intermediate revisions by 4 users not shown) | |||
Line 3: | Line 3: | ||
| title = InterPro | | title = InterPro | ||
| logo = [[File:InterPro_logo.png]] | | logo = [[File:InterPro_logo.png]] | ||
| description = | | description = इंटरप्रो कार्यात्मक रूप से प्रोटीन अनुक्रमों का विश्लेषण करता है एवं [[प्रोटीन डोमेन|डोमेन]] एवं कार्यात्मक साइटों की उपस्थिति की भविष्यवाणी करते हुए उन्हें [[प्रोटीन सदस्यों]] में वर्गीकृत करता है। | ||
| scope = | | scope = | ||
| organism = | | organism = | ||
| center = [[ | | center = [[ईएमबीएल]] | ||
| laboratory = [[ | | laboratory = [[यूरोपीय जैव सूचना विज्ञान संस्थान]] | ||
| author = | | author = | ||
| citation = The InterPro protein families and domains database: | | citation = The InterPro protein families and domains database: | ||
Line 28: | Line 28: | ||
| version = 91.0 ({{release date and age|2022|10|13|df=yes}}) | | version = 91.0 ({{release date and age|2022|10|13|df=yes}}) | ||
}} | }} | ||
'''इंटरप्रो''' [[प्रोटीन परिवार|प्रोटीन सदस्य]], [[प्रोटीन डोमेन]] एवं कार्यात्मक साइटों का डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को कार्यात्मक रूप से चित्रित करने के लिए नए प्रोटीन अनुक्रमों पर प्रस्तावित किया जा सकता है।<ref name=pmid22096229>{{cite journal | vauthors = Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, Bernard T, Binns D, Bork P, Burge S, de Castro E, Coggill P, Corbett M, Das U, Daugherty L, Duquenne L, Finn RD, Fraser M, Gough J, Haft D, Hulo N, Kahn D, Kelly E, Letunic I, Lonsdale D, Lopez R, Madera M, Maslen J, McAnulla C, McDowall J, McMenamin C, Mi H, Mutowo-Muellenet P, Mulder N, Natale D, Orengo C, Pesseat S, Punta M, Quinn AF, Rivoire C, Sangrador-Vegas A, Selengut JD, Sigrist CJ, Scheremetjew M, Tate J, Thimmajanarthanan M, Thomas PD, Wu CH, Yeats C, Yong SY | display-authors = 6 | title = InterPro in 2011: new developments in the family and domain prediction database | journal = Nucleic Acids Research | volume = 40 | issue = Database issue | pages = D306-12 | date = January 2012 | pmid = 22096229 | pmc = 3245097 | doi = 10.1093/nar/gkr948 }}</ref> <ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Nucleic Acids Research | volume = 29 | issue = 1 | pages = 37–40 | date = January 2001 | pmid = 11125043 | pmc = 29841 | doi = 10.1093/nar/29.1.37 | author-link11 = Richard M. Durbin | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref><ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Bioinformatics | volume = 16 | issue = 12 | pages = 1145–50 | date = December 2000 | pmid = 11159333 | doi = 10.1093/bioinformatics/16.12.1145 | author-link11 = Richard M. Durbin | doi-access = free | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref>इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर एवं प्रोटीन सम्मिलित हैं जो महत्वपूर्ण रूप से समान होते हैं। हस्ताक्षरों में | '''इंटरप्रो''' [[प्रोटीन परिवार|प्रोटीन सदस्य]], [[प्रोटीन डोमेन]] एवं कार्यात्मक साइटों का डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को कार्यात्मक रूप से चित्रित करने के लिए नए प्रोटीन अनुक्रमों पर प्रस्तावित किया जा सकता है।<ref name=pmid22096229>{{cite journal | vauthors = Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, Bernard T, Binns D, Bork P, Burge S, de Castro E, Coggill P, Corbett M, Das U, Daugherty L, Duquenne L, Finn RD, Fraser M, Gough J, Haft D, Hulo N, Kahn D, Kelly E, Letunic I, Lonsdale D, Lopez R, Madera M, Maslen J, McAnulla C, McDowall J, McMenamin C, Mi H, Mutowo-Muellenet P, Mulder N, Natale D, Orengo C, Pesseat S, Punta M, Quinn AF, Rivoire C, Sangrador-Vegas A, Selengut JD, Sigrist CJ, Scheremetjew M, Tate J, Thimmajanarthanan M, Thomas PD, Wu CH, Yeats C, Yong SY | display-authors = 6 | title = InterPro in 2011: new developments in the family and domain prediction database | journal = Nucleic Acids Research | volume = 40 | issue = Database issue | pages = D306-12 | date = January 2012 | pmid = 22096229 | pmc = 3245097 | doi = 10.1093/nar/gkr948 }}</ref> <ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Nucleic Acids Research | volume = 29 | issue = 1 | pages = 37–40 | date = January 2001 | pmid = 11125043 | pmc = 29841 | doi = 10.1093/nar/29.1.37 | author-link11 = Richard M. Durbin | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref><ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Bioinformatics | volume = 16 | issue = 12 | pages = 1145–50 | date = December 2000 | pmid = 11159333 | doi = 10.1093/bioinformatics/16.12.1145 | author-link11 = Richard M. Durbin | doi-access = free | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref>इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर एवं प्रोटीन सम्मिलित हैं जो महत्वपूर्ण रूप से समान होते हैं। हस्ताक्षरों में प्रारूप (जैसे [[नियमित अभिव्यक्ति]] या [[छिपे हुए मार्कोव मॉडल|लुप्त मार्कोव प्रारूप]]) सम्मिलित होते हैं जो प्रोटीन सदस्यों, डोमेन या साइटों का वर्णन करते हैं। प्रारूप ज्ञात सदस्यों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं एवं पश्चात में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की शोध करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस अधिक उच्च-स्तरीय, संरचना-आधारित वर्गीकरण ([[ अतिपरिवार |उपसदस्य]] एवं कैथ जीन 3डी (CATH-Gene3D)) से लेकर अधिक विशिष्ट उप-सदस्य वर्गीकरण ([[PRINTS|प्रिंट]] एवं [[PANTHER|पैंथर]]) तक, भिन्न क्षेत्र में योगदान देता है। | ||
इंटरप्रो का | इंटरप्रो का उद्देश्य प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के अंदर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या सदस्यों का प्रतिनिधित्व करने वाले हस्ताक्षरों को ही प्रविष्टि में रखा जाता है एवं प्रविष्टियाँ परस्पर संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम एवं [[जीन ओण्टोलॉजी]] (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं। | ||
== इंटरप्रो में निहित डेटा == | == इंटरप्रो में निहित डेटा == | ||
इंटरप्रो में तीन मुख्य इकाइयाँ | इंटरप्रो में तीन मुख्य इकाइयाँ प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या प्रारूप भी कहा जाता है) एवं प्रविष्टियाँ सम्मिलित हैं। [[UniProtKB|यूनिप्रोटकेबी]] में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से समान होते हैं, इसकी जानकारी की गणना यूनिप्रोटकेबी द्वारा अनुक्रम प्रस्तावित किए जाने पर की जाती है एवं ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का संयोजन यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को एक साथ कैसे एकीकृत किया जाता है: मिलान किए गए प्रोटीन समूहों का अपेक्षात्मक ओवरलैप एवं अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में एकीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को प्रस्तावित) के अनुसार, इंटरप्रो प्रविष्टियों ने यूनिप्रोटकेबी में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो एकीकरण के लिए लंबित हैं।<ref name=":0">{{Cite journal|last1=Blum|first1=Matthias|last2=Chang|first2=Hsin-Yu|last3=Chuguransky|first3=Sara|last4=Grego|first4=Tiago|last5=Kandasaamy|first5=Swaathi|last6=Mitchell|first6=Alex|last7=Nuka|first7=Gift|last8=Paysan-Lafosse|first8=Typhaine|last9=Qureshi|first9=Matloob|last10=Raj|first10=Shriya|last11=Richardson|first11=Lorna|date=2020-11-06|title=The InterPro protein families and domains database: 20 years on|journal=Nucleic Acids Research|volume=49|issue=D1|language=en|pages=D344–D354|doi=10.1093/nar/gkaa977|pmid=33156333|pmc=7778928|issn=0305-1048|doi-access=free}}</ref> | ||
[[File:InterPro coverage of amino acid residues in UniProtKB as of August 2020.png|thumb|इंटरप्रो संस्करण 81.0 के अनुसार इंटरप्रो प्रविष्टियों द्वारा यूनीप्रोटकेबी अवशेषों का कवरेज।<ref name=":0" />|]]इंटरप्रो में स्प्लिस वेरिएंट एवं यूनीपार्क एवं यूनीएमईएस डेटाबेस में उपस्थित प्रोटीन का डेटा भी सम्मिलित है। | [[File:InterPro coverage of amino acid residues in UniProtKB as of August 2020.png|thumb|इंटरप्रो संस्करण 81.0 के अनुसार इंटरप्रो प्रविष्टियों द्वारा यूनीप्रोटकेबी अवशेषों का कवरेज।<ref name=":0" />|]]इंटरप्रो में स्प्लिस वेरिएंट एवं यूनीपार्क एवं यूनीएमईएस डेटाबेस में उपस्थित प्रोटीन का डेटा भी सम्मिलित है। | ||
Line 41: | Line 41: | ||
इंटरप्रो के हस्ताक्षर 13 सदस्य डेटाबेस से आते हैं, जो नीचे सूचीबद्ध हैं। | इंटरप्रो के हस्ताक्षर 13 सदस्य डेटाबेस से आते हैं, जो नीचे सूचीबद्ध हैं। | ||
; | ;कैथ जीन 3डी (CATH-Gene3D): संपूर्ण जीनोम में प्रोटीन सदस्यों एवं डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन सदस्य मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके पश्चात अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना एवं अनुक्रम डोमेन का मानचित्रण कैथ (CATH) एवं [[Pfam|पीफैम (Pfam)]] डोमेन का प्रतिनिधित्व करने वाले लुप्त हुएमार्कोव प्रारूप पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी एवं विश्लेषण जीन 3डी वेबसाइट पर उपलब्ध है। | ||
;सीडीडी: [[संरक्षित डोमेन डेटाबेस]] प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन एवं पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड | ;सीडीडी: [[संरक्षित डोमेन डेटाबेस]] प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन एवं पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड एकाधिक अनुक्रम संरेखण प्रारूप का संग्रह सम्मिलित है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तीव्रता से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं। | ||
;HAMAP: माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित एवं मैन्युअल एनोटेशन के लिए है। HAMAP प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो | ;हमाप (HAMAP): माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित एवं मैन्युअल एनोटेशन के लिए है। हमाप (HAMAP) प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो संरक्षित बैक्टीरिया, आर्कियल एवं प्लास्टिड-एनकोडेड (अर्थात् क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, अन्य-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन सदस्यों या उपसदस्यों का भाग हैं। | ||
;[[MobiDB]]: MobiDB प्रोटीन में आंतरिक विकार | ;[[MobiDB|मोबीडीबी (MobiDB)]]: मोबीडीबी (MobiDB) प्रोटीन में आंतरिक विकार की व्याख्या करने वाला डेटाबेस है। | ||
;पैंथर: पैंथर प्रोटीन सदस्यों का | ;पैंथर: पैंथर प्रोटीन सदस्यों का बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-सदस्यों में विभाजित किया गया है। ये उपसदस्य प्रोटीन सदस्यों के अंदर विशिष्ट कार्यों के विचलन को प्रारूप करते हैं, जिससे फलन (मानव-क्यूरेटेड आणविक फलन एवं जैविक प्रक्रिया वर्गीकरण एवं मार्ग आरेख) के साथ अधिक त्रुटिहीन जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक सदस्य एवं उपसदस्य के लिए लुप्त हुए मार्कोव प्रारूप (एचएमएम) बनाए गए हैं। | ||
;Pfam: | ;पीफैम (Pfam): कई अनुक्रम संरेखण एवं लुप्त हुएमार्कोव प्रारूप का बड़ा संग्रह है जो कई सामान्य प्रोटीन डोमेन एवं सदस्यों को सम्मिलित करता है। [[File:InterPro consortium member databases.png|thumb|480x480px|इंटरप्रो कंसोर्टियम के 13 सदस्य डेटाबेस को उनकी हस्ताक्षर निर्माण विधि और जिस जैविक इकाई पर वे ध्यान केंद्रित करते हैं, उसके आधार पर समूहीकृत किया गया है।<ref>{{Cite web|last=EMBL-EBI|title=Where does the data come from? {{!}} InterPro|url=https://www.ebi.ac.uk/training-beta/online/courses/interpro-functional-and-structural-analysis/what-is-interpro/where-does-data-come-from/|access-date=2020-12-04|language=en}}</ref>|बाएं]]'''पीआईआरएसएफ''' प्रोटीन वर्गीकरण प्रणाली उपसदस्य से उपसदस्य तक अनुक्रम विविधता के कई स्तरों वाला नेटवर्क है जो पूर्ण-लंबाई प्रोटीन एवं डोमेन के विकासवादी संबंध को प्रदर्शित करता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक सदस्य है, जिसके सदस्य समजात ( सामान्य पूर्वज से विकसित) एवं होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता एवं सामान्य डोमेन वास्तुकला विचारित करने वाले) दोनों हैं। | ||
;प्रिंट्स: प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का | ;प्रिंट्स: प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का समूह है जिसका उपयोग प्रोटीन सदस्य को चित्रित करने के लिए किया जाता है; इसकी नैदानिक बल को यूनिप्रोट की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। सामान्यतः रूपांकन ओवरलैप नहीं होते हैं, अन्यथा अनुक्रम के साथ भिन्न हो जाते हैं, चूँकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट एकल रूपांकनों की अपेक्षा में प्रोटीन सिलवटों एवं कार्यात्मकताओं को अधिक स्मूथली एवं बलशाली रूप से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक क्षमता रूपांकन निकटतम द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है। | ||
; [[ कृपया ]]: प्रोसाइट प्रोटीन सदस्यों एवं डोमेन का | ; [[ कृपया | प्रोसाइट]]: प्रोसाइट प्रोटीन सदस्यों एवं डोमेन का डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न एवं प्रोफाइल सम्मिलित हैं जो विश्वसनीय रूप से यह पहचानने में सहायता करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन सदस्य से संबंधित है। | ||
;स्मार्ट: [[सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण]] आनुवंशिक रूप से मोबाइल डोमेन की पहचान एवं एनोटेशन एवं डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय एवं क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन सदस्य | ;स्मार्ट: [[सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण]] आनुवंशिक रूप से मोबाइल डोमेन की पहचान एवं एनोटेशन एवं डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय एवं क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन सदस्य ज्ञात करने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं एवं कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े स्तर पर त्रुटिहीन बनाया गया है। | ||
; | ;उपसदस्य: उपसदस्य प्रोफाइल लुप्त हुएमार्कोव प्रारूप की लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक प्रारूप एससीओपी डोमेन के समान है एवं इसका उद्देश्य पूरे एससीओपी [[प्रोटीन सुपरफैमिली|प्रोटीन उपसदस्य]] का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। उपसदस्य का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है। | ||
;एसएफएलडी: एंजाइमों का श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है। | ;एसएफएलडी: एंजाइमों का श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है। | ||
;[[TIGRFAMs]]: TIGRFAMs प्रोटीन सदस्यों का | ;[[TIGRFAMs|टीग्रफॉम्स (TIGRFAMs)]]: टीग्रफॉम्स (TIGRFAMs) प्रोटीन सदस्यों का संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, लुप्त हुए मार्कोव प्रारूप एवं एनोटेशन सम्मिलित हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं। | ||
=== डेटा प्रकार === | === डेटा प्रकार === | ||
इंटरप्रो में कंसोर्टियम के विभिन्न सदस्यों द्वारा प्रदान किए गए सात प्रकार के डेटा सम्मिलित हैं: | इंटरप्रो में कंसोर्टियम के विभिन्न सदस्यों द्वारा प्रदान किए गए सात प्रकार के डेटा सम्मिलित हैं: | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+इंटरप्रो के डेटा प्रकार | ||
! | !डेटा प्रकार | ||
! | !विवरण | ||
! | !डेटाबेस का योगदान | ||
|- | |- | ||
| | |इंटरप्रो प्रविष्टियाँ | ||
| | |एक या अधिक हस्ताक्षरों का उपयोग करके प्रोटीन के संरचनात्मक एवं/या कार्यात्मक डोमेन की भविष्यवाणी की गई | ||
| | |सभी 13 सदस्य डेटाबेस | ||
|- | |- | ||
| | |सदस्य डेटाबेस हस्ताक्षर | ||
| | |सदस्य डेटाबेस से हस्ताक्षर, इनमें वे हस्ताक्षर सम्मिलित हैं जो इंटरप्रो में एकीकृत हैं, एवं वे जो एकीकृत नहीं हैं | ||
| | |सभी 13 सदस्य डेटाबेस | ||
|- | |- | ||
| | |प्रोटीन | ||
| | |प्रोटीन अनुक्रम | ||
| | |यूनीप्लॉटकेबी (स्विस-प्रोट और ट्रेम्ब्ल) | ||
|- | |- | ||
| | |प्रोटेम | ||
| | |प्रोटीन का संग्रह जो एक ही जीव से संबंधित है | ||
| | |यूनिप्रोटकेबी | ||
|- | |- | ||
| | |संरचना | ||
| | |प्रोटीन की त्रि-आयामी संरचनाएँ | ||
|[[PDBe-KB| | |[[PDBe-KB|पीडीबीई]] | ||
|- | |- | ||
| | |वर्गीकरण | ||
| | |प्रोटीन वर्गीकरण संबंधी जानकारी | ||
| | |यूनिप्रोटकेबी | ||
|- | |- | ||
| | |समूह | ||
| | |विकासवादी संबंधित सदस्यों के समूह | ||
|[[Pfam]], | |[[Pfam|पीफैम (Pfam)]], सीडीडी | ||
|} | |} | ||
[[File:InterPro Entry types.png|thumb|263x263px|प्रतीक जो इंटरप्रो (होमोलॉगस | [[File:InterPro Entry types.png|thumb|263x263px|प्रतीक जो इंटरप्रो (होमोलॉगस उपसदस्य, सदस्य, डोमेन, रिपीट या साइट) में पाए जाने वाले पांच प्रविष्टि प्रकारों की पहचान करते हैं।<ref>{{Cite web|last=EMBL-EBI|title=InterPro entry types {{!}} InterPro|url=https://www.ebi.ac.uk/training-beta/online/courses/interpro-functional-and-structural-analysis/what-is-an-interpro-entry/interpro-entry-types/|access-date=2020-12-04|language=en}}</ref>]] | ||
==== इंटरप्रो प्रविष्टि प्रकार ==== | ==== इंटरप्रो प्रविष्टि प्रकार ==== | ||
इंटरप्रो प्रविष्टियों को | इंटरप्रो प्रविष्टियों को पाँच प्रकारों में विभाजित किया जा सकता है: | ||
* | * समजात उपसदस्य: प्रोटीन का ऐसा समूह है जो समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, अपितु उनके अनुक्रम अत्यधिक समान नहीं होते है। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस: कैथ जीन 3डी (CATH)-Gene3D) एवं उपसदस्य द्वारा प्रदान की जाती हैं। | ||
* सदस्य: प्रोटीन का समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या [[अनुक्रम समरूपता]] के माध्यम से निर्धारित होती है। | * सदस्य: प्रोटीन का समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या [[अनुक्रम समरूपता]] के माध्यम से निर्धारित होती है। | ||
* डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में | * डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में विशिष्ट इकाई है। | ||
*दोहराएँ: अमीनो एसिड का | *दोहराएँ: अमीनो एसिड का क्रम, सामान्यतः 50 अमीनो एसिड से अधिक नहीं, जो प्रोटीन में कई बार दोहराया जाता है। | ||
* साइट: अमीनो एसिड का | * साइट: अमीनो एसिड का छोटा अनुक्रम जहां कम से कम अमीनो एसिड संरक्षित होता है। इनमें [[अनुवाद के बाद का संशोधन|अनुवाद के पश्चात की संशोधन]] साइटें, संरक्षित साइटें, [[ बाध्यकारी साइट | बाध्यकारी साइटें]] एवं [[सक्रिय साइट|सक्रिय साइटें]] सम्मिलित हैं। | ||
== | == अभिगम == | ||
डेटाबेस वेबसर्वर के माध्यम से पाठ एवं अनुक्रम-आधारित शोधों के लिए एवं अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य [[यूरोपीय जैव सूचना विज्ञान संस्थान]] डेटाबेस | डेटाबेस वेबसर्वर के माध्यम से पाठ एवं अनुक्रम-आधारित शोधों के लिए एवं अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य [[यूरोपीय जैव सूचना विज्ञान संस्थान]] डेटाबेस के समान, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति किसी भी उद्देश्य के लिए कर सकता है।<ref name=termsofuse>{{Cite web | url=http://www.ebi.ac.uk/Information/termsofuse.html | title=Terms of Use for EMBL-EBI Services | European Bioinformatics Institute}}</ref> इंटरप्रो का लक्ष्य प्रत्येक 8 सप्ताह में जनता के लिए डेटा प्रस्तावित करना है, सामान्यतः यूनिप्रोटकेबी द्वारा समान प्रोटीन प्रारम्भ के एक दिन के अंदर डेटा प्रस्तावित करना होता है। | ||
=== इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस ([[एपीआई]]) === | === इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस ([[एपीआई]]) === | ||
इंटरप्रो [[JSON]] प्रारूप में सभी इंटरप्रो प्रविष्टियों एवं उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए | इंटरप्रो, [[JSON|जेएसओएन]] प्रारूप में सभी इंटरप्रो प्रविष्टियों एवं उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एपीआई प्रदान करता है।<ref>{{Cite web|title=How to download InterPro data? — InterPro Documentation|url=https://interpro-documentation.readthedocs.io/en/latest/download.html#interpro-application-programming-interface-api|access-date=2020-12-04|website=interpro-documentation.readthedocs.io}}</ref> विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम एवं सेट हैं। | ||
== इंटरप्रोस्कैन == | == इंटरप्रोस्कैन == | ||
इंटरप्रोस्कैन | इंटरप्रोस्कैन सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं।<ref name="pmid15980438">{{cite journal | vauthors = Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R | title = InterProScan: protein domains identifier | journal = Nucleic Acids Research | volume = 33 | issue = Web Server issue | pages = W116-20 | date = July 2005 | pmid = 15980438 | pmc = 1160203 | doi = 10.1093/nar/gki442 | format = Free full text }}</ref> रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में प्रायः इंटरप्रोस्कैन का उपयोग किया जाता है।<ref name="pmid11237011">{{cite journal | vauthors = Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, etal | title = प्रारंभिक अनुक्रमण और मानव जीनोम का विश्लेषण| journal = Nature | volume = 409 | issue = 6822 | pages = 860–921 | date = February 2001 | pmid = 11237011 | doi = 10.1038/35057062 | url = https://deepblue.lib.umich.edu/bitstream/2027.42/62798/1/409860a0.pdf | bibcode = 2001Natur.409..860L | author-link1 = Eric Lander | doi-access = free }}</ref><ref name="pmid12364791">{{cite journal | vauthors = Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, etal | title = मलेरिया मच्छर एनोफ़ेलीज़ गैम्बिया का जीनोम अनुक्रम| journal = Science | volume = 298 | issue = 5591 | pages = 129–49 | date = October 2002 | pmid = 12364791 | doi = 10.1126/science.1076181 | s2cid = 4512225 | citeseerx = 10.1.1.149.9058 | bibcode = 2002Sci...298..129H }}</ref> दिसंबर 2020 तक, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण [[जावा (प्रोग्रामिंग भाषा)]] आधारित आर्किटेक्चर का उपयोग करता है।<ref>{{cite journal | vauthors = Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S | display-authors = 6 | title = InterProScan 5: genome-scale protein function classification | journal = Bioinformatics | volume = 30 | issue = 9 | pages = 1236–40 | date = May 2014 | pmid = 24451626 | pmc = 3998142 | doi = 10.1093/bioinformatics/btu031 }}</ref> सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट [[लिनक्स]] ऑपरेटिंग प्रणाली पर समर्थित है। | ||
इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, [[प्रतिनिधित्ववादी स्थिति में स्थानांतरण]] एवं एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी | इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, [[प्रतिनिधित्ववादी स्थिति में स्थानांतरण|प्रतिनिधित्ववादी स्थिति]] एवं एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी अभिगम किया जा सकता है।<ref>{{cite journal | vauthors = Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey AR, Potter SC, Finn RD, Lopez R | display-authors = 6 | title = The EMBL-EBI search and sequence analysis tools APIs in 2019 | journal = Nucleic Acids Research | volume = 47 | issue = W1 | pages = W636–W641 | date = July 2019 | pmid = 30976793 | pmc = 6602479 | doi = 10.1093/nar/gkz268 }}</ref> | ||
== यह भी देखें == | == यह भी देखें == | ||
* प्रोटीन सदस्य | * प्रोटीन सदस्य | ||
* [[अज्ञात फ़ंक्शन का डोमेन]] | * [[अज्ञात फ़ंक्शन का डोमेन|अज्ञात फलन का डोमेन]] | ||
* [[अनुक्रम आकृति]] | * [[अनुक्रम आकृति]] | ||
Line 124: | Line 124: | ||
*{{Official website|http://www.ebi.ac.uk/interpro/}} — webserver | *{{Official website|http://www.ebi.ac.uk/interpro/}} — webserver | ||
[[Category:CS1 English-language sources (en)|Interpro]] | |||
[[Category:Collapse templates|Interpro]] | |||
[[Category:Created On 10/07/2023|Interpro]] | |||
[[Category:Lua-based templates|Interpro]] | |||
[[Category:Machine Translated Page|Interpro]] | |||
[[Category:Navigational boxes| ]] | |||
[[Category: | [[Category:Navigational boxes without horizontal lists|Interpro]] | ||
[[Category: | [[Category:Official website not in Wikidata|Interpro]] | ||
[[Category:Pages with broken file links|Interpro]] | |||
[[Category:Pages with script errors|Interpro]] | |||
[[Category:Short description with empty Wikidata description|Interpro]] | |||
[[Category:Sidebars with styles needing conversion|Interpro]] | |||
[[Category:Template documentation pages|Documentation/doc]] | |||
[[Category:Templates Vigyan Ready|Interpro]] | |||
[[Category:Templates generating microformats|Interpro]] | |||
[[Category:Templates that add a tracking category|Interpro]] | |||
[[Category:Templates that are not mobile friendly|Interpro]] | |||
[[Category:Templates that generate short descriptions|Interpro]] | |||
[[Category:Templates using TemplateData|Interpro]] | |||
[[Category:Wikipedia metatemplates|Interpro]] | |||
[[Category:कैम्ब्रिजशायर में विज्ञान और प्रौद्योगिकी|Interpro]] | |||
[[Category:जैविक डेटाबेस|Interpro]] | |||
[[Category:दक्षिण कैंब्रिजशायर जिला|Interpro]] | |||
[[Category:प्रोटीन वर्गीकरण|Interpro]] |
Latest revision as of 12:10, 1 November 2023
File:InterPro logo.png | |
Content | |
---|---|
Description | इंटरप्रो कार्यात्मक रूप से प्रोटीन अनुक्रमों का विश्लेषण करता है एवं डोमेन एवं कार्यात्मक साइटों की उपस्थिति की भविष्यवाणी करते हुए उन्हें प्रोटीन सदस्यों में वर्गीकृत करता है। |
Contact | |
Research center | ईएमबीएल |
Laboratory | यूरोपीय जैव सूचना विज्ञान संस्थान |
Primary citation | The InterPro protein families and domains database: 20 years on[1] |
Release date | 1999 |
Access | |
Website | www |
Download URL | ftp.ebi.ac.uk/pub/databases/interpro/ |
Miscellaneous | |
Data release frequency | 8-weekly |
Version | 91.0 (13 October 2022 | )
इंटरप्रो प्रोटीन सदस्य, प्रोटीन डोमेन एवं कार्यात्मक साइटों का डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को कार्यात्मक रूप से चित्रित करने के लिए नए प्रोटीन अनुक्रमों पर प्रस्तावित किया जा सकता है।[2] [3][4]इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर एवं प्रोटीन सम्मिलित हैं जो महत्वपूर्ण रूप से समान होते हैं। हस्ताक्षरों में प्रारूप (जैसे नियमित अभिव्यक्ति या लुप्त मार्कोव प्रारूप) सम्मिलित होते हैं जो प्रोटीन सदस्यों, डोमेन या साइटों का वर्णन करते हैं। प्रारूप ज्ञात सदस्यों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं एवं पश्चात में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की शोध करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस अधिक उच्च-स्तरीय, संरचना-आधारित वर्गीकरण (उपसदस्य एवं कैथ जीन 3डी (CATH-Gene3D)) से लेकर अधिक विशिष्ट उप-सदस्य वर्गीकरण (प्रिंट एवं पैंथर) तक, भिन्न क्षेत्र में योगदान देता है।
इंटरप्रो का उद्देश्य प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के अंदर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या सदस्यों का प्रतिनिधित्व करने वाले हस्ताक्षरों को ही प्रविष्टि में रखा जाता है एवं प्रविष्टियाँ परस्पर संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम एवं जीन ओण्टोलॉजी (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं।
इंटरप्रो में निहित डेटा
इंटरप्रो में तीन मुख्य इकाइयाँ प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या प्रारूप भी कहा जाता है) एवं प्रविष्टियाँ सम्मिलित हैं। यूनिप्रोटकेबी में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से समान होते हैं, इसकी जानकारी की गणना यूनिप्रोटकेबी द्वारा अनुक्रम प्रस्तावित किए जाने पर की जाती है एवं ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का संयोजन यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को एक साथ कैसे एकीकृत किया जाता है: मिलान किए गए प्रोटीन समूहों का अपेक्षात्मक ओवरलैप एवं अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में एकीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को प्रस्तावित) के अनुसार, इंटरप्रो प्रविष्टियों ने यूनिप्रोटकेबी में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो एकीकरण के लिए लंबित हैं।[5]
इंटरप्रो में स्प्लिस वेरिएंट एवं यूनीपार्क एवं यूनीएमईएस डेटाबेस में उपस्थित प्रोटीन का डेटा भी सम्मिलित है।
इंटरप्रो कंसोर्टियम सदस्य डेटाबेस
इंटरप्रो के हस्ताक्षर 13 सदस्य डेटाबेस से आते हैं, जो नीचे सूचीबद्ध हैं।
- कैथ जीन 3डी (CATH-Gene3D)
- संपूर्ण जीनोम में प्रोटीन सदस्यों एवं डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन सदस्य मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके पश्चात अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना एवं अनुक्रम डोमेन का मानचित्रण कैथ (CATH) एवं पीफैम (Pfam) डोमेन का प्रतिनिधित्व करने वाले लुप्त हुएमार्कोव प्रारूप पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी एवं विश्लेषण जीन 3डी वेबसाइट पर उपलब्ध है।
- सीडीडी
- संरक्षित डोमेन डेटाबेस प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन एवं पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड एकाधिक अनुक्रम संरेखण प्रारूप का संग्रह सम्मिलित है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तीव्रता से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं।
- हमाप (HAMAP)
- माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित एवं मैन्युअल एनोटेशन के लिए है। हमाप (HAMAP) प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो संरक्षित बैक्टीरिया, आर्कियल एवं प्लास्टिड-एनकोडेड (अर्थात् क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, अन्य-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन सदस्यों या उपसदस्यों का भाग हैं।
- मोबीडीबी (MobiDB)
- मोबीडीबी (MobiDB) प्रोटीन में आंतरिक विकार की व्याख्या करने वाला डेटाबेस है।
- पैंथर
- पैंथर प्रोटीन सदस्यों का बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-सदस्यों में विभाजित किया गया है। ये उपसदस्य प्रोटीन सदस्यों के अंदर विशिष्ट कार्यों के विचलन को प्रारूप करते हैं, जिससे फलन (मानव-क्यूरेटेड आणविक फलन एवं जैविक प्रक्रिया वर्गीकरण एवं मार्ग आरेख) के साथ अधिक त्रुटिहीन जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक सदस्य एवं उपसदस्य के लिए लुप्त हुए मार्कोव प्रारूप (एचएमएम) बनाए गए हैं।
- पीफैम (Pfam)
- कई अनुक्रम संरेखण एवं लुप्त हुएमार्कोव प्रारूप का बड़ा संग्रह है जो कई सामान्य प्रोटीन डोमेन एवं सदस्यों को सम्मिलित करता है। पीआईआरएसएफ प्रोटीन वर्गीकरण प्रणाली उपसदस्य से उपसदस्य तक अनुक्रम विविधता के कई स्तरों वाला नेटवर्क है जो पूर्ण-लंबाई प्रोटीन एवं डोमेन के विकासवादी संबंध को प्रदर्शित करता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक सदस्य है, जिसके सदस्य समजात ( सामान्य पूर्वज से विकसित) एवं होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता एवं सामान्य डोमेन वास्तुकला विचारित करने वाले) दोनों हैं।
- प्रिंट्स
- प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का समूह है जिसका उपयोग प्रोटीन सदस्य को चित्रित करने के लिए किया जाता है; इसकी नैदानिक बल को यूनिप्रोट की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। सामान्यतः रूपांकन ओवरलैप नहीं होते हैं, अन्यथा अनुक्रम के साथ भिन्न हो जाते हैं, चूँकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट एकल रूपांकनों की अपेक्षा में प्रोटीन सिलवटों एवं कार्यात्मकताओं को अधिक स्मूथली एवं बलशाली रूप से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक क्षमता रूपांकन निकटतम द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है।
- प्रोसाइट
- प्रोसाइट प्रोटीन सदस्यों एवं डोमेन का डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न एवं प्रोफाइल सम्मिलित हैं जो विश्वसनीय रूप से यह पहचानने में सहायता करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन सदस्य से संबंधित है।
- स्मार्ट
- सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण आनुवंशिक रूप से मोबाइल डोमेन की पहचान एवं एनोटेशन एवं डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय एवं क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन सदस्य ज्ञात करने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं एवं कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े स्तर पर त्रुटिहीन बनाया गया है।
- उपसदस्य
- उपसदस्य प्रोफाइल लुप्त हुएमार्कोव प्रारूप की लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक प्रारूप एससीओपी डोमेन के समान है एवं इसका उद्देश्य पूरे एससीओपी प्रोटीन उपसदस्य का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। उपसदस्य का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है।
- एसएफएलडी
- एंजाइमों का श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है।
- टीग्रफॉम्स (TIGRFAMs)
- टीग्रफॉम्स (TIGRFAMs) प्रोटीन सदस्यों का संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, लुप्त हुए मार्कोव प्रारूप एवं एनोटेशन सम्मिलित हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं।
डेटा प्रकार
इंटरप्रो में कंसोर्टियम के विभिन्न सदस्यों द्वारा प्रदान किए गए सात प्रकार के डेटा सम्मिलित हैं:
डेटा प्रकार | विवरण | डेटाबेस का योगदान |
---|---|---|
इंटरप्रो प्रविष्टियाँ | एक या अधिक हस्ताक्षरों का उपयोग करके प्रोटीन के संरचनात्मक एवं/या कार्यात्मक डोमेन की भविष्यवाणी की गई | सभी 13 सदस्य डेटाबेस |
सदस्य डेटाबेस हस्ताक्षर | सदस्य डेटाबेस से हस्ताक्षर, इनमें वे हस्ताक्षर सम्मिलित हैं जो इंटरप्रो में एकीकृत हैं, एवं वे जो एकीकृत नहीं हैं | सभी 13 सदस्य डेटाबेस |
प्रोटीन | प्रोटीन अनुक्रम | यूनीप्लॉटकेबी (स्विस-प्रोट और ट्रेम्ब्ल) |
प्रोटेम | प्रोटीन का संग्रह जो एक ही जीव से संबंधित है | यूनिप्रोटकेबी |
संरचना | प्रोटीन की त्रि-आयामी संरचनाएँ | पीडीबीई |
वर्गीकरण | प्रोटीन वर्गीकरण संबंधी जानकारी | यूनिप्रोटकेबी |
समूह | विकासवादी संबंधित सदस्यों के समूह | पीफैम (Pfam), सीडीडी |
इंटरप्रो प्रविष्टि प्रकार
इंटरप्रो प्रविष्टियों को पाँच प्रकारों में विभाजित किया जा सकता है:
- समजात उपसदस्य: प्रोटीन का ऐसा समूह है जो समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, अपितु उनके अनुक्रम अत्यधिक समान नहीं होते है। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस: कैथ जीन 3डी (CATH)-Gene3D) एवं उपसदस्य द्वारा प्रदान की जाती हैं।
- सदस्य: प्रोटीन का समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या अनुक्रम समरूपता के माध्यम से निर्धारित होती है।
- डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में विशिष्ट इकाई है।
- दोहराएँ: अमीनो एसिड का क्रम, सामान्यतः 50 अमीनो एसिड से अधिक नहीं, जो प्रोटीन में कई बार दोहराया जाता है।
- साइट: अमीनो एसिड का छोटा अनुक्रम जहां कम से कम अमीनो एसिड संरक्षित होता है। इनमें अनुवाद के पश्चात की संशोधन साइटें, संरक्षित साइटें, बाध्यकारी साइटें एवं सक्रिय साइटें सम्मिलित हैं।
अभिगम
डेटाबेस वेबसर्वर के माध्यम से पाठ एवं अनुक्रम-आधारित शोधों के लिए एवं अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य यूरोपीय जैव सूचना विज्ञान संस्थान डेटाबेस के समान, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति किसी भी उद्देश्य के लिए कर सकता है।[8] इंटरप्रो का लक्ष्य प्रत्येक 8 सप्ताह में जनता के लिए डेटा प्रस्तावित करना है, सामान्यतः यूनिप्रोटकेबी द्वारा समान प्रोटीन प्रारम्भ के एक दिन के अंदर डेटा प्रस्तावित करना होता है।
इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई)
इंटरप्रो, जेएसओएन प्रारूप में सभी इंटरप्रो प्रविष्टियों एवं उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एपीआई प्रदान करता है।[9] विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम एवं सेट हैं।
इंटरप्रोस्कैन
इंटरप्रोस्कैन सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं।[10] रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में प्रायः इंटरप्रोस्कैन का उपयोग किया जाता है।[11][12] दिसंबर 2020 तक, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण जावा (प्रोग्रामिंग भाषा) आधारित आर्किटेक्चर का उपयोग करता है।[13] सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट लिनक्स ऑपरेटिंग प्रणाली पर समर्थित है।
इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, प्रतिनिधित्ववादी स्थिति एवं एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी अभिगम किया जा सकता है।[14]
यह भी देखें
- प्रोटीन सदस्य
- अज्ञात फलन का डोमेन
- अनुक्रम आकृति
संदर्भ
- ↑ Blum M, Chang HY, Chuguransky S, Grego T, Kandasaamy S, Mitchell A, et al. (November 2020). "The InterPro protein families and domains database: 20 years on". Nucleic Acids Research. 49 (D1): D344–D354. doi:10.1093/nar/gkaa977. PMC 7778928. PMID 33156333.
- ↑ Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, et al. (January 2012). "InterPro in 2011: new developments in the family and domain prediction database". Nucleic Acids Research. 40 (Database issue): D306-12. doi:10.1093/nar/gkr948. PMC 3245097. PMID 22096229.
- ↑ Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, et al. (January 2001). "इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन". Nucleic Acids Research. 29 (1): 37–40. doi:10.1093/nar/29.1.37. PMC 29841. PMID 11125043.
- ↑ Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, et al. (December 2000). "इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन". Bioinformatics. 16 (12): 1145–50. doi:10.1093/bioinformatics/16.12.1145. PMID 11159333.
- ↑ 5.0 5.1 Blum, Matthias; Chang, Hsin-Yu; Chuguransky, Sara; Grego, Tiago; Kandasaamy, Swaathi; Mitchell, Alex; Nuka, Gift; Paysan-Lafosse, Typhaine; Qureshi, Matloob; Raj, Shriya; Richardson, Lorna (2020-11-06). "The InterPro protein families and domains database: 20 years on". Nucleic Acids Research (in English). 49 (D1): D344–D354. doi:10.1093/nar/gkaa977. ISSN 0305-1048. PMC 7778928. PMID 33156333.
- ↑ EMBL-EBI. "Where does the data come from? | InterPro" (in English). Retrieved 2020-12-04.
- ↑ EMBL-EBI. "InterPro entry types | InterPro" (in English). Retrieved 2020-12-04.
- ↑ "Terms of Use for EMBL-EBI Services | European Bioinformatics Institute".
- ↑ "How to download InterPro data? — InterPro Documentation". interpro-documentation.readthedocs.io. Retrieved 2020-12-04.
- ↑ Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (July 2005). "InterProScan: protein domains identifier" (Free full text). Nucleic Acids Research. 33 (Web Server issue): W116-20. doi:10.1093/nar/gki442. PMC 1160203. PMID 15980438.
- ↑ Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (February 2001). "प्रारंभिक अनुक्रमण और मानव जीनोम का विश्लेषण" (PDF). Nature. 409 (6822): 860–921. Bibcode:2001Natur.409..860L. doi:10.1038/35057062. PMID 11237011.
- ↑ Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, et al. (October 2002). "मलेरिया मच्छर एनोफ़ेलीज़ गैम्बिया का जीनोम अनुक्रम". Science. 298 (5591): 129–49. Bibcode:2002Sci...298..129H. CiteSeerX 10.1.1.149.9058. doi:10.1126/science.1076181. PMID 12364791. S2CID 4512225.
- ↑ Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, et al. (May 2014). "InterProScan 5: genome-scale protein function classification". Bioinformatics. 30 (9): 1236–40. doi:10.1093/bioinformatics/btu031. PMC 3998142. PMID 24451626.
- ↑ Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, et al. (July 2019). "The EMBL-EBI search and sequence analysis tools APIs in 2019". Nucleic Acids Research. 47 (W1): W636–W641. doi:10.1093/nar/gkz268. PMC 6602479. PMID 30976793.
बाहरी संबंध
- Official website — webserver