इंटरप्रो: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Database of protein families, domains and functional sites}} {{Infobox biodatabase | title = InterPro | logo = File:InterPro_logo.png | description = I...")
 
No edit summary
Line 28: Line 28:
| version = 91.0 ({{release date and age|2022|10|13|df=yes}})
| version = 91.0 ({{release date and age|2022|10|13|df=yes}})
}}
}}
इंटरप्रो [[प्रोटीन परिवार]], [[प्रोटीन डोमेन]] और कार्यात्मक साइटों का एक डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को नए प्रोटीन अनुक्रमों पर लागू किया जा सकता है।<ref name=pmid22096229>{{cite journal | vauthors = Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, Bernard T, Binns D, Bork P, Burge S, de Castro E, Coggill P, Corbett M, Das U, Daugherty L, Duquenne L, Finn RD, Fraser M, Gough J, Haft D, Hulo N, Kahn D, Kelly E, Letunic I, Lonsdale D, Lopez R, Madera M, Maslen J, McAnulla C, McDowall J, McMenamin C, Mi H, Mutowo-Muellenet P, Mulder N, Natale D, Orengo C, Pesseat S, Punta M, Quinn AF, Rivoire C, Sangrador-Vegas A, Selengut JD, Sigrist CJ, Scheremetjew M, Tate J, Thimmajanarthanan M, Thomas PD, Wu CH, Yeats C, Yong SY | display-authors = 6 | title = InterPro in 2011: new developments in the family and domain prediction database | journal = Nucleic Acids Research | volume = 40 | issue = Database issue | pages = D306-12 | date = January 2012 | pmid = 22096229 | pmc = 3245097 | doi = 10.1093/nar/gkr948 }}</ref> उन्हें कार्यात्मक रूप से चित्रित करने के लिए।<ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Nucleic Acids Research | volume = 29 | issue = 1 | pages = 37–40 | date = January 2001 | pmid = 11125043 | pmc = 29841 | doi = 10.1093/nar/29.1.37 | author-link11 = Richard M. Durbin | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref><ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Bioinformatics | volume = 16 | issue = 12 | pages = 1145–50 | date = December 2000 | pmid = 11159333 | doi = 10.1093/bioinformatics/16.12.1145 | author-link11 = Richard M. Durbin | doi-access = free | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref>
इंटरप्रो [[प्रोटीन परिवार]], [[प्रोटीन डोमेन]] और कार्यात्मक साइटों का डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को नए प्रोटीन अनुक्रमों पर लागू किया जा सकता है।<ref name=pmid22096229>{{cite journal | vauthors = Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, Bernard T, Binns D, Bork P, Burge S, de Castro E, Coggill P, Corbett M, Das U, Daugherty L, Duquenne L, Finn RD, Fraser M, Gough J, Haft D, Hulo N, Kahn D, Kelly E, Letunic I, Lonsdale D, Lopez R, Madera M, Maslen J, McAnulla C, McDowall J, McMenamin C, Mi H, Mutowo-Muellenet P, Mulder N, Natale D, Orengo C, Pesseat S, Punta M, Quinn AF, Rivoire C, Sangrador-Vegas A, Selengut JD, Sigrist CJ, Scheremetjew M, Tate J, Thimmajanarthanan M, Thomas PD, Wu CH, Yeats C, Yong SY | display-authors = 6 | title = InterPro in 2011: new developments in the family and domain prediction database | journal = Nucleic Acids Research | volume = 40 | issue = Database issue | pages = D306-12 | date = January 2012 | pmid = 22096229 | pmc = 3245097 | doi = 10.1093/nar/gkr948 }}</ref> उन्हें कार्यात्मक रूप से चित्रित करने के लिए।<ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Nucleic Acids Research | volume = 29 | issue = 1 | pages = 37–40 | date = January 2001 | pmid = 11125043 | pmc = 29841 | doi = 10.1093/nar/29.1.37 | author-link11 = Richard M. Durbin | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref><ref>{{cite journal | vauthors = Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, Bucher P, Cerutti L, Corpet F, Croning MD, Durbin R, Falquet L, Fleischmann W, Gouzy J, Hermjakob H, Hulo N, Jonassen I, Kahn D, Kanapin A, Karavidopoulou Y, Lopez R, Marx B, Mulder NJ, Oinn TM, Pagni M, Servant F, Sigrist CJ, Zdobnov EM | display-authors = 6 | title = इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन| journal = Bioinformatics | volume = 16 | issue = 12 | pages = 1145–50 | date = December 2000 | pmid = 11159333 | doi = 10.1093/bioinformatics/16.12.1145 | author-link11 = Richard M. Durbin | doi-access = free | author-link4 = Alex Bateman | author-link5 = Ewan Birney | author-link2 = Terri Attwood | author-link3 = Amos Bairoch | author-link1 = Rolf Apweiler }}</ref>
इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर और प्रोटीन शामिल हैं जो महत्वपूर्ण रूप से मेल खाते हैं। हस्ताक्षरों में मॉडल (सरल प्रकार, जैसे [[नियमित अभिव्यक्ति]] या अधिक जटिल, जैसे [[छिपे हुए मार्कोव मॉडल]]) शामिल होते हैं जो प्रोटीन परिवारों, डोमेन या साइटों का वर्णन करते हैं। मॉडल ज्ञात परिवारों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं और बाद में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की खोज करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस बहुत उच्च-स्तरीय, संरचना-आधारित वर्गीकरण ([[ अतिपरिवार ]] और CATH-Gene3D) से लेकर काफी विशिष्ट उप-परिवार वर्गीकरण ([[PRINTS]] और [[PANTHER]]) तक, एक अलग क्षेत्र में योगदान देता है।
इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर और प्रोटीन शामिल हैं जो महत्वपूर्ण रूप से मेल खाते हैं। हस्ताक्षरों में मॉडल (सरल प्रकार, जैसे [[नियमित अभिव्यक्ति]] या अधिक जटिल, जैसे [[छिपे हुए मार्कोव मॉडल]]) शामिल होते हैं जो प्रोटीन परिवारों, डोमेन या साइटों का वर्णन करते हैं। मॉडल ज्ञात परिवारों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं और बाद में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की खोज करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस बहुत उच्च-स्तरीय, संरचना-आधारित वर्गीकरण ([[ अतिपरिवार ]] और CATH-Gene3D) से लेकर काफी विशिष्ट उप-परिवार वर्गीकरण ([[PRINTS]] और [[PANTHER]]) तक, अलग क्षेत्र में योगदान देता है।


इंटरप्रो का इरादा प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के भीतर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या परिवारों का प्रतिनिधित्व करने वाले हस्ताक्षरों को एक ही प्रविष्टि में रखा जाता है और प्रविष्टियाँ एक दूसरे से संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम और [[जीन ओण्टोलॉजी]] (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं।
इंटरप्रो का इरादा प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के भीतर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या परिवारों का प्रतिनिधित्व करने वाले हस्ताक्षरों को ही प्रविष्टि में रखा जाता है और प्रविष्टियाँ दूसरे से संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम और [[जीन ओण्टोलॉजी]] (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं।


== इंटरप्रो में निहित डेटा ==
== इंटरप्रो में निहित डेटा ==


इंटरप्रो में तीन मुख्य इकाइयाँ शामिल हैं: प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या मॉडल भी कहा जाता है) और प्रविष्टियाँ। [[UniProtKB]] में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से मेल खाते हैं, इसकी जानकारी की गणना UniProtKB द्वारा अनुक्रम जारी किए जाने पर की जाती है और ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का मिलान यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को एक साथ कैसे एकीकृत किया जाता है: मिलान किए गए प्रोटीन सेटों का तुलनात्मक ओवरलैप और अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में एकीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को जारी) के अनुसार, इंटरप्रो प्रविष्टियों ने UniProtKB में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो एकीकरण के लिए लंबित हैं।<ref name=":0">{{Cite journal|last1=Blum|first1=Matthias|last2=Chang|first2=Hsin-Yu|last3=Chuguransky|first3=Sara|last4=Grego|first4=Tiago|last5=Kandasaamy|first5=Swaathi|last6=Mitchell|first6=Alex|last7=Nuka|first7=Gift|last8=Paysan-Lafosse|first8=Typhaine|last9=Qureshi|first9=Matloob|last10=Raj|first10=Shriya|last11=Richardson|first11=Lorna|date=2020-11-06|title=The InterPro protein families and domains database: 20 years on|journal=Nucleic Acids Research|volume=49|issue=D1|language=en|pages=D344–D354|doi=10.1093/nar/gkaa977|pmid=33156333|pmc=7778928|issn=0305-1048|doi-access=free}}</ref>
इंटरप्रो में तीन मुख्य इकाइयाँ शामिल हैं: प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या मॉडल भी कहा जाता है) और प्रविष्टियाँ। [[UniProtKB]] में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से मेल खाते हैं, इसकी जानकारी की गणना UniProtKB द्वारा अनुक्रम जारी किए जाने पर की जाती है और ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का मिलान यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को साथ कैसे ीकृत किया जाता है: मिलान किए गए प्रोटीन सेटों का तुलनात्मक ओवरलैप और अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में ीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को जारी) के अनुसार, इंटरप्रो प्रविष्टियों ने UniProtKB में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो ीकरण के लिए लंबित हैं।<ref name=":0">{{Cite journal|last1=Blum|first1=Matthias|last2=Chang|first2=Hsin-Yu|last3=Chuguransky|first3=Sara|last4=Grego|first4=Tiago|last5=Kandasaamy|first5=Swaathi|last6=Mitchell|first6=Alex|last7=Nuka|first7=Gift|last8=Paysan-Lafosse|first8=Typhaine|last9=Qureshi|first9=Matloob|last10=Raj|first10=Shriya|last11=Richardson|first11=Lorna|date=2020-11-06|title=The InterPro protein families and domains database: 20 years on|journal=Nucleic Acids Research|volume=49|issue=D1|language=en|pages=D344–D354|doi=10.1093/nar/gkaa977|pmid=33156333|pmc=7778928|issn=0305-1048|doi-access=free}}</ref>
[[File:InterPro coverage of amino acid residues in UniProtKB as of August 2020.png|thumb|इंटरप्रो संस्करण 81.0 के अनुसार इंटरप्रो प्रविष्टियों द्वारा यूनीप्रोटकेबी अवशेषों का कवरेज।<ref name=":0" />|]]इंटरप्रो में वैकल्पिक स्प्लिसिंग और यूनीपार्क और यूनीएमईएस डेटाबेस में मौजूद प्रोटीन का डेटा भी शामिल है।
[[File:InterPro coverage of amino acid residues in UniProtKB as of August 2020.png|thumb|इंटरप्रो संस्करण 81.0 के अनुसार इंटरप्रो प्रविष्टियों द्वारा यूनीप्रोटकेबी अवशेषों का कवरेज।<ref name=":0" />|]]इंटरप्रो में वैकल्पिक स्प्लिसिंग और यूनीपार्क और यूनीएमईएस डेटाबेस में मौजूद प्रोटीन का डेटा भी शामिल है।


Line 43: Line 43:


;[[CATH]]-Gene3D: संपूर्ण जीनोम में प्रोटीन परिवारों और डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन परिवार मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके बाद अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना और अनुक्रम डोमेन का मानचित्रण CATH और [[Pfam]] डोमेन का प्रतिनिधित्व करने वाले छिपे हुए मार्कोव मॉडल पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी और विश्लेषण Gene3D वेबसाइट पर उपलब्ध है।
;[[CATH]]-Gene3D: संपूर्ण जीनोम में प्रोटीन परिवारों और डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन परिवार मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके बाद अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना और अनुक्रम डोमेन का मानचित्रण CATH और [[Pfam]] डोमेन का प्रतिनिधित्व करने वाले छिपे हुए मार्कोव मॉडल पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी और विश्लेषण Gene3D वेबसाइट पर उपलब्ध है।
;सीडीडी: [[संरक्षित डोमेन डेटाबेस]] एक प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन और पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड एकाधिक अनुक्रम संरेखण मॉडल का संग्रह शामिल है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तेजी से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं।
;सीडीडी: [[संरक्षित डोमेन डेटाबेस]] प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन और पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड ाधिक अनुक्रम संरेखण मॉडल का संग्रह शामिल है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तेजी से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं।
;HAMAP: माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित और मैन्युअल एनोटेशन के लिए है। HAMAP प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो अच्छी तरह से संरक्षित बैक्टीरिया, आर्कियल और प्लास्टिड-एनकोडेड (यानी क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, गैर-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन परिवारों या उपपरिवारों का हिस्सा हैं।
;HAMAP: माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित और मैन्युअल एनोटेशन के लिए है। HAMAP प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो अच्छी तरह से संरक्षित बैक्टीरिया, आर्कियल और प्लास्टिड-एनकोडेड (यानी क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, गैर-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन परिवारों या उपपरिवारों का हिस्सा हैं।
;[[MobiDB]]: MobiDB प्रोटीन में आंतरिक विकार को दर्शाने वाला डेटाबेस है।
;[[MobiDB]]: MobiDB प्रोटीन में आंतरिक विकार को दर्शाने वाला डेटाबेस है।
;पैंथर: पैंथर प्रोटीन परिवारों का एक बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-परिवारों में विभाजित किया गया है। ये उपपरिवार प्रोटीन परिवारों के भीतर विशिष्ट कार्यों के विचलन को मॉडल करते हैं, जिससे फ़ंक्शन (मानव-क्यूरेटेड आणविक फ़ंक्शन और जैविक प्रक्रिया वर्गीकरण और मार्ग आरेख) के साथ अधिक सटीक जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक परिवार और उपपरिवार के लिए हिडन मार्कोव मॉडल (एचएमएम) बनाए गए हैं।
;पैंथर: पैंथर प्रोटीन परिवारों का बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-परिवारों में विभाजित किया गया है। ये उपपरिवार प्रोटीन परिवारों के भीतर विशिष्ट कार्यों के विचलन को मॉडल करते हैं, जिससे फ़ंक्शन (मानव-क्यूरेटेड आणविक फ़ंक्शन और जैविक प्रक्रिया वर्गीकरण और मार्ग आरेख) के साथ अधिक सटीक जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक परिवार और उपपरिवार के लिए हिडन मार्कोव मॉडल (एचएमएम) बनाए गए हैं।
;Pfam: Is large collection of multiple sequence alignments and hidden Markov models covering many common protein domains and families. [[File:InterPro consortium member databases.png|thumb|480x480px|इंटरप्रो कंसोर्टियम के 13 सदस्य डेटाबेस को उनकी हस्ताक्षर निर्माण विधि और जिस जैविक इकाई पर वे ध्यान केंद्रित करते हैं, उसके आधार पर समूहीकृत किया गया है।<ref>{{Cite web|last=EMBL-EBI|title=Where does the data come from? {{!}} InterPro|url=https://www.ebi.ac.uk/training-beta/online/courses/interpro-functional-and-structural-analysis/what-is-interpro/where-does-data-come-from/|access-date=2020-12-04|language=en}}</ref>|बाएं]];पीआईआरएसएफ: प्रोटीन वर्गीकरण प्रणाली सुपरफैमिली से उपफैमिली तक अनुक्रम विविधता के कई स्तरों वाला एक नेटवर्क है जो पूर्ण-लंबाई प्रोटीन और डोमेन के विकासवादी संबंध को दर्शाता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक परिवार है, जिसके सदस्य समजात (एक सामान्य पूर्वज से विकसित) और होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता और एक सामान्य डोमेन वास्तुकला साझा करने वाले) दोनों हैं।
;Pfam: Is large collection of multiple sequence alignments and hidden Markov models covering many common protein domains and families. [[File:InterPro consortium member databases.png|thumb|480x480px|इंटरप्रो कंसोर्टियम के 13 सदस्य डेटाबेस को उनकी हस्ताक्षर निर्माण विधि और जिस जैविक इकाई पर वे ध्यान केंद्रित करते हैं, उसके आधार पर समूहीकृत किया गया है।<ref>{{Cite web|last=EMBL-EBI|title=Where does the data come from? {{!}} InterPro|url=https://www.ebi.ac.uk/training-beta/online/courses/interpro-functional-and-structural-analysis/what-is-interpro/where-does-data-come-from/|access-date=2020-12-04|language=en}}</ref>|बाएं]];पीआईआरएसएफ: प्रोटीन वर्गीकरण प्रणाली सुपरफैमिली से उपफैमिली तक अनुक्रम विविधता के कई स्तरों वाला नेटवर्क है जो पूर्ण-लंबाई प्रोटीन और डोमेन के विकासवादी संबंध को दर्शाता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक परिवार है, जिसके सदस्य समजात ( सामान्य पूर्वज से विकसित) और होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता और सामान्य डोमेन वास्तुकला साझा करने वाले) दोनों हैं।
;प्रिंट्स: प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का एक संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का एक समूह है जिसका उपयोग प्रोटीन परिवार को चित्रित करने के लिए किया जाता है; इसकी नैदानिक ​​शक्ति को UniProt की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। आमतौर पर रूपांकन ओवरलैप नहीं होते हैं, बल्कि एक अनुक्रम के साथ अलग हो जाते हैं, हालांकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट एकल रूपांकनों की तुलना में प्रोटीन सिलवटों और कार्यात्मकताओं को अधिक लचीले और शक्तिशाली ढंग से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक ​​क्षमता रूपांकन पड़ोसियों द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है।
;प्रिंट्स: प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का समूह है जिसका उपयोग प्रोटीन परिवार को चित्रित करने के लिए किया जाता है; इसकी नैदानिक ​​शक्ति को UniProt की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। आमतौर पर रूपांकन ओवरलैप नहीं होते हैं, बल्कि अनुक्रम के साथ अलग हो जाते हैं, हालांकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट रूपांकनों की तुलना में प्रोटीन सिलवटों और कार्यात्मकताओं को अधिक लचीले और शक्तिशाली ढंग से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक ​​क्षमता रूपांकन पड़ोसियों द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है।
; [[ कृपया ]]: प्रोसाइट प्रोटीन परिवारों और डोमेन का एक डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न और प्रोफाइल शामिल हैं जो विश्वसनीय रूप से यह पहचानने में मदद करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन परिवार (यदि कोई हो) से संबंधित है।
; [[ कृपया ]]: प्रोसाइट प्रोटीन परिवारों और डोमेन का डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न और प्रोफाइल शामिल हैं जो विश्वसनीय रूप से यह पहचानने में मदद करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन परिवार (यदि कोई हो) से संबंधित है।
;स्मार्ट: [[सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण]] आनुवंशिक रूप से मोबाइल डोमेन की पहचान और एनोटेशन और डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय और क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन परिवार पता लगाने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं और कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े पैमाने पर एनोटेट किया गया है।
;स्मार्ट: [[सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण]] आनुवंशिक रूप से मोबाइल डोमेन की पहचान और एनोटेशन और डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय और क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन परिवार पता लगाने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं और कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े पैमाने पर एनोटेट किया गया है।
;सुपरफैमिली: सुपरफैमिली प्रोफाइल छिपे हुए मार्कोव मॉडल की एक लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक मॉडल एक एससीओपी डोमेन से मेल खाता है और इसका उद्देश्य पूरे एससीओपी [[प्रोटीन सुपरफैमिली]] का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। सुपरफ़ैमिली का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है।
;सुपरफैमिली: सुपरफैमिली प्रोफाइल छिपे हुए मार्कोव मॉडल की लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक मॉडल एससीओपी डोमेन से मेल खाता है और इसका उद्देश्य पूरे एससीओपी [[प्रोटीन सुपरफैमिली]] का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। सुपरफ़ैमिली का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है।
;एसएफएलडी: एंजाइमों का एक श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है।
;एसएफएलडी: एंजाइमों का श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है।
;[[TIGRFAMs]]: TIGRFAMs प्रोटीन परिवारों का एक संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, छिपे हुए मार्कोव मॉडल (HMM) और एनोटेशन शामिल हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए एक उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं।
;[[TIGRFAMs]]: TIGRFAMs प्रोटीन परिवारों का संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, छिपे हुए मार्कोव मॉडल (HMM) और एनोटेशन शामिल हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं।


=== डेटा प्रकार ===
=== डेटा प्रकार ===
Line 96: Line 96:
इंटरप्रो प्रविष्टियों को आगे पाँच प्रकारों में विभाजित किया जा सकता है:
इंटरप्रो प्रविष्टियों को आगे पाँच प्रकारों में विभाजित किया जा सकता है:


* होमोलॉगस सुपरफैमिली: प्रोटीन का एक समूह जो एक समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, भले ही उनके अनुक्रम अत्यधिक समान न हों। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस द्वारा प्रदान की जाती हैं: CATH-Gene3D और SUPERFAMILY।
* होमोलॉगस सुपरफैमिली: प्रोटीन का समूह जो समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, भले ही उनके अनुक्रम अत्यधिक समान न हों। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस द्वारा प्रदान की जाती हैं: CATH-Gene3D और SUPERFAMILY।
* परिवार: प्रोटीन का एक समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या [[अनुक्रम समरूपता]] के माध्यम से निर्धारित होती है।
* परिवार: प्रोटीन का समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या [[अनुक्रम समरूपता]] के माध्यम से निर्धारित होती है।
* डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में एक विशिष्ट इकाई।
* डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में विशिष्ट इकाई।
*दोहराएँ: अमीनो एसिड का एक क्रम, आमतौर पर 50 अमीनो एसिड से अधिक नहीं, जो एक प्रोटीन में कई बार दोहराया जाता है।
*दोहराएँ: अमीनो एसिड का क्रम, आमतौर पर 50 अमीनो एसिड से अधिक नहीं, जो प्रोटीन में कई बार दोहराया जाता है।
* साइट: अमीनो एसिड का एक छोटा अनुक्रम जहां कम से कम एक अमीनो एसिड संरक्षित होता है। इनमें [[अनुवाद के बाद का संशोधन]]|पोस्ट-ट्रांसलेशनल संशोधन साइटें, संरक्षित साइटें, [[ बाध्यकारी साइट ]]ें और [[सक्रिय साइट]]ें शामिल हैं।
* साइट: अमीनो एसिड का छोटा अनुक्रम जहां कम से कम अमीनो एसिड संरक्षित होता है। इनमें [[अनुवाद के बाद का संशोधन]]|पोस्ट-ट्रांसलेशनल संशोधन साइटें, संरक्षित साइटें, [[ बाध्यकारी साइट ]]ें और [[सक्रिय साइट]]ें शामिल हैं।


== पहुँच ==
== पहुँच ==
डेटाबेस वेबसर्वर के माध्यम से पाठ और अनुक्रम-आधारित खोजों के लिए और अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य [[यूरोपीय जैव सूचना विज्ञान संस्थान]] डेटाबेस की तरह, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति और किसी भी उद्देश्य के लिए कर सकता है।<ref name=termsofuse>{{Cite web | url=http://www.ebi.ac.uk/Information/termsofuse.html | title=Terms of Use for EMBL-EBI Services &#124; European Bioinformatics Institute}}</ref> इंटरप्रो का लक्ष्य हर 8 सप्ताह में जनता के लिए डेटा जारी करना है, आमतौर पर समान प्रोटीन के UniProtKB रिलीज के एक दिन के भीतर।
डेटाबेस वेबसर्वर के माध्यम से पाठ और अनुक्रम-आधारित खोजों के लिए और अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य [[यूरोपीय जैव सूचना विज्ञान संस्थान]] डेटाबेस की तरह, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति और किसी भी उद्देश्य के लिए कर सकता है।<ref name=termsofuse>{{Cite web | url=http://www.ebi.ac.uk/Information/termsofuse.html | title=Terms of Use for EMBL-EBI Services &#124; European Bioinformatics Institute}}</ref> इंटरप्रो का लक्ष्य हर 8 सप्ताह में जनता के लिए डेटा जारी करना है, आमतौर पर समान प्रोटीन के UniProtKB रिलीज के दिन के भीतर।


=== इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस ([[एपीआई]]) ===
=== इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस ([[एपीआई]]) ===
इंटरप्रो [[JSON]] प्रारूप में सभी इंटरप्रो प्रविष्टियों और उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एक एपीआई प्रदान करता है।<ref>{{Cite web|title=How to download InterPro data? — InterPro Documentation|url=https://interpro-documentation.readthedocs.io/en/latest/download.html#interpro-application-programming-interface-api|access-date=2020-12-04|website=interpro-documentation.readthedocs.io}}</ref> विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु हैं: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम और सेट।
इंटरप्रो [[JSON]] प्रारूप में सभी इंटरप्रो प्रविष्टियों और उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एपीआई प्रदान करता है।<ref>{{Cite web|title=How to download InterPro data? — InterPro Documentation|url=https://interpro-documentation.readthedocs.io/en/latest/download.html#interpro-application-programming-interface-api|access-date=2020-12-04|website=interpro-documentation.readthedocs.io}}</ref> विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु हैं: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम और सेट।


== इंटरप्रोस्कैन ==
== इंटरप्रोस्कैन ==
इंटरप्रोस्कैन एक सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं।<ref name="pmid15980438">{{cite journal | vauthors = Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R | title = InterProScan: protein domains identifier | journal = Nucleic Acids Research | volume = 33 | issue = Web Server issue | pages = W116-20 | date = July 2005 | pmid = 15980438 | pmc = 1160203 | doi = 10.1093/nar/gki442 | format = Free full text }}</ref> रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में अक्सर इंटरप्रोस्कैन का उपयोग किया जाता है।<ref name="pmid11237011">{{cite journal | vauthors = Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, etal | title = प्रारंभिक अनुक्रमण और मानव जीनोम का विश्लेषण| journal = Nature | volume = 409 | issue = 6822 | pages = 860–921 | date = February 2001 | pmid = 11237011 | doi = 10.1038/35057062 | url = https://deepblue.lib.umich.edu/bitstream/2027.42/62798/1/409860a0.pdf | bibcode = 2001Natur.409..860L | author-link1 = Eric Lander | doi-access = free }}</ref><ref name="pmid12364791">{{cite journal | vauthors = Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, etal | title = मलेरिया मच्छर एनोफ़ेलीज़ गैम्बिया का जीनोम अनुक्रम| journal = Science | volume = 298 | issue = 5591 | pages = 129–49 | date = October 2002 | pmid = 12364791 | doi = 10.1126/science.1076181 | s2cid = 4512225 | citeseerx = 10.1.1.149.9058 | bibcode = 2002Sci...298..129H }}</ref> {{As of|2020|12}}, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण [[जावा (प्रोग्रामिंग भाषा)]]|जावा-आधारित आर्किटेक्चर का उपयोग करता है।<ref>{{cite journal | vauthors = Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S | display-authors = 6 | title = InterProScan 5: genome-scale protein function classification | journal = Bioinformatics | volume = 30 | issue = 9 | pages = 1236–40 | date = May 2014 | pmid = 24451626 | pmc = 3998142 | doi = 10.1093/bioinformatics/btu031 }}</ref> सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट [[लिनक्स]] ऑपरेटिंग सिस्टम पर समर्थित है।
इंटरप्रोस्कैन सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं।<ref name="pmid15980438">{{cite journal | vauthors = Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R | title = InterProScan: protein domains identifier | journal = Nucleic Acids Research | volume = 33 | issue = Web Server issue | pages = W116-20 | date = July 2005 | pmid = 15980438 | pmc = 1160203 | doi = 10.1093/nar/gki442 | format = Free full text }}</ref> रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में अक्सर इंटरप्रोस्कैन का उपयोग किया जाता है।<ref name="pmid11237011">{{cite journal | vauthors = Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, etal | title = प्रारंभिक अनुक्रमण और मानव जीनोम का विश्लेषण| journal = Nature | volume = 409 | issue = 6822 | pages = 860–921 | date = February 2001 | pmid = 11237011 | doi = 10.1038/35057062 | url = https://deepblue.lib.umich.edu/bitstream/2027.42/62798/1/409860a0.pdf | bibcode = 2001Natur.409..860L | author-link1 = Eric Lander | doi-access = free }}</ref><ref name="pmid12364791">{{cite journal | vauthors = Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, etal | title = मलेरिया मच्छर एनोफ़ेलीज़ गैम्बिया का जीनोम अनुक्रम| journal = Science | volume = 298 | issue = 5591 | pages = 129–49 | date = October 2002 | pmid = 12364791 | doi = 10.1126/science.1076181 | s2cid = 4512225 | citeseerx = 10.1.1.149.9058 | bibcode = 2002Sci...298..129H }}</ref> {{As of|2020|12}}, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण [[जावा (प्रोग्रामिंग भाषा)]]|जावा-आधारित आर्किटेक्चर का उपयोग करता है।<ref>{{cite journal | vauthors = Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S | display-authors = 6 | title = InterProScan 5: genome-scale protein function classification | journal = Bioinformatics | volume = 30 | issue = 9 | pages = 1236–40 | date = May 2014 | pmid = 24451626 | pmc = 3998142 | doi = 10.1093/bioinformatics/btu031 }}</ref> सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट [[लिनक्स]] ऑपरेटिंग सिस्टम पर समर्थित है।
 
इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, [[प्रतिनिधित्ववादी स्थिति में स्थानांतरण]] और एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी एक्सेस किया जा सकता है।<ref>{{cite journal | vauthors = Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey AR, Potter SC, Finn RD, Lopez R | display-authors = 6 | title = The EMBL-EBI search and sequence analysis tools APIs in 2019 | journal = Nucleic Acids Research | volume = 47 | issue = W1 | pages = W636–W641 | date = July 2019 | pmid = 30976793 | pmc = 6602479 | doi = 10.1093/nar/gkz268 }}</ref>


इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, [[प्रतिनिधित्ववादी स्थिति में स्थानांतरण]] और एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी ्सेस किया जा सकता है।<ref>{{cite journal | vauthors = Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, Basutkar P, Tivey AR, Potter SC, Finn RD, Lopez R | display-authors = 6 | title = The EMBL-EBI search and sequence analysis tools APIs in 2019 | journal = Nucleic Acids Research | volume = 47 | issue = W1 | pages = W636–W641 | date = July 2019 | pmid = 30976793 | pmc = 6602479 | doi = 10.1093/nar/gkz268 }}</ref>


== यह भी देखें ==
== यह भी देखें ==

Revision as of 20:38, 14 July 2023

InterPro
File:InterPro logo.png
Content
DescriptionInterPro functionally analyzes protein sequences and classifies them into protein families while predicting the presence of domains and functional sites.
Contact
Research centerEMBL
LaboratoryEuropean Bioinformatics Institute
Primary citationThe InterPro protein families and domains database: 20 years on[1]
Release date1999
Access
Websitewww.ebi.ac.uk/interpro/
Download URLftp.ebi.ac.uk/pub/databases/interpro/
Miscellaneous
Data release
frequency
8-weekly
Version91.0 (13 October 2022; 23 months ago (2022-10-13))

इंटरप्रो प्रोटीन परिवार, प्रोटीन डोमेन और कार्यात्मक साइटों का डेटाबेस है जिसमें ज्ञात प्रोटीन में पाई जाने वाली पहचान योग्य विशेषताओं को नए प्रोटीन अनुक्रमों पर लागू किया जा सकता है।[2] उन्हें कार्यात्मक रूप से चित्रित करने के लिए।[3][4] इंटरप्रो की सामग्री में डायग्नोस्टिक हस्ताक्षर और प्रोटीन शामिल हैं जो महत्वपूर्ण रूप से मेल खाते हैं। हस्ताक्षरों में मॉडल (सरल प्रकार, जैसे नियमित अभिव्यक्ति या अधिक जटिल, जैसे छिपे हुए मार्कोव मॉडल) शामिल होते हैं जो प्रोटीन परिवारों, डोमेन या साइटों का वर्णन करते हैं। मॉडल ज्ञात परिवारों या डोमेन के अमीनो एसिड अनुक्रमों से बनाए जाते हैं और बाद में उन्हें वर्गीकृत करने के लिए अज्ञात अनुक्रमों (जैसे कि उपन्यास जीनोम अनुक्रमण से उत्पन्न होने वाले) की खोज करने के लिए उपयोग किया जाता है। इंटरप्रो का प्रत्येक सदस्य डेटाबेस बहुत उच्च-स्तरीय, संरचना-आधारित वर्गीकरण (अतिपरिवार और CATH-Gene3D) से लेकर काफी विशिष्ट उप-परिवार वर्गीकरण (PRINTS और PANTHER) तक, अलग क्षेत्र में योगदान देता है।

इंटरप्रो का इरादा प्रोटीन वर्गीकरण के लिए वन-स्टॉप-शॉप प्रदान करना है, जहां विभिन्न सदस्य डेटाबेस द्वारा उत्पादित सभी हस्ताक्षर इंटरप्रो डेटाबेस के भीतर प्रविष्टियों में रखे जाते हैं। समकक्ष डोमेन, साइटों या परिवारों का प्रतिनिधित्व करने वाले हस्ताक्षरों को ही प्रविष्टि में रखा जाता है और प्रविष्टियाँ दूसरे से संबंधित भी हो सकती हैं। जहां संभव हो, अतिरिक्त जानकारी जैसे विवरण, सुसंगत नाम और जीन ओण्टोलॉजी (जीओ) शब्द प्रत्येक प्रविष्टि के साथ जुड़े हुए हैं।

इंटरप्रो में निहित डेटा

इंटरप्रो में तीन मुख्य इकाइयाँ शामिल हैं: प्रोटीन, हस्ताक्षर (जिन्हें विधियाँ या मॉडल भी कहा जाता है) और प्रविष्टियाँ। UniProtKB में प्रोटीन इंटरप्रो में केंद्रीय प्रोटीन इकाइयाँ भी हैं। कौन से हस्ताक्षर इन प्रोटीनों से महत्वपूर्ण रूप से मेल खाते हैं, इसकी जानकारी की गणना UniProtKB द्वारा अनुक्रम जारी किए जाने पर की जाती है और ये परिणाम जनता के लिए उपलब्ध कराए जाते हैं (नीचे देखें)। प्रोटीन के साथ हस्ताक्षरों का मिलान यह निर्धारित करता है कि इंटरप्रो प्रविष्टियों में हस्ताक्षरों को साथ कैसे ीकृत किया जाता है: मिलान किए गए प्रोटीन सेटों का तुलनात्मक ओवरलैप और अनुक्रमों पर हस्ताक्षरों के मिलान का स्थान संबंधितता के संकेतक के रूप में उपयोग किया जाता है। केवल पर्याप्त गुणवत्ता वाले हस्ताक्षर ही इंटरप्रो में ीकृत किए जाते हैं। संस्करण 81.0 (21 अगस्त 2020 को जारी) के अनुसार, इंटरप्रो प्रविष्टियों ने UniProtKB में पाए गए 73.9% अवशेषों को एनोटेट किया, अन्य 9.2% को हस्ताक्षरों द्वारा एनोटेट किया गया जो ीकरण के लिए लंबित हैं।[5]

InterPro coverage of amino acid residues in UniProtKB as of August 2020.png

इंटरप्रो में वैकल्पिक स्प्लिसिंग और यूनीपार्क और यूनीएमईएस डेटाबेस में मौजूद प्रोटीन का डेटा भी शामिल है।

इंटरप्रो कंसोर्टियम सदस्य डेटाबेस

इंटरप्रो के हस्ताक्षर 13 सदस्य डेटाबेस से आते हैं, जो नीचे सूचीबद्ध हैं।

CATH-Gene3D
संपूर्ण जीनोम में प्रोटीन परिवारों और डोमेन आर्किटेक्चर का वर्णन करता है। प्रोटीन परिवार मार्कोव क्लस्टरिंग एल्गोरिदम का उपयोग करके बनाए जाते हैं, जिसके बाद अनुक्रम पहचान के अनुसार मल्टी-लिंकेज क्लस्टरिंग होती है। पूर्वानुमानित संरचना और अनुक्रम डोमेन का मानचित्रण CATH और Pfam डोमेन का प्रतिनिधित्व करने वाले छिपे हुए मार्कोव मॉडल पुस्तकालयों का उपयोग करके किया जाता है। कई संसाधनों से प्रोटीन को कार्यात्मक एनोटेशन प्रदान किया जाता है। डोमेन आर्किटेक्चर की कार्यात्मक भविष्यवाणी और विश्लेषण Gene3D वेबसाइट पर उपलब्ध है।
सीडीडी
संरक्षित डोमेन डेटाबेस प्रोटीन एनोटेशन संसाधन है जिसमें प्राचीन डोमेन और पूर्ण-लंबाई प्रोटीन के लिए एनोटेटेड ाधिक अनुक्रम संरेखण मॉडल का संग्रह शामिल है। ये आरपीएस-ब्लास्ट के माध्यम से प्रोटीन अनुक्रमों में संरक्षित डोमेन की तेजी से पहचान के लिए स्थिति-विशिष्ट स्कोर मैट्रिक्स (पीएसएसएम) के रूप में उपलब्ध हैं।
HAMAP
माइक्रोबियल प्रोटीन के उच्च गुणवत्ता वाले स्वचालित और मैन्युअल एनोटेशन के लिए है। HAMAP प्रोफ़ाइल विशेषज्ञ क्यूरेटर द्वारा मैन्युअल रूप से बनाई जाती हैं, वे उन प्रोटीनों की पहचान करते हैं जो अच्छी तरह से संरक्षित बैक्टीरिया, आर्कियल और प्लास्टिड-एनकोडेड (यानी क्लोरोप्लास्ट, साइनेल, एपिकोप्लास्ट, गैर-प्रकाश संश्लेषक प्लास्टिड) प्रोटीन परिवारों या उपपरिवारों का हिस्सा हैं।
MobiDB
MobiDB प्रोटीन में आंतरिक विकार को दर्शाने वाला डेटाबेस है।
पैंथर
पैंथर प्रोटीन परिवारों का बड़ा संग्रह है जिसे मानव विशेषज्ञता का उपयोग करके कार्यात्मक रूप से संबंधित उप-परिवारों में विभाजित किया गया है। ये उपपरिवार प्रोटीन परिवारों के भीतर विशिष्ट कार्यों के विचलन को मॉडल करते हैं, जिससे फ़ंक्शन (मानव-क्यूरेटेड आणविक फ़ंक्शन और जैविक प्रक्रिया वर्गीकरण और मार्ग आरेख) के साथ अधिक सटीक जुड़ाव की अनुमति मिलती है, साथ ही कार्यात्मक विशिष्टता के लिए महत्वपूर्ण अमीनो एसिड का अनुमान भी लगाया जा सकता है। अतिरिक्त प्रोटीन अनुक्रमों को वर्गीकृत करने के लिए प्रत्येक परिवार और उपपरिवार के लिए हिडन मार्कोव मॉडल (एचएमएम) बनाए गए हैं।
Pfam
Is large collection of multiple sequence alignments and hidden Markov models covering many common protein domains and families.
बाएं
;पीआईआरएसएफ: प्रोटीन वर्गीकरण प्रणाली सुपरफैमिली से उपफैमिली तक अनुक्रम विविधता के कई स्तरों वाला नेटवर्क है जो पूर्ण-लंबाई प्रोटीन और डोमेन के विकासवादी संबंध को दर्शाता है। प्राथमिक पीआईआरएसएफ वर्गीकरण इकाई होमोमोर्फिक परिवार है, जिसके सदस्य समजात ( सामान्य पूर्वज से विकसित) और होमोमोर्फिक (पूर्ण लंबाई अनुक्रम समानता और सामान्य डोमेन वास्तुकला साझा करने वाले) दोनों हैं।
प्रिंट्स
प्रिंट्स प्रोटीन फ़िंगरप्रिंट्स का संग्रह है। फ़िंगरप्रिंट संरक्षित रूपांकनों का समूह है जिसका उपयोग प्रोटीन परिवार को चित्रित करने के लिए किया जाता है; इसकी नैदानिक ​​शक्ति को UniProt की पुनरावृत्तीय स्कैनिंग द्वारा परिष्कृत किया जाता है। आमतौर पर रूपांकन ओवरलैप नहीं होते हैं, बल्कि अनुक्रम के साथ अलग हो जाते हैं, हालांकि वे 3डी-स्पेस में सन्निहित हो सकते हैं। फ़िंगरप्रिंट ल रूपांकनों की तुलना में प्रोटीन सिलवटों और कार्यात्मकताओं को अधिक लचीले और शक्तिशाली ढंग से एनकोड कर सकते हैं, उनकी पूर्ण नैदानिक ​​क्षमता रूपांकन पड़ोसियों द्वारा प्रदान किए गए पारस्परिक संदर्भ से प्राप्त होती है।
कृपया
प्रोसाइट प्रोटीन परिवारों और डोमेन का डेटाबेस है। इसमें जैविक रूप से महत्वपूर्ण साइटें, पैटर्न और प्रोफाइल शामिल हैं जो विश्वसनीय रूप से यह पहचानने में मदद करते हैं कि नया अनुक्रम किस ज्ञात प्रोटीन परिवार (यदि कोई हो) से संबंधित है।
स्मार्ट
सरल मॉड्यूलर वास्तुकला अनुसंधान उपकरण आनुवंशिक रूप से मोबाइल डोमेन की पहचान और एनोटेशन और डोमेन आर्किटेक्चर के विश्लेषण की अनुमति देता है। सिग्नलिंग, बाह्यकोशिकीय और क्रोमैटिन से जुड़े प्रोटीन में पाए जाने वाले 800 से अधिक डोमेन परिवार पता लगाने योग्य हैं। इन डोमेन को फ़ाइलेटिक वितरण, कार्यात्मक वर्ग, तृतीयक संरचनाओं और कार्यात्मक रूप से महत्वपूर्ण अवशेषों के संबंध में बड़े पैमाने पर एनोटेट किया गया है।
सुपरफैमिली
सुपरफैमिली प्रोफाइल छिपे हुए मार्कोव मॉडल की लाइब्रेरी है जो ज्ञात संरचना के सभी प्रोटीन का प्रतिनिधित्व करती है। लाइब्रेरी प्रोटीन के संरचनात्मक वर्गीकरण डेटाबेस प्रोटीन के वर्गीकरण पर आधारित है: प्रत्येक मॉडल एससीओपी डोमेन से मेल खाता है और इसका उद्देश्य पूरे एससीओपी प्रोटीन सुपरफैमिली का प्रतिनिधित्व करना है जो डोमेन से संबंधित है। सुपरफ़ैमिली का उपयोग सभी पूर्णतः अनुक्रमित जीनोमों में संरचनात्मक कार्य करने के लिए किया गया है।
एसएफएलडी
एंजाइमों का श्रेणीबद्ध वर्गीकरण जो विशिष्ट अनुक्रम-संरचना विशेषताओं को विशिष्ट रासायनिक क्षमताओं से जोड़ता है।
TIGRFAMs
TIGRFAMs प्रोटीन परिवारों का संग्रह है, जिसमें क्यूरेटेड मल्टीपल अनुक्रम संरेखण, छिपे हुए मार्कोव मॉडल (HMM) और एनोटेशन शामिल हैं, जो अनुक्रम होमोलॉजी के आधार पर कार्यात्मक रूप से संबंधित प्रोटीन की पहचान करने के लिए उपकरण प्रदान करता है। वे प्रविष्टियाँ जो समतुल्य समूह हैं, समजात प्रोटीन हैं जो कार्य के संबंध में संरक्षित हैं।

डेटा प्रकार

इंटरप्रो में कंसोर्टियम के विभिन्न सदस्यों द्वारा प्रदान किए गए सात प्रकार के डेटा शामिल हैं:

Data Types of InterPro
Data Type Description Contributing Databases
InterPro Entries Structural and/or functional domains of proteins predicted using one or more signatures All 13 member databases
Member Database signatures Signatures from member databases. These include signatures that are integrated into InterPro, and those that are not All 13 member databases
Protein Protein sequences UniProtKB (Swiss-Prot and TrEMBL)
Proteome Collection of proteins that belong to a single organism UniProtKB
Structure 3-dimensional structures of proteins PDBe
Taxonomy Protein taxonomic information UniProtKB
Set Groups of evolutionary related families Pfam, CDD
प्रतीक जो इंटरप्रो (होमोलॉगस सुपरफैमिली, फैमिली, डोमेन, रिपीट या साइट) में पाए जाने वाले पांच प्रविष्टि प्रकारों की पहचान करते हैं।[7]

इंटरप्रो प्रविष्टि प्रकार

इंटरप्रो प्रविष्टियों को आगे पाँच प्रकारों में विभाजित किया जा सकता है:

  • होमोलॉगस सुपरफैमिली: प्रोटीन का समूह जो समान विकासवादी उत्पत्ति साझा करता है जैसा कि उनकी संरचनात्मक समानता में देखा जाता है, भले ही उनके अनुक्रम अत्यधिक समान न हों। ये प्रविष्टियाँ विशेष रूप से केवल दो सदस्य डेटाबेस द्वारा प्रदान की जाती हैं: CATH-Gene3D और SUPERFAMILY।
  • परिवार: प्रोटीन का समूह जिसकी सामान्य विकासवादी उत्पत्ति संरचनात्मक समानता, संबंधित कार्यों या अनुक्रम समरूपता के माध्यम से निर्धारित होती है।
  • डोमेन: किसी विशेष कार्य, संरचना या अनुक्रम के साथ प्रोटीन में विशिष्ट इकाई।
  • दोहराएँ: अमीनो एसिड का क्रम, आमतौर पर 50 अमीनो एसिड से अधिक नहीं, जो प्रोटीन में कई बार दोहराया जाता है।
  • साइट: अमीनो एसिड का छोटा अनुक्रम जहां कम से कम अमीनो एसिड संरक्षित होता है। इनमें अनुवाद के बाद का संशोधन|पोस्ट-ट्रांसलेशनल संशोधन साइटें, संरक्षित साइटें, बाध्यकारी साइट ें और सक्रिय साइटें शामिल हैं।

पहुँच

डेटाबेस वेबसर्वर के माध्यम से पाठ और अनुक्रम-आधारित खोजों के लिए और अनाम एफ़टीपी के माध्यम से डाउनलोड के लिए उपलब्ध है। अन्य यूरोपीय जैव सूचना विज्ञान संस्थान डेटाबेस की तरह, यह सार्वजनिक डोमेन में है, क्योंकि इसकी सामग्री का उपयोग कोई भी व्यक्ति और किसी भी उद्देश्य के लिए कर सकता है।[8] इंटरप्रो का लक्ष्य हर 8 सप्ताह में जनता के लिए डेटा जारी करना है, आमतौर पर समान प्रोटीन के UniProtKB रिलीज के दिन के भीतर।

इंटरप्रो एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई)

इंटरप्रो JSON प्रारूप में सभी इंटरप्रो प्रविष्टियों और उनकी संबंधित प्रविष्टियों तक प्रोग्रामेटिक पहुंच के लिए एपीआई प्रदान करता है।[9] विभिन्न इंटरप्रो डेटा प्रकारों के अनुरूप एपीआई के लिए छह मुख्य समापन बिंदु हैं: प्रविष्टि, प्रोटीन, संरचना, वर्गीकरण, प्रोटिओम और सेट।

इंटरप्रोस्कैन

इंटरप्रोस्कैन सॉफ्टवेयर पैकेज है जो उपयोगकर्ताओं को सदस्य डेटाबेस हस्ताक्षरों के विरुद्ध अनुक्रमों को स्कैन करने की अनुमति देता है। उपयोगकर्ता इस हस्ताक्षर स्कैनिंग सॉफ़्टवेयर का उपयोग नवीन न्यूक्लियोटाइड या प्रोटीन अनुक्रमों को कार्यात्मक रूप से चिह्नित करने के लिए कर सकते हैं।[10] रुचि के जीनोम का प्रथम-पास लक्षण वर्णन प्राप्त करने के लिए जीनोम परियोजनाओं में अक्सर इंटरप्रोस्कैन का उपयोग किया जाता है।[11][12] As of December 2020, इंटरप्रोस्कैन (v5.x) का सार्वजनिक संस्करण जावा (प्रोग्रामिंग भाषा)|जावा-आधारित आर्किटेक्चर का उपयोग करता है।[13] सॉफ़्टवेयर पैकेज वर्तमान में केवल 64-बिट लिनक्स ऑपरेटिंग सिस्टम पर समर्थित है।

इंटरप्रोस्कैन, कई अन्य ईएमबीएल-ईबीआई जैव सूचना विज्ञान उपकरणों के साथ, प्रतिनिधित्ववादी स्थिति में स्थानांतरण और एसओएपी वेब सर्विसेज एपीआई का उपयोग करके प्रोग्रामेटिक रूप से भी ्सेस किया जा सकता है।[14]

यह भी देखें

संदर्भ

  1. Blum M, Chang HY, Chuguransky S, Grego T, Kandasaamy S, Mitchell A, et al. (November 2020). "The InterPro protein families and domains database: 20 years on". Nucleic Acids Research. 49 (D1): D344–D354. doi:10.1093/nar/gkaa977. PMC 7778928. PMID 33156333.
  2. Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, et al. (January 2012). "InterPro in 2011: new developments in the family and domain prediction database". Nucleic Acids Research. 40 (Database issue): D306-12. doi:10.1093/nar/gkr948. PMC 3245097. PMID 22096229.
  3. Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, et al. (January 2001). "इंटरप्रो डेटाबेस, प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन". Nucleic Acids Research. 29 (1): 37–40. doi:10.1093/nar/29.1.37. PMC 29841. PMID 11125043.
  4. Apweiler R, Attwood TK, Bairoch A, Bateman A, Birney E, Biswas M, et al. (December 2000). "इंटरप्रो--प्रोटीन परिवारों, डोमेन और कार्यात्मक साइटों के लिए एक एकीकृत दस्तावेज़ीकरण संसाधन". Bioinformatics. 16 (12): 1145–50. doi:10.1093/bioinformatics/16.12.1145. PMID 11159333.
  5. 5.0 5.1 Blum, Matthias; Chang, Hsin-Yu; Chuguransky, Sara; Grego, Tiago; Kandasaamy, Swaathi; Mitchell, Alex; Nuka, Gift; Paysan-Lafosse, Typhaine; Qureshi, Matloob; Raj, Shriya; Richardson, Lorna (2020-11-06). "The InterPro protein families and domains database: 20 years on". Nucleic Acids Research (in English). 49 (D1): D344–D354. doi:10.1093/nar/gkaa977. ISSN 0305-1048. PMC 7778928. PMID 33156333.
  6. EMBL-EBI. "Where does the data come from? | InterPro" (in English). Retrieved 2020-12-04.
  7. EMBL-EBI. "InterPro entry types | InterPro" (in English). Retrieved 2020-12-04.
  8. "Terms of Use for EMBL-EBI Services | European Bioinformatics Institute".
  9. "How to download InterPro data? — InterPro Documentation". interpro-documentation.readthedocs.io. Retrieved 2020-12-04.
  10. Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (July 2005). "InterProScan: protein domains identifier" (Free full text). Nucleic Acids Research. 33 (Web Server issue): W116-20. doi:10.1093/nar/gki442. PMC 1160203. PMID 15980438.
  11. Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (February 2001). "प्रारंभिक अनुक्रमण और मानव जीनोम का विश्लेषण" (PDF). Nature. 409 (6822): 860–921. Bibcode:2001Natur.409..860L. doi:10.1038/35057062. PMID 11237011.
  12. Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, et al. (October 2002). "मलेरिया मच्छर एनोफ़ेलीज़ गैम्बिया का जीनोम अनुक्रम". Science. 298 (5591): 129–49. Bibcode:2002Sci...298..129H. CiteSeerX 10.1.1.149.9058. doi:10.1126/science.1076181. PMID 12364791. S2CID 4512225.
  13. Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, et al. (May 2014). "InterProScan 5: genome-scale protein function classification". Bioinformatics. 30 (9): 1236–40. doi:10.1093/bioinformatics/btu031. PMC 3998142. PMID 24451626.
  14. Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, et al. (July 2019). "The EMBL-EBI search and sequence analysis tools APIs in 2019". Nucleic Acids Research. 47 (W1): W636–W641. doi:10.1093/nar/gkz268. PMC 6602479. PMID 30976793.


बाहरी संबंध