यूनीप्रोट: Difference between revisions

From Vigyanwiki
(Created page with "{{short description|Database of protein sequences and functional information}} {{Distinguish|UniPro}} {{infobox biodatabase |title = UniProt |logo = [[Image:UPlogo1.png|220px]...")
 
No edit summary
Line 1: Line 1:
{{short description|Database of protein sequences and functional information}}
{{short description|Database of protein sequences and functional information}}
{{Distinguish|UniPro}}
{{Distinguish|यूनीप्रो}}
{{infobox biodatabase
{{infobox biodatabase
|title = UniProt
|title = UniProt
Line 29: Line 29:
}}
}}


UniProt [[प्रोटीन अनुक्रम]] और कार्यात्मक जानकारी का एक स्वतंत्र रूप से सुलभ डेटाबेस है, कई प्रविष्टियाँ [[जीनोम अनुक्रमण परियोजना]]ओं से प्राप्त की जा रही हैं। इसमें शोध साहित्य से प्राप्त प्रोटीन के जैविक कार्य के बारे में बड़ी मात्रा में जानकारी शामिल है। इसका रखरखाव यूनीप्रोट कंसोर्टियम द्वारा किया जाता है, जिसमें कई यूरोपीय जैव सूचना विज्ञान संगठन और वाशिंगटन, डीसी, संयुक्त राज्य अमेरिका का एक फाउंडेशन शामिल है।
'''यूनीप्रोट''' [[प्रोटीन अनुक्रम]] और कार्यात्मक जानकारी का एक स्वतंत्र रूप से सुलभ डेटाबेस है, कई प्रविष्टियाँ [[जीनोम अनुक्रमण परियोजना]]ओं से प्राप्त की जा रही हैं। इसमें शोध साहित्य से प्राप्त प्रोटीन के जैविक कार्य के बारे में बड़ी मात्रा में जानकारी सम्मिलित  है। इसका अनुरक्षित यूनीप्रोट कंसोर्टियम द्वारा किया जाता है, जिसमें कई यूरोपीय जैव सूचना विज्ञान संगठन और वाशिंगटन, डीसी, संयुक्त राज्य अमेरिका का एक फाउंडेशन सम्मिलित  है।


==यूनिप्रोट कंसोर्टियम==
==यूनिप्रोट कंसोर्टियम==


यूनीप्रोट कंसोर्टियम में [[यूरोपीय जैव सूचना विज्ञान संस्थान]] (ईबीआई), [[स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स]] (एसआईबी), और [[प्रोटीन सूचना संसाधन]] (पीआईआर) शामिल हैं। यूके के हिन्क्सटन में [[वेलकम ट्रस्ट जीनोम कैंपस]] में स्थित ईबीआई, जैव सूचना विज्ञान डेटाबेस और सेवाओं के एक बड़े संसाधन की मेजबानी करता है। स्विट्जरलैंड के जिनेवा में स्थित एसआईबी, [[एक्सपेसी]] (विशेषज्ञ प्रोटीन विश्लेषण प्रणाली) सर्वर का रखरखाव करता है जो प्रोटिओमिक्स उपकरण और डेटाबेस के लिए एक केंद्रीय संसाधन हैं। वाशिंगटन, डीसी, यूएस में जॉर्जटाउन यूनिवर्सिटी मेडिकल सेंटर में नेशनल बायोमेडिकल रिसर्च फाउंडेशन (एनबीआरएफ) द्वारा होस्ट किया गया पीआईआर, सबसे पुराने प्रोटीन अनुक्रम डेटाबेस, [[ मार्गरेट ओकले डेहॉफ़ ]] के एटलस ऑफ प्रोटीन सीक्वेंस एंड स्ट्रक्चर का उत्तराधिकारी है, जो पहली बार 1965 में प्रकाशित हुआ था।<ref name="dayhoff">{{cite book |author=Dayhoff, Margaret O. |title=प्रोटीन अनुक्रम और संरचना का एटलस|publisher=National Biomedical Research Foundation |location=Silver Spring, Md |year=1965 }}</ref> 2002 में, EBI, SIB और PIR UniProt कंसोर्टियम के रूप में शामिल हुए।<ref>{{cite web|url=http://www.genome.gov/page.cfm?pageID=10005283|title=2002 Release: NHGRI Funds Global Protein Database|website=National Human Genome Research Institute (NHGRI)|access-date=14 April 2018|archive-date=24 September 2015|archive-url=https://web.archive.org/web/20150924040602/http://www.genome.gov/page.cfm?pageID=10005283|url-status=dead}}</ref>
यूनीप्रोट कंसोर्टियम में [[यूरोपीय जैव सूचना विज्ञान संस्थान]] (ईबीआई), [[स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स]] (एसआईबी), और [[प्रोटीन सूचना संसाधन]] (पीआईआर) सम्मिलित  हैं। यूके के हिन्क्सटन में [[वेलकम ट्रस्ट जीनोम कैंपस]] में स्थित ईबीआई, जैव सूचना विज्ञान डेटाबेस और सेवाओं के एक बड़े संसाधन की होस्ट करता है। स्विट्जरलैंड के जिनेवा में स्थित एसआईबी, [[एक्सपेसी]] (विशेषज्ञ प्रोटीन विश्लेषण प्रणाली) सर्वर का रखरखाव करता है जो प्रोटिओमिक्स उपकरण और डेटाबेस के लिए एक केंद्रीय संसाधन हैं। वाशिंगटन, डीसी, यूएस में जॉर्जटाउन यूनिवर्सिटी मेडिकल सेंटर में नेशनल बायोमेडिकल रिसर्च फाउंडेशन (एनबीआरएफ) द्वारा होस्ट किया गया पीआईआर, सबसे पुराने प्रोटीन अनुक्रम डेटाबेस, [[ मार्गरेट ओकले डेहॉफ़ ]] के एटलस ऑफ प्रोटीन सीक्वेंस एंड स्ट्रक्चर का उत्तराधिकारी है, जो पहली बार 1965 में प्रकाशित हुआ था।<ref name="dayhoff">{{cite book |author=Dayhoff, Margaret O. |title=प्रोटीन अनुक्रम और संरचना का एटलस|publisher=National Biomedical Research Foundation |location=Silver Spring, Md |year=1965 }}</ref> 2002 में, ईबीआई, एसआईबी और पीर यूनीप्रोट कंसोर्टियम के रूप में सम्मिलित  हुए।<ref>{{cite web|url=http://www.genome.gov/page.cfm?pageID=10005283|title=2002 Release: NHGRI Funds Global Protein Database|website=National Human Genome Research Institute (NHGRI)|access-date=14 April 2018|archive-date=24 September 2015|archive-url=https://web.archive.org/web/20150924040602/http://www.genome.gov/page.cfm?pageID=10005283|url-status=dead}}</ref>




==यूनिप्रोट डेटाबेस की जड़ें==
==यूनिप्रोट डेटाबेस की जड़ें==


प्रत्येक कंसोर्टियम सदस्य प्रोटीन डेटाबेस रखरखाव और एनोटेशन में भारी रूप से शामिल है। हाल तक, EBI और SIB ने मिलकर स्विस-प्रोट और TrEMBL डेटाबेस का उत्पादन किया, जबकि PIR ने प्रोटीन अनुक्रम डेटाबेस (PIR-PSD) का उत्पादन किया।<ref name="pmid12230036">{{Cite journal
प्रत्येक कंसोर्टियम सदस्य प्रोटीन डेटाबेस रखरखाव और एनोटेशन में भारी रूप से सम्मिलित  है। वर्तमान तक, ईबीआई और एसआईबीने मिलकर स्विस-प्रोट और ट्रेमबीएल डेटाबेस का उत्पादन किया गया था जबकि पीआईआर ने प्रोटीन अनुक्रम डेटाबेस (पीआईआर-पीएसडी) का उत्पादन किया था।<ref name="pmid12230036">{{Cite journal
| doi = 10.1093/bib/3.3.275
| doi = 10.1093/bib/3.3.275
| last1 = O'Donovan | first1 = C.
| last1 = O'Donovan | first1 = C.
Line 100: Line 100:
}}</ref> ये डेटाबेस अलग-अलग [[पेप्टाइड अनुक्रम]] कवरेज और एनोटेशन प्राथमिकताओं के साथ सह-अस्तित्व में थे।
}}</ref> ये डेटाबेस अलग-अलग [[पेप्टाइड अनुक्रम]] कवरेज और एनोटेशन प्राथमिकताओं के साथ सह-अस्तित्व में थे।


स्विस-प्रोट को 1986 में [[अमोस बैरोच]] द्वारा अपनी पीएचडी के दौरान बनाया गया था और स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स द्वारा विकसित किया गया था और बाद में यूरोपीय बायोइनफॉरमैटिक्स इंस्टीट्यूट में [[रॉल्फ अप्वेइलर]] द्वारा विकसित किया गया था।<ref>{{Cite journal
स्विस-प्रोट को 1986 में [[अमोस बैरोच]] द्वारा अपनी पीएचडी के समय बनाया गया था और स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स द्वारा विकसित किया गया था और बाद में यूरोपीय बायोइनफॉरमैटिक्स इंस्टीट्यूट में [[रॉल्फ अप्वेइलर]] द्वारा विकसित किया गया था।<ref>{{Cite journal
| last1 = Bairoch | first1 = A.
| last1 = Bairoch | first1 = A.
| last2 = Apweiler | first2 = R.
| last2 = Apweiler | first2 = R.
Line 112: Line 112:
| pmc = 145613
| pmc = 145613
  | doi=10.1093/nar/24.1.21
  | doi=10.1093/nar/24.1.21
}}</ref><ref name=Bairoch2000>{{Cite journal | last1 = Bairoch | first1 = A. | title = जैव सूचना विज्ञान में आकस्मिकता, रोमांचक समय के दौरान एक स्विस जैव सूचना विज्ञानी की कठिनाइयाँ!| doi = 10.1093/bioinformatics/16.1.48 | journal = Bioinformatics | volume = 16 | issue = 1 | pages = 48–64 | year = 2000 | pmid =  10812477| doi-access = free }}</ref><ref>Séverine Altairac, "[http://expasy.org/prolune/pdf/prolune018_fr.pdf Naissance d’une banque de données: Interview du prof. Amos Bairoch]". ''[http://expasy.org/prolune/ Protéines à la Une]'', August 2006. {{ISSN|1660-9824}}.</ref> स्विस-प्रोट का उद्देश्य उच्च स्तर के एनोटेशन (जैसे प्रोटीन के कार्य का विवरण, इसकी [[प्रोटीन डोमेन]] संरचना, [[अनुवाद के बाद का संशोधन]] | पोस्ट-ट्रांसलेशनल संशोधन, वेरिएंट इत्यादि) से जुड़े विश्वसनीय प्रोटीन अनुक्रम प्रदान करना है। डेटा अतिरेक का स्तर और अन्य डेटाबेस के साथ उच्च स्तर का एकीकरण। यह मानते हुए कि अनुक्रम डेटा स्विस-प्रोट की क्षमता से अधिक गति से उत्पन्न हो रहा था, उन प्रोटीनों के लिए स्वचालित एनोटेशन प्रदान करने के लिए TrEMBL (अनुवादित ईएमबीएल न्यूक्लियोटाइड अनुक्रम डेटा लाइब्रेरी) बनाया गया था जो स्विस-प्रोट में नहीं हैं। इस बीच, पीआईआर ने पीआईआर-पीएसडी और संबंधित डेटाबेस बनाए रखा, जिसमें [[आईप्रोक्लास]], प्रोटीन अनुक्रमों और क्यूरेटेड परिवारों का डेटाबेस शामिल है।
}}</ref><ref name=Bairoch2000>{{Cite journal | last1 = Bairoch | first1 = A. | title = जैव सूचना विज्ञान में आकस्मिकता, रोमांचक समय के दौरान एक स्विस जैव सूचना विज्ञानी की कठिनाइयाँ!| doi = 10.1093/bioinformatics/16.1.48 | journal = Bioinformatics | volume = 16 | issue = 1 | pages = 48–64 | year = 2000 | pmid =  10812477| doi-access = free }}</ref><ref>Séverine Altairac, "[http://expasy.org/prolune/pdf/prolune018_fr.pdf Naissance d’une banque de données: Interview du prof. Amos Bairoch]". ''[http://expasy.org/prolune/ Protéines à la Une]'', August 2006. {{ISSN|1660-9824}}.</ref> स्विस-प्रोट का उद्देश्य उच्च स्तर के एनोटेशन (जैसे प्रोटीन के कार्य का विवरण, इसकी [[प्रोटीन डोमेन]] संरचना, [[अनुवाद के बाद का संशोधन]] या पोस्ट-ट्रांसलेशनल संशोधन, वेरिएंट इत्यादि) से जुड़े विश्वसनीय प्रोटीन अनुक्रम प्रदान करना है। डेटा अतिरेक का स्तर और अन्य डेटाबेस के साथ उच्च स्तर का एकीकरण यह मानते हुए कि अनुक्रम डेटा स्विस-प्रोट की क्षमता से अधिक गति से उत्पन्न हो रहा था, उन प्रोटीनों के लिए स्वचालित एनोटेशन प्रदान करने के लिए ट्रेमबीएल (अनुवादित ईएमबीएल न्यूक्लियोटाइड अनुक्रम डेटा लाइब्रेरी) बनाया गया था जो स्विस-प्रोट में नहीं हैं। इस बीच, पीआईआर ने पीआईआर-पीएसडी और संबंधित डेटाबेस बनाए रखा, जिसमें [[आईप्रोक्लास]], प्रोटीन अनुक्रमों और क्यूरेटेड वर्गों का डेटाबेस सम्मिलित  है।


कंसोर्टियम के सदस्यों ने अपने ओवरलैपिंग संसाधनों और विशेषज्ञता को एकत्रित किया, और दिसंबर 2003 में यूनीप्रोट लॉन्च किया।<ref name="pmid15036160" />
कंसोर्टियम के सदस्यों ने अपने ओवरलैपिंग संसाधनों और विशेषज्ञता को एकत्रित किया गया था और दिसंबर 2003 में यूनीप्रोट लॉन्च किया था।<ref name="pmid15036160" />




==यूनीप्रोट डेटाबेस का संगठन==
==यूनीप्रोट डेटाबेस का संगठन==


UniProt चार मुख्य डेटाबेस प्रदान करता है: UniProtKB (उप-भागों स्विस-प्रोट और TrEMBL के साथ), UniParc, UniRef और Proteome।
यूनीप्रोट चार मुख्य डेटाबेस प्रदान करता है: यूनीप्रोटकेबी (उप-भागों स्विस-प्रोट और ट्रेमबीएल के साथ), यूनीपार्क, यूनीरेफ और प्रोटिओम है।


===UniProtKB===
===यूनीप्रोटकेबी===


UniProt नॉलेजबेस (UniProtKB) एक प्रोटीन डेटाबेस है जिसे आंशिक रूप से विशेषज्ञों द्वारा तैयार किया गया है, जिसमें दो खंड शामिल हैं: UniProtKB/स्विस-प्रोट (जिसमें समीक्षा की गई, मैन्युअल रूप से एनोटेटेड प्रविष्टियाँ शामिल हैं) और UniProtKB/TrEMBL (बिना समीक्षा की गई, स्वचालित रूप से एनोटेटेड प्रविष्टियाँ शामिल हैं)।<ref name="pmid19843607">{{Cite journal
यूनीप्रोट नॉलेजबेस (यूनीप्रोटकेबी) एक प्रोटीन डेटाबेस है जिसे आंशिक रूप से विशेषज्ञों द्वारा तैयार किया गया है, जिसमें दो खंड सम्मिलित  हैं: यूनीप्रोटकेबी/स्विस-प्रोट (जिसमें समीक्षा की गई, मैन्युअल रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित हैं) और यूनीप्रोटकेबी/ट्रेमबीएल (बिना समीक्षा की गई, स्वचालित रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित  हैं)।<ref name="pmid19843607">{{Cite journal
| last1 = Uniprot | first1 = C.
| last1 = Uniprot | first1 = C.
| title = The Universal Protein Resource (UniProt) in 2010
| title = The Universal Protein Resource (UniProt) in 2010
Line 134: Line 134:
| pmid = 19843607
| pmid = 19843607
| pmc =2808944
| pmc =2808944
}}</ref> {{As of|2023|02|22}}, UniProtKB/Swiss-Prot की रिलीज 2023_01 में 569,213 अनुक्रम प्रविष्टियां शामिल हैं (291,046 संदर्भों से निकाले गए 205,728,242 अमीनो एसिड शामिल हैं) और UniProtKB/TrEMBL की रिलीज 2023_01 में 245,871,724 अनुक्रम प्रविष्टियां शामिल हैं (85,739,380 शामिल हैं) ,194 अमीनो एसिड)।<ref name=SPstats>{{cite web|url=https://web.expasy.org/docs/relnotes/relstat.html|title=UniProtKB/Swiss-Prot Release 2023_01 statistics|website=web.expasy.org|access-date=31 March 2023}}</ref>
}}</ref> {{As of|2023|02|22}}, यूनीप्रोटकेबी/स्विस-प्रोट की रिलीज 2023_01 में 569,213 अनुक्रम प्रविष्टियां सम्मिलित  हैं (291,046 संदर्भों से निकाले गए 205,728,242 अमीनो अम्ल सम्मिलित  हैं) और यूनीप्रोटकेबी/ट्रेमबीएल की रिलीज 2023_01 में 245,871,724 अनुक्रम प्रविष्टियां सम्मिलित  हैं ((85,739,380,194 अमीनो अम्ल  से युक्त है )।<ref name=SPstats>{{cite web|url=https://web.expasy.org/docs/relnotes/relstat.html|title=UniProtKB/Swiss-Prot Release 2023_01 statistics|website=web.expasy.org|access-date=31 March 2023}}</ref>




====UniProtKB/स्विस-प्रोट====
====यूनीप्रोटकेबी/स्विस-प्रोट====


UniProtKB/स्विस-प्रोट एक मैन्युअल रूप से एनोटेटेड, गैर-अनावश्यक प्रोटीन अनुक्रम डेटाबेस है। यह वैज्ञानिक साहित्य और [[बायोक्यूरेटर]]-मूल्यांकन कम्प्यूटेशनल विश्लेषण से निकाली गई जानकारी को जोड़ती है। UniProtKB/स्विस-प्रोट का उद्देश्य एक विशेष प्रोटीन के बारे में सभी ज्ञात प्रासंगिक जानकारी प्रदान करना है। वर्तमान वैज्ञानिक निष्कर्षों को ध्यान में रखने के लिए एनोटेशन की नियमित रूप से समीक्षा की जाती है। किसी प्रविष्टि के मैनुअल एनोटेशन में प्रोटीन अनुक्रम और वैज्ञानिक साहित्य का विस्तृत विश्लेषण शामिल होता है।<ref name="faq45">{{cite web|url=https://www.uniprot.org/faq/45|title=How do we manually annotate a UniProtKB entry?|website=www.uniprot.org|access-date=14 April 2018}}</ref>
यूनीप्रोटकेबी/स्विस-प्रोट एक मैन्युअल रूप से एनोटेटेड, गैर-अनावश्यक प्रोटीन अनुक्रम डेटाबेस है। यह वैज्ञानिक साहित्य और [[बायोक्यूरेटर]]-मूल्यांकन कम्प्यूटेशनल विश्लेषण से निकाली गई जानकारी को जोड़ती है। यूनीप्रोटकेबी/स्विस-प्रोट का उद्देश्य एक विशेष प्रोटीन के बारे में सभी ज्ञात प्रासंगिक जानकारी प्रदान करना है। वर्तमान वैज्ञानिक निष्कर्षों को ध्यान में रखने के लिए एनोटेशन की नियमित रूप से समीक्षा की जाती है। किसी प्रविष्टि के मैनुअल एनोटेशन में प्रोटीन अनुक्रम और वैज्ञानिक साहित्य का विस्तृत विश्लेषण सम्मिलित  होता है।<ref name="faq45">{{cite web|url=https://www.uniprot.org/faq/45|title=How do we manually annotate a UniProtKB entry?|website=www.uniprot.org|access-date=14 April 2018}}</ref>
एक ही [[जीन]] और एक ही प्रजाति के अनुक्रमों को एक ही डेटाबेस प्रविष्टि में मिला दिया जाता है। अनुक्रमों के बीच अंतर की पहचान की जाती है, और उनके कारण का दस्तावेजीकरण किया जाता है (उदाहरण के लिए वैकल्पिक स्प्लिसिंग, [[आनुवंशिक विविधता]], गलत यूकेरियोटिक अनुवाद#दीक्षा स्थल, गलत [[एक्सॉन]] सीमाएँ, फ़्रेमशिफ्ट उत्परिवर्तन, अज्ञात संघर्ष)। UniProtKB/स्विस-प्रोट प्रविष्टियों के एनोटेशन में अनुक्रम विश्लेषण उपकरणों की एक श्रृंखला का उपयोग किया जाता है। कंप्यूटर-भविष्यवाणियों का मैन्युअल रूप से मूल्यांकन किया जाता है, और प्रासंगिक परिणामों को प्रविष्टि में शामिल करने के लिए चुना जाता है। इन भविष्यवाणियों में पोस्ट-ट्रांसलेशनल संशोधन, [[ट्रांसमेम्ब्रेन डोमेन]] और [[ झिल्ली टोपोलॉजी ]], [[सिग्नल पेप्टाइड]]्स, डोमेन पहचान और [[प्रोटीन परिवार]] वर्गीकरण शामिल हैं।<ref name="faq45" /><ref name="pmid14681372">{{Cite journal
 
एक ही [[जीन]] और एक ही प्रजाति के अनुक्रमों को एक ही डेटाबेस प्रविष्टि में मिला दिया जाता है। अनुक्रमों के बीच अंतर की पहचान की जाती है, और उनके कारण का डॉक्यूमेंटेड  किया जाता है (उदाहरण के लिए वैकल्पिक स्प्लिसिंग, [[आनुवंशिक विविधता|अल्टरनेटिव स्प्लिसिंग]], इन्कोर्रेक्ट यूकेरियोटिक अनुवाद या दीक्षा स्थल, इन्कोर्रेक्ट [[एक्सॉन]] सीमाएँ, फ़्रेमशिफ्ट उत्परिवर्तन, अज्ञात संघर्ष)। यूनीप्रोटकेबी/स्विस-प्रोट प्रविष्टियों के एनोटेशन में अनुक्रम विश्लेषण उपकरणों की एक श्रृंखला का उपयोग किया जाता है। कंप्यूटर-पूर्वानुमान का मैन्युअल रूप से मूल्यांकन किया जाता है, और प्रासंगिक परिणामों को प्रविष्टि में सम्मिलित  करने के लिए चुना जाता है। इन पूर्वानुमान में पोस्ट-ट्रांसलेशनल संशोधन, [[ट्रांसमेम्ब्रेन डोमेन]] और [[ झिल्ली टोपोलॉजी | मेम्ब्रेन टोपोलॉजी]] , [[सिग्नल पेप्टाइड]], डोमेन पहचान और [[प्रोटीन परिवार|प्रोटीन वर्ग]] वर्गीकरण सम्मिलित  हैं।<ref name="faq45" /><ref name="pmid14681372">{{Cite journal
| last1 = Apweiler | first1 = R.
| last1 = Apweiler | first1 = R.
| last2 = Bairoch | first2 = A.
| last2 = Bairoch | first2 = A.
Line 166: Line 167:
| pmc =308865
| pmc =308865
}}</ref>
}}</ref>
[[PubMed]] जैसे डेटाबेस खोजकर प्रासंगिक प्रकाशनों की पहचान की जाती है। प्रत्येक पेपर का पूरा पाठ पढ़ा जाता है, और जानकारी निकालकर प्रविष्टि में जोड़ दी जाती है। वैज्ञानिक साहित्य से उत्पन्न होने वाली टिप्पणियों में निम्नलिखित शामिल हैं, लेकिन यह इन्हीं तक सीमित नहीं हैं:<ref name="pmid15036160">{{Cite journal | last1 = Apweiler | first1 = R. | last2 = Bairoch | first2 = A. | last3 = Wu | first3 = C. H. | doi = 10.1016/j.cbpa.2003.12.004 | title = प्रोटीन अनुक्रम डेटाबेस| journal = Current Opinion in Chemical Biology | volume = 8 | issue = 1 | pages = 76–80 | year = 2004 | pmid =  15036160}}</ref><ref name="faq45" /><ref name="pmid14681372" />*प्रोटीन और जीन के नाम
 
*समारोह
[[PubMed|पबमेड]] जैसे डेटाबेस खोजकर प्रासंगिक प्रकाशनों की पहचान की जाती है। प्रत्येक पेपर का पूरा पाठ पढ़ा जाता है, और जानकारी निकालकर प्रविष्टि में जोड़ दी जाती है। वैज्ञानिक साहित्य से उत्पन्न होने वाली टिप्पणियों में निम्नलिखित सम्मिलित  हैं, किंतु यह इन्हीं तक सीमित नहीं हैं:<ref name="pmid15036160">{{Cite journal | last1 = Apweiler | first1 = R. | last2 = Bairoch | first2 = A. | last3 = Wu | first3 = C. H. | doi = 10.1016/j.cbpa.2003.12.004 | title = प्रोटीन अनुक्रम डेटाबेस| journal = Current Opinion in Chemical Biology | volume = 8 | issue = 1 | pages = 76–80 | year = 2004 | pmid =  15036160}}</ref><ref name="faq45" /><ref name="pmid14681372" />
*[[ एनजाइम ]]-विशिष्ट जानकारी जैसे [[कटैलिसीस]], कॉफ़ेक्टर (जैव रसायन) और [[सक्रिय साइट]]
 
*प्रोटीन और जीन के नाम
*फलन
*[[ एनजाइम | एनजाइम]] -विशिष्ट जानकारी जैसे [[कटैलिसीस]], कॉफ़ेक्टर (जैव रसायन) और [[सक्रिय साइट]]
*[[उपकोशिकीय स्थानीयकरण]]
*[[उपकोशिकीय स्थानीयकरण]]
*प्रोटीन-प्रोटीन अन्योन्यक्रिया
*प्रोटीन-प्रोटीन अन्योन्यक्रिया
Line 176: Line 180:
*प्राकृतिक आनुवंशिक भिन्नता, [[आरएनए संपादन]], वैकल्पिक स्प्लिसिंग, [[प्रोटियोलिटिक]] प्रसंस्करण और पोस्ट-ट्रांसलेशनल संशोधन द्वारा उत्पादित प्रोटीन प्रकार के रूप
*प्राकृतिक आनुवंशिक भिन्नता, [[आरएनए संपादन]], वैकल्पिक स्प्लिसिंग, [[प्रोटियोलिटिक]] प्रसंस्करण और पोस्ट-ट्रांसलेशनल संशोधन द्वारा उत्पादित प्रोटीन प्रकार के रूप


एनोटेटेड प्रविष्टियाँ UniProtKB/स्विस-प्रोट में शामिल करने से पहले गुणवत्ता आश्वासन से गुजरती हैं। जब नया डेटा उपलब्ध हो जाता है, तो प्रविष्टियाँ अद्यतन की जाती हैं।
एनोटेटेड प्रविष्टियाँ यूनीप्रोटकेबी/स्विस-प्रोट में सम्मिलित  करने से पहले गुणवत्ता आश्वासन से गुजरती हैं। जब नया डेटा उपलब्ध हो जाता है, तो प्रविष्टियाँ अपडेट  की जाती हैं।
 
====यूनीप्रोटकेबी/ट्रेमबीएल====


====UniProtKB/TrEMBL====
यूनीप्रोटकेबी/ट्रेमबीएल में उच्च गुणवत्ता वाले कम्प्यूटेशनल रूप से विश्लेषण किए गए रिकॉर्ड सम्मिलित  हैं, जो स्वचालित एनोटेशन से समृद्ध हैं। इसे जीनोम परियोजनाओं के परिणामस्वरूप बढ़े हुए डेटा प्रवाह के जवाब में पेश किया गया था, क्योंकि यूनीप्रोटकेबी/स्विस-प्रोट की समय और श्रम लेने वाली मैनुअल एनोटेशन प्रक्रिया को सभी उपलब्ध प्रोटीन अनुक्रमों को सम्मिलित  करने के लिए विस्तृत नहीं किया जा सकता है।<ref name="pmid15036160" /> एनएसडीसी या ईएमबीएल-बैंक/जेनबैंक/डीडीबीजे न्यूक्लियोटाइड अनुक्रम डेटाबेस में एनोटेटेड कोडिंग अनुक्रमों के अनुवाद स्वचालित रूप से संसाधित होते हैं और यूनीप्रोटकेबी/ट्रेमबीएल में अंकित किए जाते हैं।यूनीप्रोटकेबी/ट्रेमबीएल में [[प्रोटीन डाटा बैंक]] और जीन पूर्वानुमान से अनुक्रम भी सम्मिलित  हैं, जिसमें [[साथ में]], [[RefSeq|रेफरसेक]] और [[सर्वसम्मति सीडीएस परियोजना]] सम्मिलित  है।<ref name="faq37">{{cite web|url=https://www.uniprot.org/faq/37|title=Where do the UniProtKB protein sequences come from?|website=www.uniprot.org|access-date=14 April 2018}}</ref> 22 जुलाई 2021 से इसमें [[ अल्फ़ाफ़ोल्ड | अल्फ़ाफ़ोल्ड]] तृतीयक के साथ पूर्वानुमान भी सम्मिलित  है और अल्फाफोल्ड-मल्टीमर  चतुर्धातुक संरचनाएँ भी कर सकता है<ref>{{Cite journal|last1=Humphreys|first1=Ian R.|last2=Pei|first2=Jimin|last3=Baek|first3=Minkyung|last4=Krishnakumar|first4=Aditya|last5=Anishchenko|first5=Ivan|last6=Ovchinnikov|first6=Sergey|last7=Zhang|first7=Jing|last8=Ness|first8=Travis J.|last9=Banjade|first9=Sudeep|last10=Bagde|first10=Saket R.|last11=Stancheva|first11=Viktoriya G.|title=कोर यूकेरियोटिक प्रोटीन कॉम्प्लेक्स की गणना की गई संरचनाएं|journal=Science|year=2021|volume=374|issue=6573|pages=eabm4805|doi=10.1126/science.abm4805|pmid=34762488|pmc=7612107}}</ref><ref>{{cite web |title=अल्फाफोल्ड की शक्ति को दुनिया के हाथों में सौंपना|url=https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands |website=Deepmind |access-date=24 July 2021}}</ref>


UniProtKB/TrEMBL में उच्च गुणवत्ता वाले कम्प्यूटेशनल रूप से विश्लेषण किए गए रिकॉर्ड शामिल हैं, जो स्वचालित एनोटेशन से समृद्ध हैं। इसे जीनोम परियोजनाओं के परिणामस्वरूप बढ़े हुए डेटा प्रवाह के जवाब में पेश किया गया था, क्योंकि UniProtKB/स्विस-प्रोट की समय और श्रम लेने वाली मैनुअल एनोटेशन प्रक्रिया को सभी उपलब्ध प्रोटीन अनुक्रमों को शामिल करने के लिए विस्तृत नहीं किया जा सका।<ref name="pmid15036160" />INSDC|EMBL-Bank/GenBank/DDBJ न्यूक्लियोटाइड अनुक्रम डेटाबेस में एनोटेटेड कोडिंग अनुक्रमों के अनुवाद स्वचालित रूप से संसाधित होते हैं और UniProtKB/TrEMBL में दर्ज किए जाते हैं।
UniProtKB/TrEMBL में [[प्रोटीन डाटा बैंक]] और जीन भविष्यवाणी से अनुक्रम भी शामिल हैं, जिसमें [[साथ में]], [[RefSeq]] और [[सर्वसम्मति सीडीएस परियोजना]] शामिल है।<ref name="faq37">{{cite web|url=https://www.uniprot.org/faq/37|title=Where do the UniProtKB protein sequences come from?|website=www.uniprot.org|access-date=14 April 2018}}</ref> 22 जुलाई 2021 से इसमें [[ अल्फ़ाफ़ोल्ड ]] तृतीयक के साथ भविष्यवाणी भी शामिल है और अल्फाफोल्ड-मल्टीमर चतुर्धातुक भी कर सकता है<ref>{{Cite journal|last1=Humphreys|first1=Ian R.|last2=Pei|first2=Jimin|last3=Baek|first3=Minkyung|last4=Krishnakumar|first4=Aditya|last5=Anishchenko|first5=Ivan|last6=Ovchinnikov|first6=Sergey|last7=Zhang|first7=Jing|last8=Ness|first8=Travis J.|last9=Banjade|first9=Sudeep|last10=Bagde|first10=Saket R.|last11=Stancheva|first11=Viktoriya G.|title=कोर यूकेरियोटिक प्रोटीन कॉम्प्लेक्स की गणना की गई संरचनाएं|journal=Science|year=2021|volume=374|issue=6573|pages=eabm4805|doi=10.1126/science.abm4805|pmid=34762488|pmc=7612107}}</ref> संरचनाएँ।<ref>{{cite web |title=अल्फाफोल्ड की शक्ति को दुनिया के हाथों में सौंपना|url=https://deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands |website=Deepmind |access-date=24 July 2021}}</ref>




===यूनीपार्क===
===यूनीपार्क===


UniProt Archive (UniParc) एक व्यापक और गैर-अनावश्यक डेटाबेस है, जिसमें मुख्य, सार्वजनिक रूप से उपलब्ध प्रोटीन अनुक्रम डेटाबेस से सभी प्रोटीन अनुक्रम शामिल हैं।<ref name="pmid15044231">{{Cite journal
यूनीप्रोट संग्रह (यूनीपार्क) एक व्यापक और गैर-अनावश्यक डेटाबेस है, जिसमें मुख्य, सार्वजनिक रूप से उपलब्ध प्रोटीन अनुक्रम डेटाबेस से सभी प्रोटीन अनुक्रम सम्मिलित  हैं।<ref name="pmid15044231">{{Cite journal
| last1 = Leinonen | first1 = R.
| last1 = Leinonen | first1 = R.
| last2 = Diez | first2 = F. G.
| last2 = Diez | first2 = F. G.
Line 202: Line 206:
| pmid = 15044231
| pmid = 15044231
| doi-access = free
| doi-access = free
}}</ref> प्रोटीन कई अलग-अलग स्रोत डेटाबेस में और एक ही डेटाबेस में कई प्रतियों में मौजूद हो सकते हैं। अतिरेक से बचने के लिए, UniParc प्रत्येक अद्वितीय अनुक्रम को केवल एक बार संग्रहीत करता है। समान अनुक्रमों को मिला दिया जाता है, भले ही वे एक ही या अलग-अलग प्रजातियों से हों। प्रत्येक अनुक्रम को एक स्थिर और विशिष्ट पहचानकर्ता (UPI) दिया जाता है, जिससे विभिन्न स्रोत डेटाबेस से एक ही प्रोटीन की पहचान करना संभव हो जाता है। UniParc में केवल प्रोटीन अनुक्रम होते हैं, बिना किसी एनोटेशन के। UniParc प्रविष्टियों में डेटाबेस क्रॉस-रेफरेंस स्रोत डेटाबेस से प्रोटीन के बारे में अधिक जानकारी प्राप्त करने की अनुमति देता है। जब स्रोत डेटाबेस में अनुक्रम बदलते हैं, तो इन परिवर्तनों को UniParc द्वारा ट्रैक किया जाता है और सभी परिवर्तनों का इतिहास संग्रहीत किया जाता है।
}}</ref> प्रोटीन कई अलग-अलग स्रोत डेटाबेस में और एक ही डेटाबेस में कई प्रतियों में उपस्थित हो सकते हैं। अतिरेक से बचने के लिए, यूनीपार्क प्रत्येक अद्वितीय अनुक्रम को केवल एक बार संग्रहीत करता है। समान अनुक्रमों को मिला दिया जाता है, तथापि  वे एक ही या अलग-अलग प्रजातियों से हों सकती है । प्रत्येक अनुक्रम को एक स्थिर और विशिष्ट पहचानकर्ता (यूपीआई) दिया जाता है, जिससे विभिन्न स्रोत डेटाबेस से एक ही प्रोटीन की पहचान करना संभव हो जाता है। यूनीपार्क में केवल प्रोटीन अनुक्रम होते हैं, बिना किसी एनोटेशन के यूनीपार्क प्रविष्टियों में डेटाबेस क्रॉस-रेफरेंस स्रोत डेटाबेस से प्रोटीन के बारे में अधिक जानकारी प्राप्त करने की अनुमति देता है। जब स्रोत डेटाबेस में अनुक्रम बदलते हैं, तो इन परिवर्तनों को यूनीपार्क द्वारा ट्रैक किया जाता है और सभी परिवर्तनों का इतिहास संग्रहीत किया जाता है।


====स्रोत डेटाबेस====
====स्रोत डेटाबेस====


वर्तमान में UniParc में निम्नलिखित सार्वजनिक रूप से उपलब्ध डेटाबेस से प्रोटीन अनुक्रम शामिल हैं:
वर्तमान में यूनीपार्क में निम्नलिखित सार्वजनिक रूप से उपलब्ध डेटाबेस से प्रोटीन अनुक्रम सम्मिलित  हैं:
* [[आईएनएसडीसी]] [[ईएमबीएल]]-बैंक/[[डीडीबीजे]]/[[ GenBank ]] न्यूक्लियोटाइड अनुक्रम डेटाबेस
* [[आईएनएसडीसी]] [[ईएमबीएल]]-बैंक/[[डीडीबीजे]]/[[ GenBank | जेनबैंक]] न्यूक्लियोटाइड अनुक्रम डेटाबेस
* पहनावा
* एन्सेम्बल
*[[यूरोपीय पेटेंट कार्यालय]] (ईपीओ)
*[[यूरोपीय पेटेंट कार्यालय]] (ईपीओ)
* फ्लाईबेस|फ्लाईबेस: कीट परिवार ड्रोसोफिलिडे (फ्लाईबेस) के लिए आनुवंशिक और आणविक डेटा का प्राथमिक भंडार
* फ्लाईबेस: कीट वर्ग ड्रोसोफिलिडे (फ्लाईबेस) के लिए आनुवंशिक और आणविक डेटा का प्राथमिक संचयन
* [[एच-आमंत्रण]]|एच-आमंत्रण डेटाबेस (एच-आमंत्रण)
* [[एच-आमंत्रण]] '''एच-आमंत्रण''' डेटाबेस (एच-आमंत्रण)
* [[अंतर्राष्ट्रीय प्रोटीन सूचकांक]] (आईपीआई)
* [[अंतर्राष्ट्रीय प्रोटीन सूचकांक]] (आईपीआई)
* [[जापान पेटेंट कार्यालय]] (जेपीओ)
* [[जापान पेटेंट कार्यालय]] (जेपीओ)
Line 217: Line 221:
* प्रोटीन डाटा बैंक (पीडीबी)
* प्रोटीन डाटा बैंक (पीडीबी)
* [[प्रोटीन रिसर्च फाउंडेशन]] (पीआरएफ)<ref>{{Cite web|url=http://www.prf.or.jp/index-e.html|title=Protein Research Foundation}}</ref>
* [[प्रोटीन रिसर्च फाउंडेशन]] (पीआरएफ)<ref>{{Cite web|url=http://www.prf.or.jp/index-e.html|title=Protein Research Foundation}}</ref>
* RefSeq
* रेफसेक
* सै[[क्रोम]]ाइसेस जीनोम डेटाबेस (एसजीडी)
* सै[[क्रोम]]इसेस जीनोम डेटाबेस (एसजीडी)
* [[अरेबिडोप्सिस सूचना संसाधन]] (टीएआईआर)
* [[अरेबिडोप्सिस सूचना संसाधन]] (टीएआईआर)
* क्रोम<ref>ftp://ftp.isrec.isb-sib.ch/pub/databases/trome{{Dead link|date=February 2022 |bot=InternetArchiveBot |fix-attempted=yes }}</ref>
* क्रोम<ref>ftp://ftp.isrec.isb-sib.ch/pub/databases/trome{{Dead link|date=February 2022 |bot=InternetArchiveBot |fix-attempted=yes }}</ref>
[[अमेरिकी पेटेंट कार्यालय]] कार्यालय (यूएसपीटीओ)
[[अमेरिकी पेटेंट कार्यालय]] कार्यालय (यूएसपीटीओ)
* UniProtKB/स्विस-प्रोट, UniProtKB/स्विस-प्रोट प्रोटीन आइसोफॉर्म, UniProtKB/TrEMBL
* यूनीप्रोटकेबी/स्विस-प्रोट, यूनीप्रोटकेबी/स्विस-प्रोट प्रोटीन आइसोफॉर्म, यूनीप्रोटकेबी/ट्रेमबीएल
* [[कशेरुक और जीनोम एनोटेशन डेटाबेस]] (वेगा)
* [[कशेरुक और जीनोम एनोटेशन डेटाबेस]] (वेगा)
* [[वर्मबेस]]
* [[वर्मबेस]]


===UniRef===
===यूनीरेफ़===


UniProt रेफरेंस क्लस्टर्स (UniRef) में UniProtKB और चयनित UniParc रिकॉर्ड से प्रोटीन अनुक्रमों के क्लस्टर सेट के तीन डेटाबेस शामिल हैं।<ref name="pmid17379688">{{Cite journal
यूनीप्रोट रेफरेंस क्लस्टर्स (यूनीरेफ़) में यूनीप्रोटकेबी और चयनित यूनीपार्क रिकॉर्ड से प्रोटीन अनुक्रमों के क्लस्टर सेट के तीन डेटाबेस सम्मिलित  हैं।<ref name="pmid17379688">{{Cite journal
| last1 = Suzek | first1 = B. E.
| last1 = Suzek | first1 = B. E.
| last2 = Huang | first2 = H.
| last2 = Huang | first2 = H.
Line 243: Line 247:
| pmid = 17379688
| pmid = 17379688
| doi-access = free
| doi-access = free
}}</ref> UniRef100 डेटाबेस समान अनुक्रमों और अनुक्रम टुकड़ों (किसी भी [[जीव]] से) को एक एकल UniRef प्रविष्टि में जोड़ता है। एक प्रतिनिधि प्रोटीन का अनुक्रम, सभी मर्ज की गई प्रविष्टियों की [[परिग्रहण संख्या (जैव सूचना विज्ञान)]] और संबंधित UniProtKB और UniParc रिकॉर्ड के लिंक प्रदर्शित किए जाते हैं। UniRef100 अनुक्रमों को UniRef90 और UniRef50 बनाने के लिए CD-HIT [[कलन विधि]] का उपयोग करके क्लस्टर किया गया है।<ref name="pmid17379688"/><ref name="pmid11294794">{{Cite journal
}}</ref> यूनीरेफ़100 डेटाबेस समान अनुक्रमों और अनुक्रम टुकड़ों (किसी भी [[जीव]] से) को एक एकल यूनीरेफ़ प्रविष्टि में जोड़ता है। एक प्रतिनिधि प्रोटीन का अनुक्रम, सभी मर्ज की गई प्रविष्टियों की [[परिग्रहण संख्या (जैव सूचना विज्ञान)]] और संबंधित यूनीप्रोटकेबी और यूनीपार्क रिकॉर्ड के लिंक प्रदर्शित किए जाते हैं। यूनीरेफ़100 अनुक्रमों को यूनीरेफ़90 और यूनीरेफ़50 बनाने के लिए सीडी-हिट [[कलन विधि|अल्गोरिथम विधि]] का उपयोग करके क्लस्टर किया गया है।<ref name="pmid17379688"/><ref name="pmid11294794">{{Cite journal
| doi = 10.1093/bioinformatics/17.3.282
| doi = 10.1093/bioinformatics/17.3.282
| last1 = Li | first1 = W.
| last1 = Li | first1 = W.
Line 256: Line 260:
| pmid = 11294794
| pmid = 11294794
| doi-access = free
| doi-access = free
}}</ref> प्रत्येक क्लस्टर उन अनुक्रमों से बना है जिनमें सबसे लंबे अनुक्रम तक क्रमशः कम से कम 90% या 50% अनुक्रम पहचान होती है। क्लस्टरिंग अनुक्रम डेटाबेस आकार को काफी कम कर देता है, जिससे तेज़ अनुक्रम खोज सक्षम हो जाती है।
}}</ref> प्रत्येक क्लस्टर उन अनुक्रमों से बना है जिनमें सबसे लंबे अनुक्रम तक क्रमशः कम से कम 90% या 50% अनुक्रम पहचान होती है। क्लस्टरिंग अनुक्रम डेटाबेस आकार को अधिक कम कर देता है, जिससे तेज़ अनुक्रम खोज सक्षम हो जाती है।


UniRef [http://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ UniProt FTP साइट] से उपलब्ध है।
यूनीरेफ़ [http://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/ यूनीप्रोट एफ़टीपी साइट] से उपलब्ध है।


==वित्तपोषण==
==वित्तपोषण==


UniProt को [[राष्ट्रीय मानव जीनोम अनुसंधान संस्थान]], राष्ट्रीय स्वास्थ्य संस्थान (NIH), [[यूरोपीय आयोग]], स्विस संघीय सरकार द्वारा शिक्षा और विज्ञान के संघीय कार्यालय, [[CaBIG]]|NCI-caBIG और अमेरिकी विभाग के अनुदान से वित्त पोषित किया जाता है। रक्षा।<ref name="pmid19843607"/>
यूनीप्रोट को [[राष्ट्रीय मानव जीनोम अनुसंधान संस्थान]], राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच), [[यूरोपीय आयोग]], स्विस संघीय सरकार द्वारा शिक्षा और विज्ञान के संघीय कार्यालय, [[CaBIG|सीएबीआईजी]] या एनसीआई-सीएबीआईजी और अमेरिकी रक्षा विभाग के अनुदान से वित्त पोषित किया जाता है। <ref name="pmid19843607"/>





Revision as of 11:17, 23 July 2023

UniProt
File:UPlogo1.png
Content
DescriptionUniProt is the Universal Protein resource, a central repository of protein data created by combining the Swiss-Prot, TrEMBL and PIR-PSD databases.
Data types
captured
Protein annotation
OrganismsAll
Contact
Research centerEMBL-EBI, UK; SIB, Switzerland; PIR, US.
Primary citationUniProt Consortium[1]
Access
Data formatCustom flat file, FASTA, GFF, RDF, XML.
Websitewww.uniprot.org
www.uniprot.org/news/
Download URLwww.uniprot.org/downloads & for downloading complete data sets ftp.uniprot.org
Web service URLYes – JAVA API see info here & REST see info here
Tools
WebAdvanced search, BLAST, ClustalO, bulk retrieval/download, ID mapping
Miscellaneous
LicenseCreative Commons Attribution-NoDerivs
VersioningYes
Data release
frequency
8 weeks
Curation policyYes – manual and automatic. Rules for automatic annotation generated by database curators and computational algorithms.
Bookmarkable
entities
Yes – both individual protein entries and searches

यूनीप्रोट प्रोटीन अनुक्रम और कार्यात्मक जानकारी का एक स्वतंत्र रूप से सुलभ डेटाबेस है, कई प्रविष्टियाँ जीनोम अनुक्रमण परियोजनाओं से प्राप्त की जा रही हैं। इसमें शोध साहित्य से प्राप्त प्रोटीन के जैविक कार्य के बारे में बड़ी मात्रा में जानकारी सम्मिलित है। इसका अनुरक्षित यूनीप्रोट कंसोर्टियम द्वारा किया जाता है, जिसमें कई यूरोपीय जैव सूचना विज्ञान संगठन और वाशिंगटन, डीसी, संयुक्त राज्य अमेरिका का एक फाउंडेशन सम्मिलित है।

यूनिप्रोट कंसोर्टियम

यूनीप्रोट कंसोर्टियम में यूरोपीय जैव सूचना विज्ञान संस्थान (ईबीआई), स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स (एसआईबी), और प्रोटीन सूचना संसाधन (पीआईआर) सम्मिलित हैं। यूके के हिन्क्सटन में वेलकम ट्रस्ट जीनोम कैंपस में स्थित ईबीआई, जैव सूचना विज्ञान डेटाबेस और सेवाओं के एक बड़े संसाधन की होस्ट करता है। स्विट्जरलैंड के जिनेवा में स्थित एसआईबी, एक्सपेसी (विशेषज्ञ प्रोटीन विश्लेषण प्रणाली) सर्वर का रखरखाव करता है जो प्रोटिओमिक्स उपकरण और डेटाबेस के लिए एक केंद्रीय संसाधन हैं। वाशिंगटन, डीसी, यूएस में जॉर्जटाउन यूनिवर्सिटी मेडिकल सेंटर में नेशनल बायोमेडिकल रिसर्च फाउंडेशन (एनबीआरएफ) द्वारा होस्ट किया गया पीआईआर, सबसे पुराने प्रोटीन अनुक्रम डेटाबेस, मार्गरेट ओकले डेहॉफ़ के एटलस ऑफ प्रोटीन सीक्वेंस एंड स्ट्रक्चर का उत्तराधिकारी है, जो पहली बार 1965 में प्रकाशित हुआ था।[2] 2002 में, ईबीआई, एसआईबी और पीर यूनीप्रोट कंसोर्टियम के रूप में सम्मिलित हुए।[3]


यूनिप्रोट डेटाबेस की जड़ें

प्रत्येक कंसोर्टियम सदस्य प्रोटीन डेटाबेस रखरखाव और एनोटेशन में भारी रूप से सम्मिलित है। वर्तमान तक, ईबीआई और एसआईबीने मिलकर स्विस-प्रोट और ट्रेमबीएल डेटाबेस का उत्पादन किया गया था जबकि पीआईआर ने प्रोटीन अनुक्रम डेटाबेस (पीआईआर-पीएसडी) का उत्पादन किया था।[4][5][6] ये डेटाबेस अलग-अलग पेप्टाइड अनुक्रम कवरेज और एनोटेशन प्राथमिकताओं के साथ सह-अस्तित्व में थे।

स्विस-प्रोट को 1986 में अमोस बैरोच द्वारा अपनी पीएचडी के समय बनाया गया था और स्विस इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स द्वारा विकसित किया गया था और बाद में यूरोपीय बायोइनफॉरमैटिक्स इंस्टीट्यूट में रॉल्फ अप्वेइलर द्वारा विकसित किया गया था।[7][8][9] स्विस-प्रोट का उद्देश्य उच्च स्तर के एनोटेशन (जैसे प्रोटीन के कार्य का विवरण, इसकी प्रोटीन डोमेन संरचना, अनुवाद के बाद का संशोधन या पोस्ट-ट्रांसलेशनल संशोधन, वेरिएंट इत्यादि) से जुड़े विश्वसनीय प्रोटीन अनुक्रम प्रदान करना है। डेटा अतिरेक का स्तर और अन्य डेटाबेस के साथ उच्च स्तर का एकीकरण यह मानते हुए कि अनुक्रम डेटा स्विस-प्रोट की क्षमता से अधिक गति से उत्पन्न हो रहा था, उन प्रोटीनों के लिए स्वचालित एनोटेशन प्रदान करने के लिए ट्रेमबीएल (अनुवादित ईएमबीएल न्यूक्लियोटाइड अनुक्रम डेटा लाइब्रेरी) बनाया गया था जो स्विस-प्रोट में नहीं हैं। इस बीच, पीआईआर ने पीआईआर-पीएसडी और संबंधित डेटाबेस बनाए रखा, जिसमें आईप्रोक्लास, प्रोटीन अनुक्रमों और क्यूरेटेड वर्गों का डेटाबेस सम्मिलित है।

कंसोर्टियम के सदस्यों ने अपने ओवरलैपिंग संसाधनों और विशेषज्ञता को एकत्रित किया गया था और दिसंबर 2003 में यूनीप्रोट लॉन्च किया था।[10]


यूनीप्रोट डेटाबेस का संगठन

यूनीप्रोट चार मुख्य डेटाबेस प्रदान करता है: यूनीप्रोटकेबी (उप-भागों स्विस-प्रोट और ट्रेमबीएल के साथ), यूनीपार्क, यूनीरेफ और प्रोटिओम है।

यूनीप्रोटकेबी

यूनीप्रोट नॉलेजबेस (यूनीप्रोटकेबी) एक प्रोटीन डेटाबेस है जिसे आंशिक रूप से विशेषज्ञों द्वारा तैयार किया गया है, जिसमें दो खंड सम्मिलित हैं: यूनीप्रोटकेबी/स्विस-प्रोट (जिसमें समीक्षा की गई, मैन्युअल रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित हैं) और यूनीप्रोटकेबी/ट्रेमबीएल (बिना समीक्षा की गई, स्वचालित रूप से एनोटेटेड प्रविष्टियाँ सम्मिलित हैं)।[11] As of 22 February 2023, यूनीप्रोटकेबी/स्विस-प्रोट की रिलीज 2023_01 में 569,213 अनुक्रम प्रविष्टियां सम्मिलित हैं (291,046 संदर्भों से निकाले गए 205,728,242 अमीनो अम्ल सम्मिलित हैं) और यूनीप्रोटकेबी/ट्रेमबीएल की रिलीज 2023_01 में 245,871,724 अनुक्रम प्रविष्टियां सम्मिलित हैं ((85,739,380,194 अमीनो अम्ल से युक्त है )।[12]


यूनीप्रोटकेबी/स्विस-प्रोट

यूनीप्रोटकेबी/स्विस-प्रोट एक मैन्युअल रूप से एनोटेटेड, गैर-अनावश्यक प्रोटीन अनुक्रम डेटाबेस है। यह वैज्ञानिक साहित्य और बायोक्यूरेटर-मूल्यांकन कम्प्यूटेशनल विश्लेषण से निकाली गई जानकारी को जोड़ती है। यूनीप्रोटकेबी/स्विस-प्रोट का उद्देश्य एक विशेष प्रोटीन के बारे में सभी ज्ञात प्रासंगिक जानकारी प्रदान करना है। वर्तमान वैज्ञानिक निष्कर्षों को ध्यान में रखने के लिए एनोटेशन की नियमित रूप से समीक्षा की जाती है। किसी प्रविष्टि के मैनुअल एनोटेशन में प्रोटीन अनुक्रम और वैज्ञानिक साहित्य का विस्तृत विश्लेषण सम्मिलित होता है।[13]

एक ही जीन और एक ही प्रजाति के अनुक्रमों को एक ही डेटाबेस प्रविष्टि में मिला दिया जाता है। अनुक्रमों के बीच अंतर की पहचान की जाती है, और उनके कारण का डॉक्यूमेंटेड किया जाता है (उदाहरण के लिए वैकल्पिक स्प्लिसिंग, अल्टरनेटिव स्प्लिसिंग, इन्कोर्रेक्ट यूकेरियोटिक अनुवाद या दीक्षा स्थल, इन्कोर्रेक्ट एक्सॉन सीमाएँ, फ़्रेमशिफ्ट उत्परिवर्तन, अज्ञात संघर्ष)। यूनीप्रोटकेबी/स्विस-प्रोट प्रविष्टियों के एनोटेशन में अनुक्रम विश्लेषण उपकरणों की एक श्रृंखला का उपयोग किया जाता है। कंप्यूटर-पूर्वानुमान का मैन्युअल रूप से मूल्यांकन किया जाता है, और प्रासंगिक परिणामों को प्रविष्टि में सम्मिलित करने के लिए चुना जाता है। इन पूर्वानुमान में पोस्ट-ट्रांसलेशनल संशोधन, ट्रांसमेम्ब्रेन डोमेन और मेम्ब्रेन टोपोलॉजी , सिग्नल पेप्टाइड, डोमेन पहचान और प्रोटीन वर्ग वर्गीकरण सम्मिलित हैं।[13][14]

पबमेड जैसे डेटाबेस खोजकर प्रासंगिक प्रकाशनों की पहचान की जाती है। प्रत्येक पेपर का पूरा पाठ पढ़ा जाता है, और जानकारी निकालकर प्रविष्टि में जोड़ दी जाती है। वैज्ञानिक साहित्य से उत्पन्न होने वाली टिप्पणियों में निम्नलिखित सम्मिलित हैं, किंतु यह इन्हीं तक सीमित नहीं हैं:[10][13][14]

एनोटेटेड प्रविष्टियाँ यूनीप्रोटकेबी/स्विस-प्रोट में सम्मिलित करने से पहले गुणवत्ता आश्वासन से गुजरती हैं। जब नया डेटा उपलब्ध हो जाता है, तो प्रविष्टियाँ अपडेट की जाती हैं।

यूनीप्रोटकेबी/ट्रेमबीएल

यूनीप्रोटकेबी/ट्रेमबीएल में उच्च गुणवत्ता वाले कम्प्यूटेशनल रूप से विश्लेषण किए गए रिकॉर्ड सम्मिलित हैं, जो स्वचालित एनोटेशन से समृद्ध हैं। इसे जीनोम परियोजनाओं के परिणामस्वरूप बढ़े हुए डेटा प्रवाह के जवाब में पेश किया गया था, क्योंकि यूनीप्रोटकेबी/स्विस-प्रोट की समय और श्रम लेने वाली मैनुअल एनोटेशन प्रक्रिया को सभी उपलब्ध प्रोटीन अनुक्रमों को सम्मिलित करने के लिए विस्तृत नहीं किया जा सकता है।[10] एनएसडीसी या ईएमबीएल-बैंक/जेनबैंक/डीडीबीजे न्यूक्लियोटाइड अनुक्रम डेटाबेस में एनोटेटेड कोडिंग अनुक्रमों के अनुवाद स्वचालित रूप से संसाधित होते हैं और यूनीप्रोटकेबी/ट्रेमबीएल में अंकित किए जाते हैं।यूनीप्रोटकेबी/ट्रेमबीएल में प्रोटीन डाटा बैंक और जीन पूर्वानुमान से अनुक्रम भी सम्मिलित हैं, जिसमें साथ में, रेफरसेक और सर्वसम्मति सीडीएस परियोजना सम्मिलित है।[15] 22 जुलाई 2021 से इसमें अल्फ़ाफ़ोल्ड तृतीयक के साथ पूर्वानुमान भी सम्मिलित है और अल्फाफोल्ड-मल्टीमर चतुर्धातुक संरचनाएँ भी कर सकता है[16][17]


यूनीपार्क

यूनीप्रोट संग्रह (यूनीपार्क) एक व्यापक और गैर-अनावश्यक डेटाबेस है, जिसमें मुख्य, सार्वजनिक रूप से उपलब्ध प्रोटीन अनुक्रम डेटाबेस से सभी प्रोटीन अनुक्रम सम्मिलित हैं।[18] प्रोटीन कई अलग-अलग स्रोत डेटाबेस में और एक ही डेटाबेस में कई प्रतियों में उपस्थित हो सकते हैं। अतिरेक से बचने के लिए, यूनीपार्क प्रत्येक अद्वितीय अनुक्रम को केवल एक बार संग्रहीत करता है। समान अनुक्रमों को मिला दिया जाता है, तथापि वे एक ही या अलग-अलग प्रजातियों से हों सकती है । प्रत्येक अनुक्रम को एक स्थिर और विशिष्ट पहचानकर्ता (यूपीआई) दिया जाता है, जिससे विभिन्न स्रोत डेटाबेस से एक ही प्रोटीन की पहचान करना संभव हो जाता है। यूनीपार्क में केवल प्रोटीन अनुक्रम होते हैं, बिना किसी एनोटेशन के यूनीपार्क प्रविष्टियों में डेटाबेस क्रॉस-रेफरेंस स्रोत डेटाबेस से प्रोटीन के बारे में अधिक जानकारी प्राप्त करने की अनुमति देता है। जब स्रोत डेटाबेस में अनुक्रम बदलते हैं, तो इन परिवर्तनों को यूनीपार्क द्वारा ट्रैक किया जाता है और सभी परिवर्तनों का इतिहास संग्रहीत किया जाता है।

स्रोत डेटाबेस

वर्तमान में यूनीपार्क में निम्नलिखित सार्वजनिक रूप से उपलब्ध डेटाबेस से प्रोटीन अनुक्रम सम्मिलित हैं:

अमेरिकी पेटेंट कार्यालय कार्यालय (यूएसपीटीओ)

यूनीरेफ़

यूनीप्रोट रेफरेंस क्लस्टर्स (यूनीरेफ़) में यूनीप्रोटकेबी और चयनित यूनीपार्क रिकॉर्ड से प्रोटीन अनुक्रमों के क्लस्टर सेट के तीन डेटाबेस सम्मिलित हैं।[21] यूनीरेफ़100 डेटाबेस समान अनुक्रमों और अनुक्रम टुकड़ों (किसी भी जीव से) को एक एकल यूनीरेफ़ प्रविष्टि में जोड़ता है। एक प्रतिनिधि प्रोटीन का अनुक्रम, सभी मर्ज की गई प्रविष्टियों की परिग्रहण संख्या (जैव सूचना विज्ञान) और संबंधित यूनीप्रोटकेबी और यूनीपार्क रिकॉर्ड के लिंक प्रदर्शित किए जाते हैं। यूनीरेफ़100 अनुक्रमों को यूनीरेफ़90 और यूनीरेफ़50 बनाने के लिए सीडी-हिट अल्गोरिथम विधि का उपयोग करके क्लस्टर किया गया है।[21][22] प्रत्येक क्लस्टर उन अनुक्रमों से बना है जिनमें सबसे लंबे अनुक्रम तक क्रमशः कम से कम 90% या 50% अनुक्रम पहचान होती है। क्लस्टरिंग अनुक्रम डेटाबेस आकार को अधिक कम कर देता है, जिससे तेज़ अनुक्रम खोज सक्षम हो जाती है।

यूनीरेफ़ यूनीप्रोट एफ़टीपी साइट से उपलब्ध है।

वित्तपोषण

यूनीप्रोट को राष्ट्रीय मानव जीनोम अनुसंधान संस्थान, राष्ट्रीय स्वास्थ्य संस्थान (एनआईएच), यूरोपीय आयोग, स्विस संघीय सरकार द्वारा शिक्षा और विज्ञान के संघीय कार्यालय, सीएबीआईजी या एनसीआई-सीएबीआईजी और अमेरिकी रक्षा विभाग के अनुदान से वित्त पोषित किया जाता है। [11]


संदर्भ

  1. UniProt, Consortium. (January 2015). "UniProt: a hub for protein information". Nucleic Acids Research. 43 (Database issue): D204–12. doi:10.1093/nar/gku989. PMC 4384041. PMID 25348405.
  2. Dayhoff, Margaret O. (1965). प्रोटीन अनुक्रम और संरचना का एटलस. Silver Spring, Md: National Biomedical Research Foundation.
  3. "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). Archived from the original on 24 September 2015. Retrieved 14 April 2018.
  4. O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. 3 (3): 275–284. doi:10.1093/bib/3.3.275. PMID 12230036.
  5. Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S.; Suzek, B. E.; Vinayaka, C. R.; Zhang, J.; Barker, W. C. (2003). "The Protein Information Resource". Nucleic Acids Research. 31 (1): 345–347. doi:10.1093/nar/gkg040. PMC 165487. PMID 12520019.
  6. Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. 31 (1): 365–370. doi:10.1093/nar/gkg095. PMC 165542. PMID 12520024.
  7. Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. 24 (1): 21–25. doi:10.1093/nar/24.1.21. PMC 145613. PMID 8594581.
  8. Bairoch, A. (2000). "जैव सूचना विज्ञान में आकस्मिकता, रोमांचक समय के दौरान एक स्विस जैव सूचना विज्ञानी की कठिनाइयाँ!". Bioinformatics. 16 (1): 48–64. doi:10.1093/bioinformatics/16.1.48. PMID 10812477.
  9. Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch". Protéines à la Une, August 2006. ISSN 1660-9824.
  10. 10.0 10.1 10.2 Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "प्रोटीन अनुक्रम डेटाबेस". Current Opinion in Chemical Biology. 8 (1): 76–80. doi:10.1016/j.cbpa.2003.12.004. PMID 15036160.
  11. 11.0 11.1 Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. 38 (Database issue): D142–D148. doi:10.1093/nar/gkp846. PMC 2808944. PMID 19843607.
  12. "UniProtKB/Swiss-Prot Release 2023_01 statistics". web.expasy.org. Retrieved 31 March 2023.
  13. 13.0 13.1 13.2 "How do we manually annotate a UniProtKB entry?". www.uniprot.org. Retrieved 14 April 2018.
  14. 14.0 14.1 Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M. J.; Natale, D. A.; o’Donovan, C.; Redaschi, N.; Yeh, L. S. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. 32 (90001): 115D–1119. doi:10.1093/nar/gkh131. PMC 308865. PMID 14681372.
  15. "Where do the UniProtKB protein sequences come from?". www.uniprot.org. Retrieved 14 April 2018.
  16. Humphreys, Ian R.; Pei, Jimin; Baek, Minkyung; Krishnakumar, Aditya; Anishchenko, Ivan; Ovchinnikov, Sergey; Zhang, Jing; Ness, Travis J.; Banjade, Sudeep; Bagde, Saket R.; Stancheva, Viktoriya G. (2021). "कोर यूकेरियोटिक प्रोटीन कॉम्प्लेक्स की गणना की गई संरचनाएं". Science. 374 (6573): eabm4805. doi:10.1126/science.abm4805. PMC 7612107. PMID 34762488.
  17. "अल्फाफोल्ड की शक्ति को दुनिया के हाथों में सौंपना". Deepmind. Retrieved 24 July 2021.
  18. Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics. 20 (17): 3236–3237. doi:10.1093/bioinformatics/bth191. PMID 15044231.
  19. "Protein Research Foundation".
  20. ftp://ftp.isrec.isb-sib.ch/pub/databases/trome[permanent dead link]
  21. 21.0 21.1 Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. 23 (10): 1282–1288. doi:10.1093/bioinformatics/btm098. PMID 17379688.
  22. Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. 17 (3): 282–283. doi:10.1093/bioinformatics/17.3.282. PMID 11294794.


बाहरी संबंध