जीनोमिक अनुक्रमण डेटा का संपीड़न: Difference between revisions
(Created page with "{{Short description|Methods of compressing data tailored specifically for genomic data}} उच्च-थ्रूपुट अनुक्रमण प्रौद्य...") |
No edit summary |
||
(4 intermediate revisions by 3 users not shown) | |||
Line 1: | Line 1: | ||
{{Short description|Methods of compressing data tailored specifically for genomic data}} | {{Short description|Methods of compressing data tailored specifically for genomic data}} | ||
[[उच्च-थ्रूपुट अनुक्रमण]] प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक | [[उच्च-थ्रूपुट अनुक्रमण]] प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना[[1000 जीनोम परियोजना]] जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है। | ||
== सामान्य अवधारणाएँ == | == सामान्य अवधारणाएँ == | ||
जबकि मानक | जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, [[ GenBank ]] [[फ्लैट फ़ाइल डेटाबेस|फ्लैट फ़ाइल आँकड़ेबेस]]) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, [[माइक्रोसैटेलाइट अनुक्रम]]) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।<ref name=Gian>{{cite journal | pmid = 19251772 | year = 2009 | last1 = Giancarlo | first1 = R. | last2 = Scaturro | first2 = D. | last3 = Utro | first3 = F. | title = Textual data compression in computational biology: A synopsis | journal = Bioinformatics | volume = 25 | issue = 13 | pages = 1575–1586 | doi = 10.1093/bioinformatics/btp117 }}</ref><ref>{{cite journal | pmid = 20157640 | year = 2010 | last1 = Nalbantog̃Lu | first1 = O. U. | last2 = Russell | first2 = D. J. | last3 = Sayood | first3 = K. | title = डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग| journal = Entropy | volume = 12 | issue = 1 | page = 34 | doi = 10.3390/e12010034 | pmc = 2821113 | doi-access = free }}</ref><ref name=Morteza>{{cite journal | doi = 10.3390/info7040056 | doi-access = free | title = जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण| year = 2016 | last1 = Hosseini | first1 = Morteza | last2 = Pratas | first2 = Diogo | last3 = Pinho | first3 = Armando | journal = Information | volume = 7 | issue = 4 | page = 56 }}</ref> | ||
[[File:Basic Procedure of Genomic Data Compression.png|thumb|चित्र 1: जीनोमिक पुन: अनुक्रमण | [[File:Basic Procedure of Genomic Data Compression.png|thumb|चित्र 1: जीनोमिक पुन: अनुक्रमण आँकड़े को संपीड़ित करने के लिए वर्कफ़्लो के प्रमुख चरण: (1) मूल अनुक्रमण आँकड़े का प्रसंस्करण (उदाहरण के लिए, मूल आँकड़ेसेट को केवल निर्दिष्ट संदर्भ अनुक्रम के सापेक्ष भिन्नताओं तक कम करना; (2) संसाधित आँकड़े को एन्कूट करना द्विआधारी फॉर्म में; और (3) आँकड़े को टेक्स्ट फॉर्म में वापस डिकूट करना।]] | ||
=== बेस वेरिएंट === | === बेस वेरिएंट === | ||
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को | एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि [[डीबीएसएनपी]], का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।<ref name=Brandon>{{cite journal | pmid = 19447783 | year = 2009 | last1 = Brandon | first1 = M. C. | last2 = Wallace | first2 = D. C. | last3 = Baldi | first3 = P. | title = जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम| journal = Bioinformatics | volume = 25 | issue = 14 | pages = 1731–1738 | doi = 10.1093/bioinformatics/btp319 | pmc = 2705231 }}</ref> | ||
=== सापेक्ष जीनोमिक निर्देशांक === | === सापेक्ष जीनोमिक निर्देशांक === | ||
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।<ref name=Brandon />उदाहरण के लिए, 'Position1Base1Position2Base2...' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है। | एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।<ref name=Brandon />उदाहरण के लिए, ''स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...')'' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है। | ||
=== जीनोम के बारे में पूर्व जानकारी === | === जीनोम के बारे में पूर्व जानकारी === | ||
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।<ref name=Brandon />उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को | यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।<ref name=Brandon />उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है। | ||
=== जीनोमिक निर्देशांक [[एन्कोडिंग]] === | === जीनोमिक निर्देशांक [[एन्कोडिंग|कूटलेखन]] === | ||
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को | अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि [[गोलोम्ब कोड|गोलोम्ब कूट]] और [[हफ़मैन कोड|हफ़मैन कूट]], को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।<ref name=Deo /><ref name=Wang /><ref name=Pinho /><ref name=Tembe /><ref name=Chris /><ref name=Pavlichin />बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है। | ||
== | == कलनविधि अभिकल्पित विकल्प == | ||
जीनोमिक | जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं। | ||
=== संदर्भ अनुक्रम === | === संदर्भ अनुक्रम === | ||
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित [[कैम्ब्रिज संदर्भ अनुक्रम]]) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके | सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित [[कैम्ब्रिज संदर्भ अनुक्रम]]) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है।<ref name=Brandon />चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।<ref name=Brandon />ब्रैंडन एट अल. (2009)<ref name=Brandon />एक उदाहरण के रूप में [[Index.php?title=सूत्रकणिकीय डी.एन.ए|सूत्रकणिकीय डी.एन.ए]] वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है <ref name=Gian /><ref name=Brandon />या इंजीनियर किया गया <ref>{{cite book | doi = 10.1007/978-3-642-24583-1_41 | chapter = Reference Sequence Construction for Relative Compression of Genomes | title = स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति| series = Lecture Notes in Computer Science | year = 2011 | last1 = Kuruppu | first1 = Shanika | last2 = Puglisi | first2 = Simon J. | last3 = Zobel | first3 = Justin | volume = 7024 | pages = 420–425 | isbn = 978-3-642-24582-4 | s2cid = 16007637 }}</ref><ref>{{cite arXiv | year = 2011 | last1 = Grabowski | first1 = Szymon | last2 = Deorowicz | first2 = Sebastian | title = जीनोम का इंजीनियरिंग सापेक्ष संपीड़न| class = cs.CE | eprint = 1103.2351 }}</ref> संपीड़न अनुपात में सुधार करने के लिए है। | ||
=== | === कूटलेखन योजनाएं === | ||
विभिन्न आधारों और जीनोमिक निर्देशांकों को | विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है।<ref name=Brandon />निश्चित कूट, जैसे कि गोलोम्ब कूट और [[Index.php?title=राइस कूट|राइस कूट]], तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)। | ||
== जीनोमिक पुनः अनुक्रमण | == जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची == | ||
वर्तमान में उपलब्ध जीनोमिक | वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।<ref name=Brandon /><ref name=Deo>{{cite journal | pmid = 21896510 | year = 2011 | last1 = Deorowicz | first1 = S. | last2 = Grabowski | first2 = S. | title = यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न| journal = Bioinformatics | volume = 27 | issue = 21 | pages = 2979–2986 | doi = 10.1093/bioinformatics/btr505 }}</ref><ref name=Wang>{{cite journal | pmid = 21266471 | year = 2011 | last1 = Wang | first1 = C. | last2 = Zhang | first2 = D. | title = जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण| journal = Nucleic Acids Research | volume = 39 | issue = 7 | pages = e45 | doi = 10.1093/nar/gkr009 | pmc = 3074166 }}</ref><ref name=Pinho>{{cite journal | pmid = 22139935 | year = 2012 | last1 = Pinho | first1 = A. J. | last2 = Pratas | first2 = D. | last3 = Garcia | first3 = S. P. | title = GReEn: A tool for efficient compression of genome resequencing data | journal = Nucleic Acids Research | volume = 40 | issue = 4 | pages = e27 | doi = 10.1093/nar/gkr1124 | pmc = 3287168 }}</ref><ref name=Tembe>{{cite journal | pmid = 20605925 | year = 2010 | last1 = Tembe | first1 = W. | last2 = Lowey | first2 = J. | last3 = Suh | first3 = E. | title = G-SQZ: Compact encoding of genomic sequence and quality data | journal = Bioinformatics | volume = 26 | issue = 17 | pages = 2192–2194 | doi = 10.1093/bioinformatics/btq346 }}</ref><ref name=Chris>{{cite journal | pmid = 18996942 | year = 2009 | last1 = Christley | first1 = S. | last2 = Lu | first2 = Y. | last3 = Li | first3 = C. | last4 = Xie | first4 = X. | title = ईमेल अनुलग्नकों के रूप में मानव जीनोम| journal = Bioinformatics | volume = 25 | issue = 2 | pages = 274–275 | doi = 10.1093/bioinformatics/btn582 }}</ref><ref name=Pavlichin>{{cite journal | pmid = 23793748 | year = 2013 | last1 = Pavlichin | first1 = D. S. | last2 = Weissman | first2 = T. | last3 = Yona | first3 = G. | title = मानव जीनोम फिर से सिकुड़ता है| journal = Bioinformatics | volume = 29 | issue = 17 | pages = 2199–2302 | doi = 10.1093/bioinformatics/btt362 }}</ref><ref name=Pratas>Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. ''Data Compression Conference'', Snowbird, Utah, 2016.</ref> एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) <ref name=Wang />एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना [[Index.php?title=हफ़मैन कूटलेखन|हफ़मैन कूटलेखन]] है, जिसका उपयोग [[दोषरहित डेटा संपीड़न|दोषरहित आँकड़े संपीड़न]] के लिए किया जाता है। | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों (BAM से FASTQ) के साथ संगत जीनोम अनुक्रमण डेटा संपीड़न उपकरण | ||
! | !सॉफ़्टवेयर | ||
! | !विवरण | ||
! | !संपीडन अनुपात | ||
! | !मूल्यांकन के लिए प्रयुक्त डेटा | ||
! | !दृष्टिकोण/एनकोडिंग योजना | ||
! | !लिंक | ||
! | !लाइसेंस का प्रयोग | ||
! | !संदर्भ | ||
|- | |- | ||
| | |जेनोज़िप | ||
| | |जीनोमिक फ़ाइलों के लिए एक सार्वभौमिक कंप्रेसर - संपीड़ित FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23 और Me फाइल | ||
|60% to 99% | |60% to 99% | ||
| | |1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | ||
| | |जेनोज़िप एक्स्टेंसिबल फ्रेमवर्क | ||
|http://genozip.com | |http://genozip.com | ||
| | | वाणिज्यिक, लेकिन गैर-व्यावसायिक उपयोग के लिए निःशुल्क | ||
|<ref>{{cite journal |last1=Lan |first1=Divon |last2=Tobler |first2=Ray |last3=Souilmi |first3=Yassine |last4=Llamas |first4=Bastien |title=Genozip: a universal extensible genomic data compressor |journal=Bioinformatics |date=25 August 2021 |volume=37 |issue=16 |pages=2225–2230 |doi=10.1093/bioinformatics/btab102|pmid=33585897 |pmc=8388020 }}</ref> | |<ref>{{cite journal |last1=Lan |first1=Divon |last2=Tobler |first2=Ray |last3=Souilmi |first3=Yassine |last4=Llamas |first4=Bastien |title=Genozip: a universal extensible genomic data compressor |journal=Bioinformatics |date=25 August 2021 |volume=37 |issue=16 |pages=2225–2230 |doi=10.1093/bioinformatics/btab102|pmid=33585897 |pmc=8388020 }}</ref> | ||
|- | |- | ||
|- | |- | ||
| | |जीनोमिक स्क्वीज़ (जी-एसक्यूजेड) | ||
| | |अनुक्रमण पढ़े गए डेटा को संग्रहीत और विश्लेषण करने के लिए अभिकल्पित किए गया दोषरहित संपीड़न उपकरण | ||
|65% to 76% | |65% to 76% | ||
| | |1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | ||
| | |हफ़मैन कोडिंग | ||
|http://public.tgen.org/sqz | |http://public.tgen.org/sqz | ||
| - | | -अघोषित- | ||
|<ref name="Tembe" /> | |<ref name="Tembe" /> | ||
|- | |- | ||
| | |CRAM (SAMtools का हिस्सा) | ||
| | |अनुक्रम डेटा का अत्यधिक कुशल और ट्यून करने योग्य संदर्भ-आधारित संपीड़न | ||
|<ref name="CRAMbench">[http://www.htslib.org/benchmarks/CRAM.html ''CRAM benchmarking'']</ref> | |<ref name="CRAMbench">[http://www.htslib.org/benchmarks/CRAM.html ''CRAM benchmarking'']</ref> | ||
| | |यूरोपीय न्यूक्लियोटाइड पुरालेख | ||
| | |डिफ्लेट और [[asymmetric numeral systems|rANS]] | ||
|http://www.ebi.ac.uk/ena/software/cram-toolkit | |http://www.ebi.ac.uk/ena/software/cram-toolkit | ||
| | |अपाचे-2.0 | ||
|<ref name="CRAM">[https://samtools.github.io/hts-specs/CRAMv3.pdf ''CRAM format specification (version 3.0)'']</ref> | |<ref name="CRAM">[https://samtools.github.io/hts-specs/CRAMv3.pdf ''CRAM format specification (version 3.0)'']</ref> | ||
|- | |- | ||
| | |जीनोम कंप्रेसर (GeCo) | ||
| | |संदर्भ और संदर्भ-मुक्त अनुक्रमों को संपीड़ित करने के लिए कई मार्कोव मॉडल के मिश्रण का उपयोग करने वाला एक उपकरण | ||
| | | | ||
| | |मानव परमाणु जीनोम अनुक्रम | ||
| | |अंकगणित कोडिंग | ||
|http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/ | |http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/ | ||
|GPLv3 | |GPLv3 | ||
|<ref name="Pratas" /> | |<ref name="Pratas" /> | ||
|- | |- | ||
| | |पेटासुइट | ||
| | |BAM और FASTQ फ़ाइलों के लिए दोषरहित संपीड़न उपकरण | ||
|60% to 90% | |60% to 90% | ||
| | |1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | ||
| | | | ||
|https://www.petagene.com | |https://www.petagene.com | ||
| | |व्यावसायिक | ||
|<ref>{{Cite web|url=https://pulse.embs.org/march-2019/the-importance-of-data-compression-in-the-field-of-genomics/|title=The Importance of Data Compression in the Field of Genomics|website=pulse.embs.org|language=en-US|access-date=2019-12-17}}</ref> | |<ref>{{Cite web|url=https://pulse.embs.org/march-2019/the-importance-of-data-compression-in-the-field-of-genomics/|title=The Importance of Data Compression in the Field of Genomics|website=pulse.embs.org|language=en-US|access-date=2019-12-17}}</ref> | ||
|- | |- | ||
| | |जीनोम Sys कोडेक्स | ||
| | |मानक प्रारूप ISO/IEC में BAM और FASTQ फ़ाइलों का दोषरहित संपीड़न 23092<ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> (MPEG-G) | ||
|60% to 90% | |60% to 90% | ||
| | |1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | ||
|[[ | |[[Index.php?title=प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग|प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग]] (CABAC) | ||
|https://www.genomsys.com | |https://www.genomsys.com | ||
| | |व्यावसायिक | ||
|<ref name=Alberti>{{Cite bioRxiv |title=An introduction to MPEG-G, the new ISO standard for genomic information representation|date=27 September 2018 |last1=Alberti |first1=Claudio |last2=Paridaens |first2=Tom |last3=Voges |first3=Jan |last4=Naro |first4=Daniel |last5=Ahmad |first5=Junaid J. |last6=Ravasi |first6=Massimo |last7=Renzi |first7=Daniele |last8=Zoia |first8=Giorgio |last9=Ochoa |first9=Idoia |last10=Mattavelli |first10=Marco |last11=Delgado |first11=Jaime |last12=Hernaez |first12=Mikel |biorxiv=10.1101/426353}}</ref> | |<ref name=Alberti>{{Cite bioRxiv |title=An introduction to MPEG-G, the new ISO standard for genomic information representation|date=27 September 2018 |last1=Alberti |first1=Claudio |last2=Paridaens |first2=Tom |last3=Voges |first3=Jan |last4=Naro |first4=Daniel |last5=Ahmad |first5=Junaid J. |last6=Ravasi |first6=Massimo |last7=Renzi |first7=Daniele |last8=Zoia |first8=Giorgio |last9=Ochoa |first9=Idoia |last10=Mattavelli |first10=Marco |last11=Delgado |first11=Jaime |last12=Hernaez |first12=Mikel |biorxiv=10.1101/426353}}</ref> | ||
|- | |- | ||
| | |जीनी | ||
| | |FASTA, FASTQ और SAM/BAM प्रारूपों और ISO/IEC के बीच ट्रांसकोडिंग 23092 <ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> प्रारूप (MPEG-G) | ||
|[ | |[अल्प विकास] | ||
|[ | |[अल्प विकास] | ||
|[[Context-adaptive binary | |[[Index.php?title=प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग|Context-adaptive binary अंकगणित कोडिंग]] (CABAC) | ||
|https://github.com/mitogen/genie | |https://github.com/mitogen/genie | ||
| | |बीएसडी | ||
|<ref name=Alberti/> | |<ref name=Alberti/> | ||
|- | |- | ||
| | | फास्टएफ्स || रैंडम एक्सेस संपीड़ित अभिलेखागार में FASTA / UCSC2Bit फ़ाइलों का संपीड़न। FASTA फ़ाइलों, सूचकांकों और शब्दकोश फ़ाइलों को वस्तुतः माउंट करने के लिए टूलकिट। यह यादृच्छिक/आंशिक पहुंच के लिए अभिलेखागार को पूरी तरह से डीकंप्रेस करने की आवश्यकता के बिना साफ फाइल सिस्टम (एपीआई-जैसे) एकीकरण की अनुमति देता है। || || FASTA फ़ाइलें || हफ़मैन कोडिंग जैसा कि Zstd द्वारा कार्यान्वित किया गया है || https://github.com/yhoogstrate/fastafs || जीपीएल-v2.0 || <ref>{{cite journal |last1=Hoogstrate |first1=Youri |last2=Jenster |first2=Guido W. |last3=van de Werken |first3=Harmen J. G. |title=FASTAFS: file system virtualisation of random access compressed FASTA files |journal=BMC Bioinformatics |date=December 2021 |volume=22 |issue=1 |pages=535 |doi=10.1186/s12859-021-04455-3}}</ref> | ||
|} | |} | ||
{| class="wikitable" | {| class="wikitable" | ||
|+ | |+जीनोमिक अनुक्रमण डेटा संपीड़न उपकरण मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों के साथ संगत नहीं हैं | ||
|- | |- | ||
! | ! सॉफ़्टवेयर !! विवरण !! संपीडन अनुपात !! मूल्यांकन के लिए प्रयुक्त डेटा !! दृष्टिकोण/एनकोडिंग योजना !! लिंक !! लाइसेंस का प्रयोग !! संदर्भ | ||
|- | |- | ||
| | | जीनोम डिफरेंशियल कंप्रेसर (जीडीसी) || एक ही प्रजाति के कई जीनोम को संपीड़ित करने के लिए LZ77-शैली का उपकरण || 180 से 250 गुना / 70 से 100 गुना || मानव और ''सैक्रोमाइसेस सेरेविसिया'' का परमाणु जीनोम अनुक्रम|| हफ़मैन कोडिंग ||http://sun.aei.polsl.pl/gdc<nowiki/>|| जीपीएल v2 ||<ref name="Deo" /> | ||
|- | |- | ||
| | | जीनोम पुनः अनुक्रमण (जीआरएस) || संदर्भ अनुक्रम-आधारित उपकरण संदर्भ एसएनपी मानचित्र या अनुक्रम भिन्नता जानकारी से स्वतंत्र है || 159-गुना / 18,133-गुना / 82-गुना || मानव का परमाणु जीनोम अनुक्रम, ''अरेबिडोप्सिस थालियाना'' (एक ही जीनोम के विभिन्न संशोधन), और ''ओरिज़ा सैटिवा''|| हफ़मैन कोडिंग ||https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/<nowiki/>|| गैर-व्यावसायिक उपयोग के लिए निःशुल्क ||<ref name="Wang" /> | ||
|- | |- | ||
| | | जीनोम पुनः अनुक्रमण एन्कोडिंग (GReEN) || संदर्भ अनुक्रम का उपयोग करके पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए संभाव्य प्रतिलिपि मॉडल-आधारित उपकरण || ~100-गुना || मानव परमाणु जीनोम अनुक्रम || अंकगणित कोडिंग ||http://bioinformatics.ua.pt/software/green/<nowiki/>|| -अघोषित- ||<ref name="Pinho" /> | ||
|- | |- | ||
| | | डीएनएज़िप || संपीड़न उपकरणों का एक पैकेज || ~750-गुना || मानव परमाणु जीनोम अनुक्रम ||हफ़मैन कोडिंग ||http://www.ics.uci.edu/~dnazip/<nowiki/>|| -अघोषित- ||<ref name="Chris" /> | ||
|- | |- | ||
| | | जीनोमज़िप || एक संदर्भ जीनोम के संबंध में संपीड़न। वैकल्पिक रूप से जीनोमिक विविधताओं के बाहरी डेटाबेस का उपयोग करता है (उदाहरण के लिए डीबीएसएनपी) || ~1200-गुना || मानव परमाणु जीनोम अनुक्रम (वाटसन) और 1000 जीनोम परियोजना से अनुक्रम ||अनुभवजन्य वितरण के सन्निकटन के लिए एन्ट्रॉपी कोडिंग||https://sourceforge.net/projects/genomezip/<nowiki/>|| -अघोषित- ||<ref name="Pavlichin" /> | ||
|} | |} | ||
Line 126: | Line 126: | ||
==संदर्भ== | ==संदर्भ== | ||
{{reflist}} | {{reflist}} | ||
[[Category:CS1 English-language sources (en)]] | |||
[[Category: | |||
[[Category:Created On 26/07/2023]] | [[Category:Created On 26/07/2023]] | ||
[[Category:Lua-based templates]] | |||
[[Category:Machine Translated Page]] | |||
[[Category:Pages with script errors]] | |||
[[Category:Short description with empty Wikidata description]] | |||
[[Category:Templates Vigyan Ready]] | |||
[[Category:Templates that add a tracking category]] | |||
[[Category:Templates that generate short descriptions]] | |||
[[Category:Templates using TemplateData]] | |||
[[Category:जीनोमिक्स तकनीक]] |
Latest revision as of 14:33, 11 August 2023
उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।
सामान्य अवधारणाएँ
जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, GenBank फ्लैट फ़ाइल आँकड़ेबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।[1][2][3]
बेस वेरिएंट
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।[4]
सापेक्ष जीनोमिक निर्देशांक
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।[4]उदाहरण के लिए, स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...') प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।
जीनोम के बारे में पूर्व जानकारी
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।[4]उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है।
जीनोमिक निर्देशांक कूटलेखन
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि गोलोम्ब कूट और हफ़मैन कूट, को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।[5][6][7][8][9][10]बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।
कलनविधि अभिकल्पित विकल्प
जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।
संदर्भ अनुक्रम
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है।[4]चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।[4]ब्रैंडन एट अल. (2009)[4]एक उदाहरण के रूप में सूत्रकणिकीय डी.एन.ए वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है [1][4]या इंजीनियर किया गया [11][12] संपीड़न अनुपात में सुधार करने के लिए है।
कूटलेखन योजनाएं
विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है।[4]निश्चित कूट, जैसे कि गोलोम्ब कूट और राइस कूट, तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)।
जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची
वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।[4][5][6][7][8][9][10][13] एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) [6]एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना हफ़मैन कूटलेखन है, जिसका उपयोग दोषरहित आँकड़े संपीड़न के लिए किया जाता है।
सॉफ़्टवेयर | विवरण | संपीडन अनुपात | मूल्यांकन के लिए प्रयुक्त डेटा | दृष्टिकोण/एनकोडिंग योजना | लिंक | लाइसेंस का प्रयोग | संदर्भ |
---|---|---|---|---|---|---|---|
जेनोज़िप | जीनोमिक फ़ाइलों के लिए एक सार्वभौमिक कंप्रेसर - संपीड़ित FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23 और Me फाइल | 60% to 99% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | जेनोज़िप एक्स्टेंसिबल फ्रेमवर्क | http://genozip.com | वाणिज्यिक, लेकिन गैर-व्यावसायिक उपयोग के लिए निःशुल्क | [14] |
जीनोमिक स्क्वीज़ (जी-एसक्यूजेड) | अनुक्रमण पढ़े गए डेटा को संग्रहीत और विश्लेषण करने के लिए अभिकल्पित किए गया दोषरहित संपीड़न उपकरण | 65% to 76% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | हफ़मैन कोडिंग | http://public.tgen.org/sqz | -अघोषित- | [8] |
CRAM (SAMtools का हिस्सा) | अनुक्रम डेटा का अत्यधिक कुशल और ट्यून करने योग्य संदर्भ-आधारित संपीड़न | [15] | यूरोपीय न्यूक्लियोटाइड पुरालेख | डिफ्लेट और rANS | http://www.ebi.ac.uk/ena/software/cram-toolkit | अपाचे-2.0 | [16] |
जीनोम कंप्रेसर (GeCo) | संदर्भ और संदर्भ-मुक्त अनुक्रमों को संपीड़ित करने के लिए कई मार्कोव मॉडल के मिश्रण का उपयोग करने वाला एक उपकरण | मानव परमाणु जीनोम अनुक्रम | अंकगणित कोडिंग | http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/ | GPLv3 | [13] | |
पेटासुइट | BAM और FASTQ फ़ाइलों के लिए दोषरहित संपीड़न उपकरण | 60% to 90% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | https://www.petagene.com | व्यावसायिक | [17] | |
जीनोम Sys कोडेक्स | मानक प्रारूप ISO/IEC में BAM और FASTQ फ़ाइलों का दोषरहित संपीड़न 23092[18] (MPEG-G) | 60% to 90% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग (CABAC) | https://www.genomsys.com | व्यावसायिक | [19] |
जीनी | FASTA, FASTQ और SAM/BAM प्रारूपों और ISO/IEC के बीच ट्रांसकोडिंग 23092 [20] प्रारूप (MPEG-G) | [अल्प विकास] | [अल्प विकास] | Context-adaptive binary अंकगणित कोडिंग (CABAC) | https://github.com/mitogen/genie | बीएसडी | [19] |
फास्टएफ्स | रैंडम एक्सेस संपीड़ित अभिलेखागार में FASTA / UCSC2Bit फ़ाइलों का संपीड़न। FASTA फ़ाइलों, सूचकांकों और शब्दकोश फ़ाइलों को वस्तुतः माउंट करने के लिए टूलकिट। यह यादृच्छिक/आंशिक पहुंच के लिए अभिलेखागार को पूरी तरह से डीकंप्रेस करने की आवश्यकता के बिना साफ फाइल सिस्टम (एपीआई-जैसे) एकीकरण की अनुमति देता है। | FASTA फ़ाइलें | हफ़मैन कोडिंग जैसा कि Zstd द्वारा कार्यान्वित किया गया है | https://github.com/yhoogstrate/fastafs | जीपीएल-v2.0 | [21] |
सॉफ़्टवेयर | विवरण | संपीडन अनुपात | मूल्यांकन के लिए प्रयुक्त डेटा | दृष्टिकोण/एनकोडिंग योजना | लिंक | लाइसेंस का प्रयोग | संदर्भ |
---|---|---|---|---|---|---|---|
जीनोम डिफरेंशियल कंप्रेसर (जीडीसी) | एक ही प्रजाति के कई जीनोम को संपीड़ित करने के लिए LZ77-शैली का उपकरण | 180 से 250 गुना / 70 से 100 गुना | मानव और सैक्रोमाइसेस सेरेविसिया का परमाणु जीनोम अनुक्रम | हफ़मैन कोडिंग | http://sun.aei.polsl.pl/gdc | जीपीएल v2 | [5] |
जीनोम पुनः अनुक्रमण (जीआरएस) | संदर्भ अनुक्रम-आधारित उपकरण संदर्भ एसएनपी मानचित्र या अनुक्रम भिन्नता जानकारी से स्वतंत्र है | 159-गुना / 18,133-गुना / 82-गुना | मानव का परमाणु जीनोम अनुक्रम, अरेबिडोप्सिस थालियाना (एक ही जीनोम के विभिन्न संशोधन), और ओरिज़ा सैटिवा | हफ़मैन कोडिंग | https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ | गैर-व्यावसायिक उपयोग के लिए निःशुल्क | [6] |
जीनोम पुनः अनुक्रमण एन्कोडिंग (GReEN) | संदर्भ अनुक्रम का उपयोग करके पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए संभाव्य प्रतिलिपि मॉडल-आधारित उपकरण | ~100-गुना | मानव परमाणु जीनोम अनुक्रम | अंकगणित कोडिंग | http://bioinformatics.ua.pt/software/green/ | -अघोषित- | [7] |
डीएनएज़िप | संपीड़न उपकरणों का एक पैकेज | ~750-गुना | मानव परमाणु जीनोम अनुक्रम | हफ़मैन कोडिंग | http://www.ics.uci.edu/~dnazip/ | -अघोषित- | [9] |
जीनोमज़िप | एक संदर्भ जीनोम के संबंध में संपीड़न। वैकल्पिक रूप से जीनोमिक विविधताओं के बाहरी डेटाबेस का उपयोग करता है (उदाहरण के लिए डीबीएसएनपी) | ~1200-गुना | मानव परमाणु जीनोम अनुक्रम (वाटसन) और 1000 जीनोम परियोजना से अनुक्रम | अनुभवजन्य वितरण के सन्निकटन के लिए एन्ट्रॉपी कोडिंग | https://sourceforge.net/projects/genomezip/ | -अघोषित- | [10] |
संदर्भ
- ↑ 1.0 1.1 Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Textual data compression in computational biology: A synopsis". Bioinformatics. 25 (13): 1575–1586. doi:10.1093/bioinformatics/btp117. PMID 19251772.
- ↑ Nalbantog̃Lu, O. U.; Russell, D. J.; Sayood, K. (2010). "डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग". Entropy. 12 (1): 34. doi:10.3390/e12010034. PMC 2821113. PMID 20157640.
- ↑ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण". Information. 7 (4): 56. doi:10.3390/info7040056.
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Brandon, M. C.; Wallace, D. C.; Baldi, P. (2009). "जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम". Bioinformatics. 25 (14): 1731–1738. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783.
- ↑ 5.0 5.1 5.2 Deorowicz, S.; Grabowski, S. (2011). "यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न". Bioinformatics. 27 (21): 2979–2986. doi:10.1093/bioinformatics/btr505. PMID 21896510.
- ↑ 6.0 6.1 6.2 6.3 Wang, C.; Zhang, D. (2011). "जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण". Nucleic Acids Research. 39 (7): e45. doi:10.1093/nar/gkr009. PMC 3074166. PMID 21266471.
- ↑ 7.0 7.1 7.2 Pinho, A. J.; Pratas, D.; Garcia, S. P. (2012). "GReEn: A tool for efficient compression of genome resequencing data". Nucleic Acids Research. 40 (4): e27. doi:10.1093/nar/gkr1124. PMC 3287168. PMID 22139935.
- ↑ 8.0 8.1 8.2 Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Compact encoding of genomic sequence and quality data". Bioinformatics. 26 (17): 2192–2194. doi:10.1093/bioinformatics/btq346. PMID 20605925.
- ↑ 9.0 9.1 9.2 Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "ईमेल अनुलग्नकों के रूप में मानव जीनोम". Bioinformatics. 25 (2): 274–275. doi:10.1093/bioinformatics/btn582. PMID 18996942.
- ↑ 10.0 10.1 10.2 Pavlichin, D. S.; Weissman, T.; Yona, G. (2013). "मानव जीनोम फिर से सिकुड़ता है". Bioinformatics. 29 (17): 2199–2302. doi:10.1093/bioinformatics/btt362. PMID 23793748.
- ↑ Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Reference Sequence Construction for Relative Compression of Genomes". स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति. Lecture Notes in Computer Science. Vol. 7024. pp. 420–425. doi:10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
- ↑ Grabowski, Szymon; Deorowicz, Sebastian (2011). "जीनोम का इंजीनियरिंग सापेक्ष संपीड़न". arXiv:1103.2351 [cs.CE].
- ↑ 13.0 13.1 Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. Data Compression Conference, Snowbird, Utah, 2016.
- ↑ Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 August 2021). "Genozip: a universal extensible genomic data compressor". Bioinformatics. 37 (16): 2225–2230. doi:10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897.
- ↑ CRAM benchmarking
- ↑ CRAM format specification (version 3.0)
- ↑ "The Importance of Data Compression in the Field of Genomics". pulse.embs.org (in English). Retrieved 2019-12-17.
- ↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
- ↑ 19.0 19.1 Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (27 September 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv 10.1101/426353.
- ↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
- ↑ Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen J. G. (December 2021). "FASTAFS: file system virtualisation of random access compressed FASTA files". BMC Bioinformatics. 22 (1): 535. doi:10.1186/s12859-021-04455-3.