जीनोमिक अनुक्रमण डेटा का संपीड़न
उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।
सामान्य अवधारणाएँ
जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, GenBank फ्लैट फ़ाइल आँकड़ेबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।[1][2][3]
बेस वेरिएंट
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।[4]
सापेक्ष जीनोमिक निर्देशांक
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।[4]उदाहरण के लिए, स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...') प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।
जीनोम के बारे में पूर्व जानकारी
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।[4]उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है।
जीनोमिक निर्देशांक कूटलेखन
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि गोलोम्ब कूट और हफ़मैन कूट, को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।[5][6][7][8][9][10]बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।
कलनविधि अभिकल्पित विकल्प
जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।
संदर्भ अनुक्रम
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है।[4]चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।[4]ब्रैंडन एट अल. (2009)[4]एक उदाहरण के रूप में सूत्रकणिकीय डी.एन.ए वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है [1][4]या इंजीनियर किया गया [11][12] संपीड़न अनुपात में सुधार करने के लिए है।
कूटलेखन योजनाएं
विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है।[4]निश्चित कूट, जैसे कि गोलोम्ब कूट और राइस कूट, तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)।
जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची
वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।[4][5][6][7][8][9][10][13] एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) [6]एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना हफ़मैन कूटलेखन है, जिसका उपयोग दोषरहित आँकड़े संपीड़न के लिए किया जाता है।
सॉफ़्टवेयर | विवरण | संपीडन अनुपात | मूल्यांकन के लिए प्रयुक्त डेटा | दृष्टिकोण/एनकोडिंग योजना | लिंक | लाइसेंस का प्रयोग | संदर्भ |
---|---|---|---|---|---|---|---|
जेनोज़िप | जीनोमिक फ़ाइलों के लिए एक सार्वभौमिक कंप्रेसर - संपीड़ित FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23 और Me फाइल | 60% to 99% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | जेनोज़िप एक्स्टेंसिबल फ्रेमवर्क | http://genozip.com | वाणिज्यिक, लेकिन गैर-व्यावसायिक उपयोग के लिए निःशुल्क | [14] |
जीनोमिक स्क्वीज़ (जी-एसक्यूजेड) | अनुक्रमण पढ़े गए डेटा को संग्रहीत और विश्लेषण करने के लिए अभिकल्पित किए गया दोषरहित संपीड़न उपकरण | 65% to 76% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | हफ़मैन कोडिंग | http://public.tgen.org/sqz | -अघोषित- | [8] |
CRAM (SAMtools का हिस्सा) | अनुक्रम डेटा का अत्यधिक कुशल और ट्यून करने योग्य संदर्भ-आधारित संपीड़न | [15] | यूरोपीय न्यूक्लियोटाइड पुरालेख | डिफ्लेट और rANS | http://www.ebi.ac.uk/ena/software/cram-toolkit | अपाचे-2.0 | [16] |
जीनोम कंप्रेसर (GeCo) | संदर्भ और संदर्भ-मुक्त अनुक्रमों को संपीड़ित करने के लिए कई मार्कोव मॉडल के मिश्रण का उपयोग करने वाला एक उपकरण | मानव परमाणु जीनोम अनुक्रम | अंकगणित कोडिंग | http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/ | GPLv3 | [13] | |
पेटासुइट | BAM और FASTQ फ़ाइलों के लिए दोषरहित संपीड़न उपकरण | 60% to 90% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | https://www.petagene.com | व्यावसायिक | [17] | |
जीनोम Sys कोडेक्स | मानक प्रारूप ISO/IEC में BAM और FASTQ फ़ाइलों का दोषरहित संपीड़न 23092[18] (MPEG-G) | 60% to 90% | 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम | प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग (CABAC) | https://www.genomsys.com | व्यावसायिक | [19] |
जीनी | FASTA, FASTQ और SAM/BAM प्रारूपों और ISO/IEC के बीच ट्रांसकोडिंग 23092 [20] प्रारूप (MPEG-G) | [अल्प विकास] | [अल्प विकास] | Context-adaptive binary अंकगणित कोडिंग (CABAC) | https://github.com/mitogen/genie | बीएसडी | [19] |
फास्टएफ्स | रैंडम एक्सेस संपीड़ित अभिलेखागार में FASTA / UCSC2Bit फ़ाइलों का संपीड़न। FASTA फ़ाइलों, सूचकांकों और शब्दकोश फ़ाइलों को वस्तुतः माउंट करने के लिए टूलकिट। यह यादृच्छिक/आंशिक पहुंच के लिए अभिलेखागार को पूरी तरह से डीकंप्रेस करने की आवश्यकता के बिना साफ फाइल सिस्टम (एपीआई-जैसे) एकीकरण की अनुमति देता है। | FASTA फ़ाइलें | हफ़मैन कोडिंग जैसा कि Zstd द्वारा कार्यान्वित किया गया है | https://github.com/yhoogstrate/fastafs | जीपीएल-v2.0 | [21] |
सॉफ़्टवेयर | विवरण | संपीडन अनुपात | मूल्यांकन के लिए प्रयुक्त डेटा | दृष्टिकोण/एनकोडिंग योजना | लिंक | लाइसेंस का प्रयोग | संदर्भ |
---|---|---|---|---|---|---|---|
जीनोम डिफरेंशियल कंप्रेसर (जीडीसी) | एक ही प्रजाति के कई जीनोम को संपीड़ित करने के लिए LZ77-शैली का उपकरण | 180 से 250 गुना / 70 से 100 गुना | मानव और सैक्रोमाइसेस सेरेविसिया का परमाणु जीनोम अनुक्रम | हफ़मैन कोडिंग | http://sun.aei.polsl.pl/gdc | जीपीएल v2 | [5] |
जीनोम पुनः अनुक्रमण (जीआरएस) | संदर्भ अनुक्रम-आधारित उपकरण संदर्भ एसएनपी मानचित्र या अनुक्रम भिन्नता जानकारी से स्वतंत्र है | 159-गुना / 18,133-गुना / 82-गुना | मानव का परमाणु जीनोम अनुक्रम, अरेबिडोप्सिस थालियाना (एक ही जीनोम के विभिन्न संशोधन), और ओरिज़ा सैटिवा | हफ़मैन कोडिंग | https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ | गैर-व्यावसायिक उपयोग के लिए निःशुल्क | [6] |
जीनोम पुनः अनुक्रमण एन्कोडिंग (GReEN) | संदर्भ अनुक्रम का उपयोग करके पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए संभाव्य प्रतिलिपि मॉडल-आधारित उपकरण | ~100-गुना | मानव परमाणु जीनोम अनुक्रम | अंकगणित कोडिंग | http://bioinformatics.ua.pt/software/green/ | -अघोषित- | [7] |
डीएनएज़िप | संपीड़न उपकरणों का एक पैकेज | ~750-गुना | मानव परमाणु जीनोम अनुक्रम | हफ़मैन कोडिंग | http://www.ics.uci.edu/~dnazip/ | -अघोषित- | [9] |
जीनोमज़िप | एक संदर्भ जीनोम के संबंध में संपीड़न। वैकल्पिक रूप से जीनोमिक विविधताओं के बाहरी डेटाबेस का उपयोग करता है (उदाहरण के लिए डीबीएसएनपी) | ~1200-गुना | मानव परमाणु जीनोम अनुक्रम (वाटसन) और 1000 जीनोम परियोजना से अनुक्रम | अनुभवजन्य वितरण के सन्निकटन के लिए एन्ट्रॉपी कोडिंग | https://sourceforge.net/projects/genomezip/ | -अघोषित- | [10] |
संदर्भ
- ↑ 1.0 1.1 Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Textual data compression in computational biology: A synopsis". Bioinformatics. 25 (13): 1575–1586. doi:10.1093/bioinformatics/btp117. PMID 19251772.
- ↑ Nalbantog̃Lu, O. U.; Russell, D. J.; Sayood, K. (2010). "डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग". Entropy. 12 (1): 34. doi:10.3390/e12010034. PMC 2821113. PMID 20157640.
- ↑ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण". Information. 7 (4): 56. doi:10.3390/info7040056.
- ↑ 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Brandon, M. C.; Wallace, D. C.; Baldi, P. (2009). "जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम". Bioinformatics. 25 (14): 1731–1738. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783.
- ↑ 5.0 5.1 5.2 Deorowicz, S.; Grabowski, S. (2011). "यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न". Bioinformatics. 27 (21): 2979–2986. doi:10.1093/bioinformatics/btr505. PMID 21896510.
- ↑ 6.0 6.1 6.2 6.3 Wang, C.; Zhang, D. (2011). "जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण". Nucleic Acids Research. 39 (7): e45. doi:10.1093/nar/gkr009. PMC 3074166. PMID 21266471.
- ↑ 7.0 7.1 7.2 Pinho, A. J.; Pratas, D.; Garcia, S. P. (2012). "GReEn: A tool for efficient compression of genome resequencing data". Nucleic Acids Research. 40 (4): e27. doi:10.1093/nar/gkr1124. PMC 3287168. PMID 22139935.
- ↑ 8.0 8.1 8.2 Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Compact encoding of genomic sequence and quality data". Bioinformatics. 26 (17): 2192–2194. doi:10.1093/bioinformatics/btq346. PMID 20605925.
- ↑ 9.0 9.1 9.2 Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "ईमेल अनुलग्नकों के रूप में मानव जीनोम". Bioinformatics. 25 (2): 274–275. doi:10.1093/bioinformatics/btn582. PMID 18996942.
- ↑ 10.0 10.1 10.2 Pavlichin, D. S.; Weissman, T.; Yona, G. (2013). "मानव जीनोम फिर से सिकुड़ता है". Bioinformatics. 29 (17): 2199–2302. doi:10.1093/bioinformatics/btt362. PMID 23793748.
- ↑ Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Reference Sequence Construction for Relative Compression of Genomes". स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति. Lecture Notes in Computer Science. Vol. 7024. pp. 420–425. doi:10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
- ↑ Grabowski, Szymon; Deorowicz, Sebastian (2011). "जीनोम का इंजीनियरिंग सापेक्ष संपीड़न". arXiv:1103.2351 [cs.CE].
- ↑ 13.0 13.1 Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. Data Compression Conference, Snowbird, Utah, 2016.
- ↑ Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 August 2021). "Genozip: a universal extensible genomic data compressor". Bioinformatics. 37 (16): 2225–2230. doi:10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897.
- ↑ CRAM benchmarking
- ↑ CRAM format specification (version 3.0)
- ↑ "The Importance of Data Compression in the Field of Genomics". pulse.embs.org (in English). Retrieved 2019-12-17.
- ↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
- ↑ 19.0 19.1 Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (27 September 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv 10.1101/426353.
- ↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
- ↑ Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen J. G. (December 2021). "FASTAFS: file system virtualisation of random access compressed FASTA files". BMC Bioinformatics. 22 (1): 535. doi:10.1186/s12859-021-04455-3.