जीनोमिक अनुक्रमण डेटा का संपीड़न

उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक डेटा का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम प्रोजेक्ट और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक डेटा की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक डेटा के लिए डिज़ाइन किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण डेटा को संग्रहीत और प्रबंधित करने के लिए नए एल्गोरिदम और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक डेटा संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।

सामान्य अवधारणाएँ

जबकि मानक डेटा संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम डेटा (उदाहरण के लिए, GenBank फ्लैट फ़ाइल डेटाबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अक्सर दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण डेटा को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।^[1]^[2]^[3]

चित्र 1: जीनोमिक पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए वर्कफ़्लो के प्रमुख चरण: (1) मूल अनुक्रमण डेटा का प्रसंस्करण (उदाहरण के लिए, मूल डेटासेट को केवल निर्दिष्ट संदर्भ अनुक्रम के सापेक्ष भिन्नताओं तक कम करना; (2) संसाधित डेटा को एन्कोड करना बाइनरी फॉर्म में; और (3) डेटा को टेक्स्ट फॉर्म में वापस डिकोड करना।

बेस वेरिएंट

एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को रिकॉर्ड करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।^[4]

सापेक्ष जीनोमिक निर्देशांक

एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।^[4]उदाहरण के लिए, 'Position1Base1Position2Base2...' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।

जीनोम के बारे में पूर्व जानकारी

यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।^[4]उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को रिकॉर्ड करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। हालाँकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी आमतौर पर अधूरी या अनुपलब्ध होती है।

जीनोमिक निर्देशांक एन्कोडिंग

अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को बाइनरी रूप में परिवर्तित करने के लिए एन्कोडिंग योजनाओं का उपयोग किया जाता है। एन्कोडिंग डिज़ाइन, जैसे कि गोलोम्ब कोड और हफ़मैन कोड, को जीनोमिक डेटा संपीड़न टूल में शामिल किया गया है।^[5]^[6]^[7]^[8]^[9]^[10]बेशक, एन्कोडिंग योजनाओं में डिकोडिंग एल्गोरिदम शामिल होते हैं। डिकोडिंग योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।

एल्गोरिथम डिज़ाइन विकल्प

जीनोमिक डेटा को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई डिज़ाइन विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।

संदर्भ अनुक्रम

सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके डेटा में कम पूर्वाग्रह हो सकता है।^[4]हालाँकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।^[4]ब्रैंडन एट अल. (2009)^[4]एक उदाहरण के रूप में माइटोकॉन्ड्रियल डीएनए वैरिएंट डेटा के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के माइटोकॉन्ड्रियल डीएनए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के डेटा के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है ^[1]^[4]या इंजीनियर किया गया ^[11]^[12] संपीड़न अनुपात में सुधार करने के लिए.

एन्कोडिंग योजनाएं

विभिन्न आधारों और जीनोमिक निर्देशांकों को एनकोड करने के लिए विभिन्न प्रकार की एन्कोडिंग योजनाओं के अनुप्रयोग का पता लगाया गया है।^[4]निश्चित कोड, जैसे कि गोलोम्ब कोड और चावल कोड , तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कोड, जैसे हफ़मैन कोड, एक अधिक सामान्य एन्ट्रापी एन्कोडिंग योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह आमतौर पर जीनोमिक अनुक्रम डेटा में मामला है)।

जीनोमिक पुनः अनुक्रमण डेटा संपीड़न उपकरण की सूची

वर्तमान में उपलब्ध जीनोमिक डेटा संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।^[4]^[5]^[6]^[7]^[8]^[9]^[10]^[13] एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) ^[6]एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। हालाँकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे आम एन्कोडिंग योजना हफ़मैन कोडिंग है, जिसका उपयोग दोषरहित डेटा संपीड़न के लिए किया जाता है।

Genomic Sequencing data compression tools compatible with standard genome sequencing files formats (BAM & FASTQ)
Software	Description	Compression Ratio	Data Used for Evaluation	Approach/Encoding Scheme	Link	Use Licence	Reference
Genozip	A universal compressor for genomic files – compresses FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23andMe files	60% to 99%	Human genome sequences from the 1000 Genomes Project	Genozip extensible framework	http://genozip.com	Commercial, but free for non-commercial use	^[14]
Genomic Squeeze (G-SQZ)	Lossless compression tool designed for storing and analyzing sequencing read data	65% to 76%	Human genome sequences from the 1000 Genomes Project	Huffman coding	http://public.tgen.org/sqz	-Undeclared-	^[8]
CRAM (part of SAMtools)	Highly efficient and tunable reference-based compression of sequence data	^[15]	European Nucleotide Archive	deflate and rANS	http://www.ebi.ac.uk/ena/software/cram-toolkit	Apache-2.0	^[16]
Genome Compressor (GeCo)	A tool using a mixture of multiple Markov models for compressing reference and reference-free sequences		Human nuclear genome sequence	Arithmetic coding	http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/	GPLv3	^[13]
PetaSuite	Lossless compression tool for BAM and FASTQ files	60% to 90%	Human genome sequences from the 1000 Genomes Project		https://www.petagene.com	Commercial	^[17]
GenomSys codecs	Lossless compression of BAM and FASTQ files into the standard format ISO/IEC 23092^[18] (MPEG-G)	60% to 90%	Human genome sequences from the 1000 Genomes Project	Context-adaptive binary arithmetic coding (CABAC)	https://www.genomsys.com	Commercial	^[19]
Genie	Transcoding between the FASTA, FASTQ and SAM/BAM formats and the ISO/IEC 23092 ^[20] format (MPEG-G)	[Under development]	[Under development]	Context-adaptive binary arithmetic coding (CABAC)	https://github.com/mitogen/genie	BSD	^[19]
fastafs	Compression of FASTA / UCSC2Bit files into random access compressed archives. Toolkit to mount FASTA files, indices and dictionary files virtually. This allows neat file system (api-like )integration without the need to fully decompress archives for random / partial access.		FASTA files	Huffman coding as implemented by Zstd	https://github.com/yhoogstrate/fastafs	GPL-v2.0	^[21]

Genomic Sequencing data compression tools not compatible with standard genome sequencing files formats
Software	Description	Compression Ratio	Data Used for Evaluation	Approach/Encoding Scheme	Link	Use License	Reference
Genome Differential Compressor (GDC)	LZ77-style tool for compressing multiple genomes of the same species	180 to 250-fold / 70 to 100-fold	Nuclear genome sequence of human and Saccharomyces cerevisiae	Huffman coding	http://sun.aei.polsl.pl/gdc	GPLv2	^[5]
Genome Re-Sequencing (GRS)	Reference sequence-based tool independent of a reference SNP map or sequence variation information	159-fold / 18,133-fold / 82-fold	Nuclear genome sequence of human, Arabidopsis thaliana (different revisions of the same genome), and Oryza sativa	Huffman coding	https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/	free of charge for non-commercial use	^[6]
Genome Re-sequencing Encoding (GReEN)	Probabilistic copy model-based tool for compressing re-sequencing data using a reference sequence	~100-fold	Human nuclear genome sequence	Arithmetic coding	http://bioinformatics.ua.pt/software/green/	-Undeclared-	^[7]
DNAzip	A package of compression tools	~750-fold	Human nuclear genome sequence	Huffman coding	http://www.ics.uci.edu/~dnazip/	-Undeclared-	^[9]
GenomeZip	Compression with respect to a reference genome. Optionally uses external databases of genomic variations (e.g. dbSNP)	~1200-fold	Human nuclear genome sequence (Watson) and sequences from the 1000 Genomes Project	Entropy coding for approximations of empirical distributions	https://sourceforge.net/projects/genomezip/	-Undeclared-	^[10]

संदर्भ

↑ ^1.0 ^1.1 Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Textual data compression in computational biology: A synopsis". Bioinformatics. 25 (13): 1575–1586. doi:10.1093/bioinformatics/btp117. PMID 19251772.
↑ Nalbantog̃Lu, O. U.; Russell, D. J.; Sayood, K. (2010). "डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग". Entropy. 12 (1): 34. doi:10.3390/e12010034. PMC 2821113. PMID 20157640.
↑ Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण". Information. 7 (4): 56. doi:10.3390/info7040056.
↑ ^4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 ^4.6 ^4.7 ^4.8 Brandon, M. C.; Wallace, D. C.; Baldi, P. (2009). "जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम". Bioinformatics. 25 (14): 1731–1738. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783.
↑ ^5.0 ^5.1 ^5.2 Deorowicz, S.; Grabowski, S. (2011). "यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न". Bioinformatics. 27 (21): 2979–2986. doi:10.1093/bioinformatics/btr505. PMID 21896510.
↑ ^6.0 ^6.1 ^6.2 ^6.3 Wang, C.; Zhang, D. (2011). "जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण". Nucleic Acids Research. 39 (7): e45. doi:10.1093/nar/gkr009. PMC 3074166. PMID 21266471.
↑ ^7.0 ^7.1 ^7.2 Pinho, A. J.; Pratas, D.; Garcia, S. P. (2012). "GReEn: A tool for efficient compression of genome resequencing data". Nucleic Acids Research. 40 (4): e27. doi:10.1093/nar/gkr1124. PMC 3287168. PMID 22139935.
↑ ^8.0 ^8.1 ^8.2 Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Compact encoding of genomic sequence and quality data". Bioinformatics. 26 (17): 2192–2194. doi:10.1093/bioinformatics/btq346. PMID 20605925.
↑ ^9.0 ^9.1 ^9.2 Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "ईमेल अनुलग्नकों के रूप में मानव जीनोम". Bioinformatics. 25 (2): 274–275. doi:10.1093/bioinformatics/btn582. PMID 18996942.
↑ ^10.0 ^10.1 ^10.2 Pavlichin, D. S.; Weissman, T.; Yona, G. (2013). "मानव जीनोम फिर से सिकुड़ता है". Bioinformatics. 29 (17): 2199–2302. doi:10.1093/bioinformatics/btt362. PMID 23793748.
↑ Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Reference Sequence Construction for Relative Compression of Genomes". स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति. Lecture Notes in Computer Science. Vol. 7024. pp. 420–425. doi:10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
↑ Grabowski, Szymon; Deorowicz, Sebastian (2011). "जीनोम का इंजीनियरिंग सापेक्ष संपीड़न". arXiv:1103.2351 [cs.CE].
↑ ^13.0 ^13.1 Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. Data Compression Conference, Snowbird, Utah, 2016.
↑ Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 August 2021). "Genozip: a universal extensible genomic data compressor". Bioinformatics. 37 (16): 2225–2230. doi:10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897.
↑ CRAM benchmarking
↑ CRAM format specification (version 3.0)
↑ "The Importance of Data Compression in the Field of Genomics". pulse.embs.org (in English). Retrieved 2019-12-17.
↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
↑ ^19.0 ^19.1 Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (27 September 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv 10.1101/426353.
↑ "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
↑ Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen J. G. (December 2021). "FASTAFS: file system virtualisation of random access compressed FASTA files". BMC Bioinformatics. 22 (1): 535. doi:10.1186/s12859-021-04455-3.

[Gian-1] 1.0 ^1.1 Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Textual data compression in computational biology: A synopsis". Bioinformatics. 25 (13): 1575–1586. doi:10.1093/bioinformatics/btp117. PMID 19251772.

[2] Nalbantog̃Lu, O. U.; Russell, D. J.; Sayood, K. (2010). "डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग". Entropy. 12 (1): 34. doi:10.3390/e12010034. PMC 2821113. PMID 20157640.

[Morteza-3] Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण". Information. 7 (4): 56. doi:10.3390/info7040056.

[Brandon-4] 4.0 ^4.1 ^4.2 ^4.3 ^4.4 ^4.5 ^4.6 ^4.7 ^4.8 Brandon, M. C.; Wallace, D. C.; Baldi, P. (2009). "जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम". Bioinformatics. 25 (14): 1731–1738. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783.

[Deo-5] 5.0 ^5.1 ^5.2 Deorowicz, S.; Grabowski, S. (2011). "यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न". Bioinformatics. 27 (21): 2979–2986. doi:10.1093/bioinformatics/btr505. PMID 21896510.

[Wang-6] 6.0 ^6.1 ^6.2 ^6.3 Wang, C.; Zhang, D. (2011). "जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण". Nucleic Acids Research. 39 (7): e45. doi:10.1093/nar/gkr009. PMC 3074166. PMID 21266471.

[Pinho-7] 7.0 ^7.1 ^7.2 Pinho, A. J.; Pratas, D.; Garcia, S. P. (2012). "GReEn: A tool for efficient compression of genome resequencing data". Nucleic Acids Research. 40 (4): e27. doi:10.1093/nar/gkr1124. PMC 3287168. PMID 22139935.

[Tembe-8] 8.0 ^8.1 ^8.2 Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Compact encoding of genomic sequence and quality data". Bioinformatics. 26 (17): 2192–2194. doi:10.1093/bioinformatics/btq346. PMID 20605925.

[Chris-9] 9.0 ^9.1 ^9.2 Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "ईमेल अनुलग्नकों के रूप में मानव जीनोम". Bioinformatics. 25 (2): 274–275. doi:10.1093/bioinformatics/btn582. PMID 18996942.

[Pavlichin-10] 10.0 ^10.1 ^10.2 Pavlichin, D. S.; Weissman, T.; Yona, G. (2013). "मानव जीनोम फिर से सिकुड़ता है". Bioinformatics. 29 (17): 2199–2302. doi:10.1093/bioinformatics/btt362. PMID 23793748.

[11] Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Reference Sequence Construction for Relative Compression of Genomes". स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति. Lecture Notes in Computer Science. Vol. 7024. pp. 420–425. doi:10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.

[12] Grabowski, Szymon; Deorowicz, Sebastian (2011). "जीनोम का इंजीनियरिंग सापेक्ष संपीड़न". arXiv:1103.2351 [cs.CE].

[Pratas-13] 13.0 ^13.1 Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. Data Compression Conference, Snowbird, Utah, 2016.

[14] Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 August 2021). "Genozip: a universal extensible genomic data compressor". Bioinformatics. 37 (16): 2225–2230. doi:10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897.

[CRAMbench-15] CRAM benchmarking

[CRAM-16] CRAM format specification (version 3.0)

[17] "The Importance of Data Compression in the Field of Genomics". pulse.embs.org (in English). Retrieved 2019-12-17.

[18] "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).

[Alberti-19] 19.0 ^19.1 Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (27 September 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv 10.1101/426353.

[20] "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).

[21] Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen J. G. (December 2021). "FASTAFS: file system virtualisation of random access compressed FASTA files". BMC Bioinformatics. 22 (1): 535. doi:10.1186/s12859-021-04455-3.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Anonymous

Search

जीनोमिक अनुक्रमण डेटा का संपीड़न

Namespaces

More

Page actions

Contents

सामान्य अवधारणाएँ

बेस वेरिएंट

सापेक्ष जीनोमिक निर्देशांक

जीनोम के बारे में पूर्व जानकारी

जीनोमिक निर्देशांक एन्कोडिंग

एल्गोरिथम डिज़ाइन विकल्प

संदर्भ अनुक्रम

एन्कोडिंग योजनाएं

जीनोमिक पुनः अनुक्रमण डेटा संपीड़न उपकरण की सूची

संदर्भ

Navigation

Navigation

Wiki tools

Wiki tools

Anonymous

Search

जीनोमिक अनुक्रमण डेटा का संपीड़न

सामान्य अवधारणाएँ

बेस वेरिएंट

सापेक्ष जीनोमिक निर्देशांक

जीनोम के बारे में पूर्व जानकारी

जीनोमिक निर्देशांक एन्कोडिंग

एल्गोरिथम डिज़ाइन विकल्प

संदर्भ अनुक्रम

एन्कोडिंग योजनाएं

जीनोमिक पुनः अनुक्रमण डेटा संपीड़न उपकरण की सूची

संदर्भ

Navigation

Wiki tools

Page tools

Other projects

Hidden categories