जीनोमिक अनुक्रमण डेटा का संपीड़न: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Methods of compressing data tailored specifically for genomic data}} उच्च-थ्रूपुट अनुक्रमण प्रौद्य...")
 
No edit summary
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Methods of compressing data tailored specifically for genomic data}}
{{Short description|Methods of compressing data tailored specifically for genomic data}}
[[उच्च-थ्रूपुट अनुक्रमण]] प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक डेटा का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम प्रोजेक्ट और 1001 (अरबिडोप्सिस थालियाना[[1000 जीनोम परियोजना]] जीनोमिक डेटा की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक डेटा के लिए डिज़ाइन किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण डेटा को संग्रहीत और प्रबंधित करने के लिए नए एल्गोरिदम और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक डेटा संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।
[[उच्च-थ्रूपुट अनुक्रमण]] प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना[[1000 जीनोम परियोजना]] जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।


== सामान्य अवधारणाएँ ==
== सामान्य अवधारणाएँ ==
जबकि मानक डेटा संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम डेटा (उदाहरण के लिए, [[ GenBank ]] [[फ्लैट फ़ाइल डेटाबेस]]) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अक्सर दोहराव वाली सामग्री होती है (उदाहरण के लिए, [[माइक्रोसैटेलाइट अनुक्रम]]) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण डेटा को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।<ref name=Gian>{{cite journal | pmid = 19251772 | year = 2009 | last1 = Giancarlo | first1 = R. | last2 = Scaturro | first2 = D. | last3 = Utro | first3 = F. | title = Textual data compression in computational biology: A synopsis | journal = Bioinformatics  | volume = 25 | issue = 13 | pages = 1575–1586 | doi = 10.1093/bioinformatics/btp117 }}</ref><ref>{{cite journal | pmid = 20157640 | year = 2010 | last1 = Nalbantog̃Lu | first1 = O. U. | last2 = Russell | first2 = D. J. | last3 = Sayood | first3 = K. | title = डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग| journal = Entropy | volume = 12 | issue = 1 | page = 34 | doi = 10.3390/e12010034 | pmc = 2821113 | doi-access = free }}</ref><ref name=Morteza>{{cite journal | doi = 10.3390/info7040056 | doi-access = free | title = जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण| year = 2016 | last1 = Hosseini | first1 = Morteza | last2 = Pratas | first2 = Diogo | last3 = Pinho | first3 = Armando | journal = Information | volume = 7 | issue = 4 | page = 56 }}</ref>
जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, [[ GenBank ]] [[फ्लैट फ़ाइल डेटाबेस|फ्लैट फ़ाइल आँकड़ेबेस]]) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, [[माइक्रोसैटेलाइट अनुक्रम]]) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।<ref name=Gian>{{cite journal | pmid = 19251772 | year = 2009 | last1 = Giancarlo | first1 = R. | last2 = Scaturro | first2 = D. | last3 = Utro | first3 = F. | title = Textual data compression in computational biology: A synopsis | journal = Bioinformatics  | volume = 25 | issue = 13 | pages = 1575–1586 | doi = 10.1093/bioinformatics/btp117 }}</ref><ref>{{cite journal | pmid = 20157640 | year = 2010 | last1 = Nalbantog̃Lu | first1 = O. U. | last2 = Russell | first2 = D. J. | last3 = Sayood | first3 = K. | title = डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग| journal = Entropy | volume = 12 | issue = 1 | page = 34 | doi = 10.3390/e12010034 | pmc = 2821113 | doi-access = free }}</ref><ref name=Morteza>{{cite journal | doi = 10.3390/info7040056 | doi-access = free | title = जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण| year = 2016 | last1 = Hosseini | first1 = Morteza | last2 = Pratas | first2 = Diogo | last3 = Pinho | first3 = Armando | journal = Information | volume = 7 | issue = 4 | page = 56 }}</ref>
[[File:Basic Procedure of Genomic Data Compression.png|thumb|चित्र 1: जीनोमिक पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए वर्कफ़्लो के प्रमुख चरण: (1) मूल अनुक्रमण डेटा का प्रसंस्करण (उदाहरण के लिए, मूल डेटासेट को केवल निर्दिष्ट संदर्भ अनुक्रम के सापेक्ष भिन्नताओं तक कम करना; (2) संसाधित डेटा को एन्कोड करना बाइनरी फॉर्म में; और (3) डेटा को टेक्स्ट फॉर्म में वापस डिकोड करना।]]
[[File:Basic Procedure of Genomic Data Compression.png|thumb|चित्र 1: जीनोमिक पुन: अनुक्रमण आँकड़े को संपीड़ित करने के लिए वर्कफ़्लो के प्रमुख चरण: (1) मूल अनुक्रमण आँकड़े का प्रसंस्करण (उदाहरण के लिए, मूल आँकड़ेसेट को केवल निर्दिष्ट संदर्भ अनुक्रम के सापेक्ष भिन्नताओं तक कम करना; (2) संसाधित आँकड़े को एन्कूट करना द्विआधारी फॉर्म में; और (3) आँकड़े को टेक्स्ट फॉर्म में वापस डिकूट करना।]]


=== बेस वेरिएंट ===
=== बेस वेरिएंट ===
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को रिकॉर्ड करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि [[डीबीएसएनपी]], का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।<ref name=Brandon>{{cite journal | pmid = 19447783 | year = 2009 | last1 = Brandon | first1 = M. C. | last2 = Wallace | first2 = D. C. | last3 = Baldi | first3 = P. | title = जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम| journal = Bioinformatics  | volume = 25 | issue = 14 | pages = 1731–1738 | doi = 10.1093/bioinformatics/btp319 | pmc = 2705231 }}</ref>
एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि [[डीबीएसएनपी]], का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।<ref name=Brandon>{{cite journal | pmid = 19447783 | year = 2009 | last1 = Brandon | first1 = M. C. | last2 = Wallace | first2 = D. C. | last3 = Baldi | first3 = P. | title = जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम| journal = Bioinformatics  | volume = 25 | issue = 14 | pages = 1731–1738 | doi = 10.1093/bioinformatics/btp319 | pmc = 2705231 }}</ref>




=== सापेक्ष जीनोमिक निर्देशांक ===
=== सापेक्ष जीनोमिक निर्देशांक ===
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।<ref name=Brandon />उदाहरण के लिए, 'Position1Base1Position2Base2...' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।
एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।<ref name=Brandon />उदाहरण के लिए, ''स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...')'' प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।


=== जीनोम के बारे में पूर्व जानकारी ===
=== जीनोम के बारे में पूर्व जानकारी ===
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।<ref name=Brandon />उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को रिकॉर्ड करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। हालाँकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी आमतौर पर अधूरी या अनुपलब्ध होती है।
यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।<ref name=Brandon />उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है।


=== जीनोमिक निर्देशांक [[एन्कोडिंग]] ===
=== जीनोमिक निर्देशांक [[एन्कोडिंग|कूटलेखन]] ===
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को बाइनरी रूप में परिवर्तित करने के लिए एन्कोडिंग योजनाओं का उपयोग किया जाता है। एन्कोडिंग डिज़ाइन, जैसे कि [[गोलोम्ब कोड]] और [[हफ़मैन कोड]], को जीनोमिक डेटा संपीड़न टूल में शामिल किया गया है।<ref name=Deo /><ref name=Wang /><ref name=Pinho /><ref name=Tembe /><ref name=Chris /><ref name=Pavlichin />बेशक, एन्कोडिंग योजनाओं में डिकोडिंग एल्गोरिदम शामिल होते हैं। डिकोडिंग योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।
अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि [[गोलोम्ब कोड|गोलोम्ब कूट]] और [[हफ़मैन कोड|हफ़मैन कूट]], को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।<ref name=Deo /><ref name=Wang /><ref name=Pinho /><ref name=Tembe /><ref name=Chris /><ref name=Pavlichin />बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।


== एल्गोरिथम डिज़ाइन विकल्प ==
== कलनविधि अभिकल्पित विकल्प ==
जीनोमिक डेटा को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई डिज़ाइन विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।
जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।


=== संदर्भ अनुक्रम ===
=== संदर्भ अनुक्रम ===
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित [[कैम्ब्रिज संदर्भ अनुक्रम]]) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके डेटा में कम पूर्वाग्रह हो सकता है।<ref name=Brandon />हालाँकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।<ref name=Brandon />ब्रैंडन एट अल. (2009)<ref name=Brandon />एक उदाहरण के रूप में [[माइटोकॉन्ड्रियल डीएनए]] वैरिएंट डेटा के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के माइटोकॉन्ड्रियल डीएनए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के डेटा के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है <ref name=Gian /><ref name=Brandon />या इंजीनियर किया गया <ref>{{cite book | doi = 10.1007/978-3-642-24583-1_41 | chapter = Reference Sequence Construction for Relative Compression of Genomes | title = स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति| series = Lecture Notes in Computer Science | year = 2011 | last1 = Kuruppu | first1 = Shanika | last2 = Puglisi | first2 = Simon J. | last3 = Zobel | first3 = Justin | volume = 7024 | pages = 420–425 | isbn = 978-3-642-24582-4 | s2cid = 16007637 }}</ref><ref>{{cite arXiv | year = 2011 | last1 = Grabowski | first1 = Szymon | last2 = Deorowicz | first2 = Sebastian | title = जीनोम का इंजीनियरिंग सापेक्ष संपीड़न| class = cs.CE | eprint = 1103.2351 }}</ref> संपीड़न अनुपात में सुधार करने के लिए.
सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित [[कैम्ब्रिज संदर्भ अनुक्रम]]) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है।<ref name=Brandon />चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।<ref name=Brandon />ब्रैंडन एट अल. (2009)<ref name=Brandon />एक उदाहरण के रूप में [[Index.php?title=सूत्रकणिकीय डी.एन.ए|सूत्रकणिकीय डी.एन.ए]] वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है <ref name=Gian /><ref name=Brandon />या इंजीनियर किया गया <ref>{{cite book | doi = 10.1007/978-3-642-24583-1_41 | chapter = Reference Sequence Construction for Relative Compression of Genomes | title = स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति| series = Lecture Notes in Computer Science | year = 2011 | last1 = Kuruppu | first1 = Shanika | last2 = Puglisi | first2 = Simon J. | last3 = Zobel | first3 = Justin | volume = 7024 | pages = 420–425 | isbn = 978-3-642-24582-4 | s2cid = 16007637 }}</ref><ref>{{cite arXiv | year = 2011 | last1 = Grabowski | first1 = Szymon | last2 = Deorowicz | first2 = Sebastian | title = जीनोम का इंजीनियरिंग सापेक्ष संपीड़न| class = cs.CE | eprint = 1103.2351 }}</ref> संपीड़न अनुपात में सुधार करने के लिए है।


=== एन्कोडिंग योजनाएं ===
=== कूटलेखन योजनाएं ===
विभिन्न आधारों और जीनोमिक निर्देशांकों को एनकोड करने के लिए विभिन्न प्रकार की एन्कोडिंग योजनाओं के अनुप्रयोग का पता लगाया गया है।<ref name=Brandon />निश्चित कोड, जैसे कि गोलोम्ब कोड और [[ चावल कोड ]], तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कोड, जैसे हफ़मैन कोड, एक अधिक सामान्य एन्ट्रापी एन्कोडिंग योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह आमतौर पर जीनोमिक अनुक्रम डेटा में मामला है)।
विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है।<ref name=Brandon />निश्चित कूट, जैसे कि गोलोम्ब कूट और [[Index.php?title=राइस कूट|राइस कूट]], तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)।


== जीनोमिक पुनः अनुक्रमण डेटा संपीड़न उपकरण की सूची ==
== जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची ==
वर्तमान में उपलब्ध जीनोमिक डेटा संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।<ref name=Brandon /><ref name=Deo>{{cite journal | pmid = 21896510 | year = 2011 | last1 = Deorowicz | first1 = S. | last2 = Grabowski | first2 = S. | title = यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न| journal = Bioinformatics  | volume = 27 | issue = 21 | pages = 2979–2986 | doi = 10.1093/bioinformatics/btr505 }}</ref><ref name=Wang>{{cite journal | pmid = 21266471 | year = 2011 | last1 = Wang | first1 = C. | last2 = Zhang | first2 = D. | title = जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण| journal = Nucleic Acids Research | volume = 39 | issue = 7 | pages = e45 | doi = 10.1093/nar/gkr009 | pmc = 3074166 }}</ref><ref name=Pinho>{{cite journal | pmid = 22139935 | year = 2012 | last1 = Pinho | first1 = A. J. | last2 = Pratas | first2 = D. | last3 = Garcia | first3 = S. P. | title = GReEn: A tool for efficient compression of genome resequencing data | journal = Nucleic Acids Research | volume = 40 | issue = 4 | pages = e27 | doi = 10.1093/nar/gkr1124 | pmc = 3287168 }}</ref><ref name=Tembe>{{cite journal | pmid = 20605925 | year = 2010 | last1 = Tembe | first1 = W. | last2 = Lowey | first2 = J. | last3 = Suh | first3 = E. | title = G-SQZ: Compact encoding of genomic sequence and quality data | journal = Bioinformatics  | volume = 26 | issue = 17 | pages = 2192–2194 | doi = 10.1093/bioinformatics/btq346 }}</ref><ref name=Chris>{{cite journal | pmid = 18996942 | year = 2009 | last1 = Christley | first1 = S. | last2 = Lu | first2 = Y. | last3 = Li | first3 = C. | last4 = Xie | first4 = X. | title = ईमेल अनुलग्नकों के रूप में मानव जीनोम| journal = Bioinformatics  | volume = 25 | issue = 2 | pages = 274–275 | doi = 10.1093/bioinformatics/btn582 }}</ref><ref name=Pavlichin>{{cite journal | pmid = 23793748 | year = 2013 | last1 = Pavlichin | first1 = D. S. | last2 = Weissman | first2 = T. | last3 = Yona | first3 = G. | title = मानव जीनोम फिर से सिकुड़ता है| journal = Bioinformatics  | volume = 29 | issue = 17 | pages = 2199–2302 | doi = 10.1093/bioinformatics/btt362 }}</ref><ref name=Pratas>Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. ''Data Compression Conference'', Snowbird, Utah, 2016.</ref> एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) <ref name=Wang />एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। हालाँकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे आम एन्कोडिंग योजना [[हफ़मैन कोडिंग]] है, जिसका उपयोग [[दोषरहित डेटा संपीड़न]] के लिए किया जाता है।
वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।<ref name=Brandon /><ref name=Deo>{{cite journal | pmid = 21896510 | year = 2011 | last1 = Deorowicz | first1 = S. | last2 = Grabowski | first2 = S. | title = यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न| journal = Bioinformatics  | volume = 27 | issue = 21 | pages = 2979–2986 | doi = 10.1093/bioinformatics/btr505 }}</ref><ref name=Wang>{{cite journal | pmid = 21266471 | year = 2011 | last1 = Wang | first1 = C. | last2 = Zhang | first2 = D. | title = जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण| journal = Nucleic Acids Research | volume = 39 | issue = 7 | pages = e45 | doi = 10.1093/nar/gkr009 | pmc = 3074166 }}</ref><ref name=Pinho>{{cite journal | pmid = 22139935 | year = 2012 | last1 = Pinho | first1 = A. J. | last2 = Pratas | first2 = D. | last3 = Garcia | first3 = S. P. | title = GReEn: A tool for efficient compression of genome resequencing data | journal = Nucleic Acids Research | volume = 40 | issue = 4 | pages = e27 | doi = 10.1093/nar/gkr1124 | pmc = 3287168 }}</ref><ref name=Tembe>{{cite journal | pmid = 20605925 | year = 2010 | last1 = Tembe | first1 = W. | last2 = Lowey | first2 = J. | last3 = Suh | first3 = E. | title = G-SQZ: Compact encoding of genomic sequence and quality data | journal = Bioinformatics  | volume = 26 | issue = 17 | pages = 2192–2194 | doi = 10.1093/bioinformatics/btq346 }}</ref><ref name=Chris>{{cite journal | pmid = 18996942 | year = 2009 | last1 = Christley | first1 = S. | last2 = Lu | first2 = Y. | last3 = Li | first3 = C. | last4 = Xie | first4 = X. | title = ईमेल अनुलग्नकों के रूप में मानव जीनोम| journal = Bioinformatics  | volume = 25 | issue = 2 | pages = 274–275 | doi = 10.1093/bioinformatics/btn582 }}</ref><ref name=Pavlichin>{{cite journal | pmid = 23793748 | year = 2013 | last1 = Pavlichin | first1 = D. S. | last2 = Weissman | first2 = T. | last3 = Yona | first3 = G. | title = मानव जीनोम फिर से सिकुड़ता है| journal = Bioinformatics  | volume = 29 | issue = 17 | pages = 2199–2302 | doi = 10.1093/bioinformatics/btt362 }}</ref><ref name=Pratas>Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. ''Data Compression Conference'', Snowbird, Utah, 2016.</ref> एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) <ref name=Wang />एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना [[Index.php?title=हफ़मैन कूटलेखन|हफ़मैन कूटलेखन]] है, जिसका उपयोग [[दोषरहित डेटा संपीड़न|दोषरहित आँकड़े संपीड़न]] के लिए किया जाता है।
{| class="wikitable"
{| class="wikitable"
|+Genomic Sequencing data compression tools compatible with standard genome sequencing files formats (BAM & FASTQ)
|+मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों (BAM से FASTQ) के साथ संगत जीनोम अनुक्रमण डेटा संपीड़न उपकरण
!Software
!सॉफ़्टवेयर
!Description
!विवरण
!Compression Ratio
!संपीडन अनुपात
!Data Used for Evaluation
!मूल्यांकन के लिए प्रयुक्त डेटा
!Approach/Encoding Scheme
!दृष्टिकोण/एनकोडिंग योजना
!Link
!लिंक
!Use Licence
!लाइसेंस का प्रयोग
!Reference
!संदर्भ
|-
|-
|Genozip
|जेनोज़िप
|A universal compressor for genomic files – compresses FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23andMe files
|जीनोमिक फ़ाइलों के लिए एक सार्वभौमिक कंप्रेसर - संपीड़ित FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23 और Me फाइल
|60% to 99%
|60% to 99%
|Human genome sequences from the 1000 Genomes Project
|1000 जीनोम परियोजना से मानव जीनोम अनुक्रम
|Genozip extensible framework
|जेनोज़िप एक्स्टेंसिबल फ्रेमवर्क
|http://genozip.com
|http://genozip.com
| Commercial, but free for non-commercial use
| वाणिज्यिक, लेकिन गैर-व्यावसायिक उपयोग के लिए निःशुल्क
|<ref>{{cite journal |last1=Lan |first1=Divon |last2=Tobler |first2=Ray |last3=Souilmi |first3=Yassine |last4=Llamas |first4=Bastien |title=Genozip: a universal extensible genomic data compressor |journal=Bioinformatics |date=25 August 2021 |volume=37 |issue=16 |pages=2225–2230 |doi=10.1093/bioinformatics/btab102|pmid=33585897 |pmc=8388020 }}</ref>
|<ref>{{cite journal |last1=Lan |first1=Divon |last2=Tobler |first2=Ray |last3=Souilmi |first3=Yassine |last4=Llamas |first4=Bastien |title=Genozip: a universal extensible genomic data compressor |journal=Bioinformatics |date=25 August 2021 |volume=37 |issue=16 |pages=2225–2230 |doi=10.1093/bioinformatics/btab102|pmid=33585897 |pmc=8388020 }}</ref>
|-
|-
|-
|-
|Genomic Squeeze (G-SQZ)
|जीनोमिक स्क्वीज़ (जी-एसक्यूजेड)
|Lossless compression tool designed for storing and analyzing sequencing read data
|अनुक्रमण पढ़े गए डेटा को संग्रहीत और विश्लेषण करने के लिए अभिकल्पित किए गया दोषरहित संपीड़न उपकरण
|65% to 76%
|65% to 76%
|Human genome sequences from the 1000 Genomes Project
|1000 जीनोम परियोजना से मानव जीनोम अनुक्रम
|Huffman coding
|हफ़मैन कोडिंग
|http://public.tgen.org/sqz
|http://public.tgen.org/sqz
| -Undeclared-
| -अघोषित-
|<ref name="Tembe" />
|<ref name="Tembe" />
|-
|-
|[[CRAM (file format)|CRAM]] (part of [[SAMtools]])
|CRAM (SAMtools का हिस्सा)
|Highly efficient and tunable reference-based compression of sequence data
|अनुक्रम डेटा का अत्यधिक कुशल और ट्यून करने योग्य संदर्भ-आधारित संपीड़न
|<ref name="CRAMbench">[http://www.htslib.org/benchmarks/CRAM.html ''CRAM benchmarking'']</ref>
|<ref name="CRAMbench">[http://www.htslib.org/benchmarks/CRAM.html ''CRAM benchmarking'']</ref>
|European Nucleotide Archive
|यूरोपीय न्यूक्लियोटाइड पुरालेख
|deflate and [[asymmetric numeral systems|rANS]]
|डिफ्लेट और [[asymmetric numeral systems|rANS]]
|http://www.ebi.ac.uk/ena/software/cram-toolkit
|http://www.ebi.ac.uk/ena/software/cram-toolkit
|Apache-2.0
|अपाचे-2.0
|<ref name="CRAM">[https://samtools.github.io/hts-specs/CRAMv3.pdf ''CRAM format specification (version 3.0)'']</ref>
|<ref name="CRAM">[https://samtools.github.io/hts-specs/CRAMv3.pdf ''CRAM format specification (version 3.0)'']</ref>
|-
|-
|Genome Compressor (GeCo)
|जीनोम कंप्रेसर (GeCo)
|A tool using a mixture of multiple Markov models for compressing reference and reference-free sequences
|संदर्भ और संदर्भ-मुक्त अनुक्रमों को संपीड़ित करने के लिए कई मार्कोव मॉडल के मिश्रण का उपयोग करने वाला एक उपकरण
|
|
|Human nuclear genome sequence
|मानव परमाणु जीनोम अनुक्रम
|Arithmetic coding
|अंकगणित कोडिंग
|http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/
|http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/
|GPLv3
|GPLv3
|<ref name="Pratas" />
|<ref name="Pratas" />
|-
|-
|PetaSuite
|पेटासुइट
|Lossless compression tool for BAM and FASTQ files
|BAM और FASTQ फ़ाइलों के लिए दोषरहित संपीड़न उपकरण
|60% to 90%
|60% to 90%
|Human genome sequences from the 1000 Genomes Project
|1000 जीनोम परियोजना से मानव जीनोम अनुक्रम
|
|
|https://www.petagene.com
|https://www.petagene.com
|Commercial
|व्यावसायिक
|<ref>{{Cite web|url=https://pulse.embs.org/march-2019/the-importance-of-data-compression-in-the-field-of-genomics/|title=The Importance of Data Compression in the Field of Genomics|website=pulse.embs.org|language=en-US|access-date=2019-12-17}}</ref>
|<ref>{{Cite web|url=https://pulse.embs.org/march-2019/the-importance-of-data-compression-in-the-field-of-genomics/|title=The Importance of Data Compression in the Field of Genomics|website=pulse.embs.org|language=en-US|access-date=2019-12-17}}</ref>
|-
|-
|GenomSys codecs
|जीनोम Sys कोडेक्स
|Lossless compression of BAM and FASTQ files into the standard format ISO/IEC 23092<ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> (MPEG-G)
|मानक प्रारूप ISO/IEC में BAM और FASTQ फ़ाइलों का दोषरहित संपीड़न 23092<ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> (MPEG-G)
|60% to 90%
|60% to 90%
|Human genome sequences from the 1000 Genomes Project
|1000 जीनोम परियोजना से मानव जीनोम अनुक्रम
|[[Context-adaptive binary arithmetic coding]] (CABAC)
|[[Index.php?title=प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग|प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग]] (CABAC)
|https://www.genomsys.com
|https://www.genomsys.com
|Commercial
|व्यावसायिक
|<ref name=Alberti>{{Cite bioRxiv |title=An introduction to MPEG-G, the new ISO standard for genomic information representation|date=27 September 2018  |last1=Alberti |first1=Claudio |last2=Paridaens |first2=Tom |last3=Voges |first3=Jan |last4=Naro |first4=Daniel |last5=Ahmad |first5=Junaid J. |last6=Ravasi |first6=Massimo |last7=Renzi |first7=Daniele |last8=Zoia |first8=Giorgio |last9=Ochoa |first9=Idoia |last10=Mattavelli |first10=Marco |last11=Delgado |first11=Jaime |last12=Hernaez |first12=Mikel |biorxiv=10.1101/426353}}</ref>
|<ref name=Alberti>{{Cite bioRxiv |title=An introduction to MPEG-G, the new ISO standard for genomic information representation|date=27 September 2018  |last1=Alberti |first1=Claudio |last2=Paridaens |first2=Tom |last3=Voges |first3=Jan |last4=Naro |first4=Daniel |last5=Ahmad |first5=Junaid J. |last6=Ravasi |first6=Massimo |last7=Renzi |first7=Daniele |last8=Zoia |first8=Giorgio |last9=Ochoa |first9=Idoia |last10=Mattavelli |first10=Marco |last11=Delgado |first11=Jaime |last12=Hernaez |first12=Mikel |biorxiv=10.1101/426353}}</ref>
|-
|-
|Genie
|जीनी
|Transcoding between the FASTA, FASTQ and SAM/BAM formats and the ISO/IEC 23092 <ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> format (MPEG-G)
|FASTA, FASTQ और SAM/BAM प्रारूपों और ISO/IEC के बीच ट्रांसकोडिंग 23092 <ref>{{Cite web|url=https://www.iso.org/standard/73536.html|title=ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information|website=iso.org|language=en-US}}</ref> प्रारूप (MPEG-G)
|[Under development]
|[अल्प विकास]
|[Under development]
|[अल्प विकास]
|[[Context-adaptive binary arithmetic coding]] (CABAC)
|[[Index.php?title=प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग|Context-adaptive binary अंकगणित कोडिंग]] (CABAC)
|https://github.com/mitogen/genie
|https://github.com/mitogen/genie
|BSD
|बीएसडी
|<ref name=Alberti/>
|<ref name=Alberti/>
|-
|-
| fastafs || Compression of FASTA / UCSC2Bit files into random access compressed archives. Toolkit to mount FASTA files, indices and dictionary files virtually. This allows neat file system (api-like )integration without the need to fully decompress archives for random / partial access. || || FASTA files || Huffman coding as implemented by Zstd || https://github.com/yhoogstrate/fastafs || GPL-v2.0 || <ref>{{cite journal |last1=Hoogstrate |first1=Youri |last2=Jenster |first2=Guido W. |last3=van de Werken |first3=Harmen J. G. |title=FASTAFS: file system virtualisation of random access compressed FASTA files |journal=BMC Bioinformatics |date=December 2021 |volume=22 |issue=1 |pages=535 |doi=10.1186/s12859-021-04455-3}}</ref>
| फास्टएफ्स || रैंडम एक्सेस संपीड़ित अभिलेखागार में FASTA / UCSC2Bit फ़ाइलों का संपीड़न। FASTA फ़ाइलों, सूचकांकों और शब्दकोश फ़ाइलों को वस्तुतः माउंट करने के लिए टूलकिट। यह यादृच्छिक/आंशिक पहुंच के लिए अभिलेखागार को पूरी तरह से डीकंप्रेस करने की आवश्यकता के बिना साफ फाइल सिस्टम (एपीआई-जैसे) एकीकरण की अनुमति देता है। || || FASTA फ़ाइलें || हफ़मैन कोडिंग जैसा कि Zstd द्वारा कार्यान्वित किया गया है || https://github.com/yhoogstrate/fastafs || जीपीएल-v2.0 || <ref>{{cite journal |last1=Hoogstrate |first1=Youri |last2=Jenster |first2=Guido W. |last3=van de Werken |first3=Harmen J. G. |title=FASTAFS: file system virtualisation of random access compressed FASTA files |journal=BMC Bioinformatics |date=December 2021 |volume=22 |issue=1 |pages=535 |doi=10.1186/s12859-021-04455-3}}</ref>
|}
|}
{| class="wikitable"
{| class="wikitable"
|+Genomic Sequencing data compression tools not compatible with standard genome sequencing files formats
|+जीनोमिक अनुक्रमण डेटा संपीड़न उपकरण मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों के साथ संगत नहीं हैं
|-
|-
! Software !! Description !! Compression Ratio !! Data Used for Evaluation !! Approach/Encoding Scheme !! Link !! Use License !! Reference
! सॉफ़्टवेयर !! विवरण !! संपीडन अनुपात !! मूल्यांकन के लिए प्रयुक्त डेटा !! दृष्टिकोण/एनकोडिंग योजना !! लिंक !! लाइसेंस का प्रयोग !! संदर्भ
|-
|-
| Genome Differential Compressor (GDC) || LZ77-style tool for compressing multiple genomes of the same species || 180 to 250-fold / 70 to 100-fold || Nuclear genome sequence of human and ''Saccharomyces cerevisiae''|| Huffman coding ||http://sun.aei.polsl.pl/gdc<nowiki/>|| GPLv2 ||<ref name="Deo" />
| जीनोम डिफरेंशियल कंप्रेसर (जीडीसी) || एक ही प्रजाति के कई जीनोम को संपीड़ित करने के लिए LZ77-शैली का उपकरण || 180 से 250 गुना / 70 से 100 गुना || मानव और ''सैक्रोमाइसेस सेरेविसिया'' का परमाणु जीनोम अनुक्रम|| हफ़मैन कोडिंग ||http://sun.aei.polsl.pl/gdc<nowiki/>|| जीपीएल v2 ||<ref name="Deo" />
|-
|-
| Genome Re-Sequencing (GRS) || Reference sequence-based tool independent of a reference SNP map or sequence variation information || 159-fold / 18,133-fold / 82-fold || Nuclear genome sequence of human, ''Arabidopsis thaliana'' (different revisions of the same genome), and ''Oryza sativa''|| Huffman coding ||https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/<nowiki/>|| free of charge for non-commercial use ||<ref name="Wang" />
| जीनोम पुनः अनुक्रमण (जीआरएस) || संदर्भ अनुक्रम-आधारित उपकरण संदर्भ एसएनपी मानचित्र या अनुक्रम भिन्नता जानकारी से स्वतंत्र है || 159-गुना / 18,133-गुना / 82-गुना || मानव का परमाणु जीनोम अनुक्रम, ''अरेबिडोप्सिस थालियाना'' (एक ही जीनोम के विभिन्न संशोधन), और ''ओरिज़ा सैटिवा''|| हफ़मैन कोडिंग ||https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/<nowiki/>|| गैर-व्यावसायिक उपयोग के लिए निःशुल्क ||<ref name="Wang" />
|-
|-
| Genome Re-sequencing Encoding (GReEN) || Probabilistic copy model-based tool for compressing re-sequencing data using a reference sequence || ~100-fold || Human nuclear genome sequence || Arithmetic coding ||http://bioinformatics.ua.pt/software/green/<nowiki/>|| -Undeclared- ||<ref name="Pinho" />
| जीनोम पुनः अनुक्रमण एन्कोडिंग (GReEN) || संदर्भ अनुक्रम का उपयोग करके पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए संभाव्य प्रतिलिपि मॉडल-आधारित उपकरण || ~100-गुना || मानव परमाणु जीनोम अनुक्रम || अंकगणित कोडिंग ||http://bioinformatics.ua.pt/software/green/<nowiki/>|| -अघोषित- ||<ref name="Pinho" />
|-
|-
| DNAzip || A package of compression tools || ~750-fold || Human nuclear genome sequence ||Huffman coding ||http://www.ics.uci.edu/~dnazip/<nowiki/>|| -Undeclared- ||<ref name="Chris" />
| डीएनएज़िप || संपीड़न उपकरणों का एक पैकेज || ~750-गुना || मानव परमाणु जीनोम अनुक्रम ||हफ़मैन कोडिंग ||http://www.ics.uci.edu/~dnazip/<nowiki/>|| -अघोषित- ||<ref name="Chris" />
|-
|-
| GenomeZip || Compression with respect to a reference genome.  Optionally uses external databases of genomic variations (e.g. dbSNP) || ~1200-fold || Human nuclear genome sequence (Watson) and sequences from the 1000 Genomes Project ||Entropy coding for approximations of empirical distributions||https://sourceforge.net/projects/genomezip/<nowiki/>|| -Undeclared- ||<ref name="Pavlichin" />
| जीनोमज़िप || एक संदर्भ जीनोम के संबंध में संपीड़न। वैकल्पिक रूप से जीनोमिक विविधताओं के बाहरी डेटाबेस का उपयोग करता है (उदाहरण के लिए डीबीएसएनपी) || ~1200-गुना || मानव परमाणु जीनोम अनुक्रम (वाटसन) और 1000 जीनोम परियोजना से अनुक्रम ||अनुभवजन्य वितरण के सन्निकटन के लिए एन्ट्रॉपी कोडिंग||https://sourceforge.net/projects/genomezip/<nowiki/>|| -अघोषित- ||<ref name="Pavlichin" />
|}
|}


Line 126: Line 126:
==संदर्भ==
==संदर्भ==
{{reflist}}
{{reflist}}
[[Category: जीनोमिक्स तकनीक]]


 
[[Category:CS1 English-language sources (en)]]
 
[[Category: Machine Translated Page]]
[[Category:Created On 26/07/2023]]
[[Category:Created On 26/07/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Short description with empty Wikidata description]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:जीनोमिक्स तकनीक]]

Latest revision as of 14:33, 11 August 2023

उच्च-थ्रूपुट अनुक्रमण प्रौद्योगिकियों के कारण जीनोम अनुक्रमण लागत में नाटकीय गिरावट आई है और जीनोमिक आँकड़े का आश्चर्यजनक रूप से तेजी से संचय हुआ है। ये प्रौद्योगिकियां महत्वाकांक्षी जीनोम अनुक्रमण प्रयासों को सक्षम कर रही हैं, जैसे कि 1000 जीनोम परियोजना और 1001 (अरबिडोप्सिस थालियाना1000 जीनोम परियोजना जीनोमिक आँकड़े की जबरदस्त मात्रा का भंडारण और स्थानांतरण एक मुख्यधारा की समस्या बन गई है, जो विशेष रूप से जीनोमिक आँकड़े के लिए अभिकल्पित किए गए उच्च-प्रदर्शन संपीड़न उपकरणों के विकास को प्रेरित करती है। जीनोमिक पुन: अनुक्रमण आँकड़े को संग्रहीत और प्रबंधित करने के लिए नए कलन विधि और उपकरणों के विकास में रुचि की हालिया वृद्धि जीनोमिक आँकड़े संपीड़न के लिए कुशल तरीकों की बढ़ती मांग पर जोर देती है।

सामान्य अवधारणाएँ

जबकि मानक आँकड़े संपीड़न उपकरण (उदाहरण के लिए, ज़िप और आरएआर) का उपयोग अनुक्रम आँकड़े (उदाहरण के लिए, GenBank फ्लैट फ़ाइल आँकड़ेबेस) को संपीड़ित करने के लिए किया जा रहा है, इस दृष्टिकोण की अत्यधिक आलोचना की गई है क्योंकि जीनोमिक अनुक्रमों में अधिकांशत: दोहराव वाली सामग्री होती है (उदाहरण के लिए, माइक्रोसैटेलाइट अनुक्रम) या कई अनुक्रम उच्च स्तर की समानता प्रदर्शित करते हैं (उदाहरण के लिए, एक ही प्रजाति के कई जीनोम अनुक्रम)। इसके अतिरिक्त, अनुक्रमण आँकड़े को संपीड़ित करने के लिए जीनोमिक अनुक्रमों के सांख्यिकीय और सूचना-सैद्धांतिक गुणों का संभावित रूप से उपयोग किया जा सकता है।[1][2][3]

चित्र 1: जीनोमिक पुन: अनुक्रमण आँकड़े को संपीड़ित करने के लिए वर्कफ़्लो के प्रमुख चरण: (1) मूल अनुक्रमण आँकड़े का प्रसंस्करण (उदाहरण के लिए, मूल आँकड़ेसेट को केवल निर्दिष्ट संदर्भ अनुक्रम के सापेक्ष भिन्नताओं तक कम करना; (2) संसाधित आँकड़े को एन्कूट करना द्विआधारी फॉर्म में; और (3) आँकड़े को टेक्स्ट फॉर्म में वापस डिकूट करना।

बेस वेरिएंट

एक संदर्भ टेम्पलेट की उपलब्धता के साथ, केवल अंतर (उदाहरण के लिए, एकल न्यूक्लियोटाइड प्रतिस्थापन और सम्मिलन/विलोपन) को अभिलेखित करने की आवश्यकता होती है, जिससे संग्रहीत की जाने वाली जानकारी की मात्रा काफी कम हो जाती है। सापेक्ष संपीड़न की धारणा विशेष रूप से जीनोम पुन: अनुक्रमण परियोजनाओं में स्पष्ट है जहां उद्देश्य व्यक्तिगत जीनोम में विविधताओं की खोज करना है। एक संदर्भ एकल न्यूक्लियोटाइड बहुरूपता (एकल-न्यूक्लियोटाइड बहुरूपता) मानचित्र का उपयोग, जैसे कि डीबीएसएनपी, का उपयोग भंडारण के लिए वेरिएंट की संख्या को और बेहतर बनाने के लिए किया जा सकता है।[4]


सापेक्ष जीनोमिक निर्देशांक

एक अन्य उपयोगी विचार निरपेक्ष निर्देशांक के बदले सापेक्ष जीनोमिक निर्देशांक को संग्रहीत करना है।[4]उदाहरण के लिए, स्थिति1आधार1स्थिति2आधार2...('Position1Base1Position2Base2...') प्रारूप में अनुक्रम भिन्न आधारों का प्रतिनिधित्व करते हुए, '123C125T130G' को '0C2T5G' तक छोटा किया जा सकता है, जहां पूर्णांक वेरिएंट के बीच अंतराल का प्रतिनिधित्व करते हैं। लागत पूर्ण निर्देशांक और सुधार कारक (इस उदाहरण में '123') के भंडारण को पुनर्प्राप्त करने के लिए आवश्यक मामूली अंकगणितीय गणना है।

जीनोम के बारे में पूर्व जानकारी

यदि जीनोम अनुक्रमों के पूल में प्रतिस्थापन की सभी संभावित स्थिति पहले से ज्ञात हो तो और कमी प्राप्त की जा सकती है।[4]उदाहरण के लिए, यदि मानव आबादी में एसएनपी के सभी स्थान ज्ञात हैं, तो भिन्न समन्वय जानकारी को अभिलेखित करने की कोई आवश्यकता नहीं है (उदाहरण के लिए, '123C125T130G' को 'CTG' में संक्षिप्त किया जा सकता है)। चूंकि, यह दृष्टिकोण शायद ही कभी उपयुक्त होता है क्योंकि ऐसी जानकारी सामान्यत: अधूरी या अनुपलब्ध होती है।

जीनोमिक निर्देशांक कूटलेखन

अतिरिक्त संपीड़न लाभ प्रदान करने के लिए समन्वित पूर्णांकों को द्विआधारी रूप में परिवर्तित करने के लिए कूटलेखन योजनाओं का उपयोग किया जाता है। कूटलेखन अभिकल्पित, जैसे कि गोलोम्ब कूट और हफ़मैन कूट, को जीनोमिक आँकड़े संपीड़न टूल में सम्मलित किया गया है।[5][6][7][8][9][10]बेशक, कूटलेखन योजनाओं में विकोडन कलन विधि सम्मलित होते हैं। विकोडन योजना का चयन संभावित रूप से अनुक्रम सूचना पुनर्प्राप्ति की दक्षता को प्रभावित करता है।

कलनविधि अभिकल्पित विकल्प

जीनोमिक आँकड़े को संपीड़ित करने के लिए एक सार्वभौमिक दृष्टिकोण आवश्यक रूप से इष्टतम नहीं हो सकता है, क्योंकि एक विशेष विधि विशिष्ट उद्देश्यों और लक्ष्यों के लिए अधिक उपयुक्त हो सकती है। इस प्रकार, कई अभिकल्पित विकल्प जो संभावित रूप से संपीड़न प्रदर्शन को प्रभावित करते हैं, विचार के लिए महत्वपूर्ण हो सकते हैं।

संदर्भ अनुक्रम

सापेक्ष संपीड़न के लिए संदर्भ अनुक्रम का चयन संपीड़न प्रदर्शन को प्रभावित कर सकता है। अधिक विशिष्ट संदर्भ अनुक्रम (उदाहरण के लिए, संशोधित कैम्ब्रिज संदर्भ अनुक्रम) पर सर्वसम्मति संदर्भ अनुक्रम चुनने से उच्च संपीड़न अनुपात हो सकता है क्योंकि सर्वसम्मति संदर्भ में इसके आँकड़े में कम पूर्वाग्रह हो सकता है।[4]चूंकि, संपीड़ित होने वाले अनुक्रम के स्रोत के बारे में ज्ञान का उपयोग अधिक संपीड़न लाभ प्राप्त करने के लिए किया जा सकता है। एकाधिक संदर्भ अनुक्रमों का उपयोग करने का विचार प्रस्तावित किया गया है।[4]ब्रैंडन एट अल. (2009)[4]एक उदाहरण के रूप में सूत्रकणिकीय डी.एन.ए वैरिएंट आँकड़े के संपीड़न का उपयोग करते हुए, जातीय समूह-विशिष्ट संदर्भ अनुक्रम टेम्पलेट्स के संभावित उपयोग का संकेत दिया गया (चित्र 2 देखें)। लेखकों ने संशोधित कैम्ब्रिज संदर्भ अनुक्रम के सापेक्ष अफ्रीकियों, एशियाई और यूरेशियाई लोगों के सूत्रकणिकीय डी.एन.ए अनुक्रमों में पक्षपाती हैप्लोटाइप वितरण पाया है। उनके परिणाम से पता चलता है कि संशोधित कैम्ब्रिज संदर्भ अनुक्रम हमेशा इष्टतम नहीं हो सकता है क्योंकि जब इसका उपयोग जातीय रूप से दूर के व्यक्तियों के आँकड़े के विरुद्ध किया जाता है तो अधिक संख्या में वेरिएंट को संग्रहीत करने की आवश्यकता होती है। इसके अतिरिक्त, सांख्यिकीय गुणों के आधार पर एक संदर्भ अनुक्रम तैयार किया जा सकता है [1][4]या इंजीनियर किया गया [11][12] संपीड़न अनुपात में सुधार करने के लिए है।

कूटलेखन योजनाएं

विभिन्न आधारों और जीनोमिक निर्देशांकों को कूटलेखन करने के लिए विभिन्न प्रकार की कूटलेखन योजनाओं के अनुप्रयोग का पता लगाया गया है।[4]निश्चित कूट, जैसे कि गोलोम्ब कूट और राइस कूट, तब उपयुक्त होते हैं जब वैरिएंट या समन्वय (पूर्णांक के रूप में दर्शाया गया) वितरण अच्छी तरह से परिभाषित होता है। परिवर्तनीय कूट, जैसे हफ़मैन कूट, एक अधिक सामान्य एन्ट्रापी कूटलेखन योजना प्रदान करते हैं जब अंतर्निहित संस्करण और/या समन्वय वितरण अच्छी तरह से परिभाषित नहीं होता है (यह सामान्यत: जीनोमिक अनुक्रम आँकड़े में स्थितिा है)।

जीनोमिक पुनः अनुक्रमण आँकड़े संपीड़न उपकरण की सूची

वर्तमान में उपलब्ध जीनोमिक आँकड़े संपीड़न उपकरणों का संपीड़न अनुपात मानव जीनोम के लिए 65 गुना और 1,200 गुना के बीच है।[4][5][6][7][8][9][10][13] एक ही जीनोम के बहुत करीबी वेरिएंट या संशोधनों को बहुत कुशलता से संपीड़ित किया जा सकता है (उदाहरण के लिए, 18,133 संपीड़न अनुपात की सूचना दी गई थी) [6]एक ही ए. थालियाना जीनोम के दो संशोधनों के लिए, जो 99.999% समान हैं)। चूंकि, ऐसा संपीड़न एक ही जीव के विभिन्न जीनोम (व्यक्तियों) के लिए विशिष्ट संपीड़न अनुपात का संकेत नहीं है। इन उपकरणों में सबसे सामान्य कूटलेखन योजना हफ़मैन कूटलेखन है, जिसका उपयोग दोषरहित आँकड़े संपीड़न के लिए किया जाता है।

मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों (BAM से FASTQ) के साथ संगत जीनोम अनुक्रमण डेटा संपीड़न उपकरण
सॉफ़्टवेयर विवरण संपीडन अनुपात मूल्यांकन के लिए प्रयुक्त डेटा दृष्टिकोण/एनकोडिंग योजना लिंक लाइसेंस का प्रयोग संदर्भ
जेनोज़िप जीनोमिक फ़ाइलों के लिए एक सार्वभौमिक कंप्रेसर - संपीड़ित FASTQ, SAM/BAM/CRAM, VCF/BCF, FASTA, GFF/GTF/GVF, PHYLIP and 23 और Me फाइल 60% to 99% 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम जेनोज़िप एक्स्टेंसिबल फ्रेमवर्क http://genozip.com वाणिज्यिक, लेकिन गैर-व्यावसायिक उपयोग के लिए निःशुल्क [14]
जीनोमिक स्क्वीज़ (जी-एसक्यूजेड) अनुक्रमण पढ़े गए डेटा को संग्रहीत और विश्लेषण करने के लिए अभिकल्पित किए गया दोषरहित संपीड़न उपकरण 65% to 76% 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम हफ़मैन कोडिंग http://public.tgen.org/sqz -अघोषित- [8]
CRAM (SAMtools का हिस्सा) अनुक्रम डेटा का अत्यधिक कुशल और ट्यून करने योग्य संदर्भ-आधारित संपीड़न [15] यूरोपीय न्यूक्लियोटाइड पुरालेख डिफ्लेट और rANS http://www.ebi.ac.uk/ena/software/cram-toolkit अपाचे-2.0 [16]
जीनोम कंप्रेसर (GeCo) संदर्भ और संदर्भ-मुक्त अनुक्रमों को संपीड़ित करने के लिए कई मार्कोव मॉडल के मिश्रण का उपयोग करने वाला एक उपकरण मानव परमाणु जीनोम अनुक्रम अंकगणित कोडिंग http://bioinformatics.ua.pt/software/geco/ or https://pratas.github.io/geco/ GPLv3 [13]
पेटासुइट BAM और FASTQ फ़ाइलों के लिए दोषरहित संपीड़न उपकरण 60% to 90% 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम https://www.petagene.com व्यावसायिक [17]
जीनोम Sys कोडेक्स मानक प्रारूप ISO/IEC में BAM और FASTQ फ़ाइलों का दोषरहित संपीड़न 23092[18] (MPEG-G) 60% to 90% 1000 जीनोम परियोजना से मानव जीनोम अनुक्रम प्रसंग-अनुकूली बाइनरी अंकगणित कोडिंग (CABAC) https://www.genomsys.com व्यावसायिक [19]
जीनी FASTA, FASTQ और SAM/BAM प्रारूपों और ISO/IEC के बीच ट्रांसकोडिंग 23092 [20] प्रारूप (MPEG-G) [अल्प विकास] [अल्प विकास] Context-adaptive binary अंकगणित कोडिंग (CABAC) https://github.com/mitogen/genie बीएसडी [19]
फास्टएफ्स रैंडम एक्सेस संपीड़ित अभिलेखागार में FASTA / UCSC2Bit फ़ाइलों का संपीड़न। FASTA फ़ाइलों, सूचकांकों और शब्दकोश फ़ाइलों को वस्तुतः माउंट करने के लिए टूलकिट। यह यादृच्छिक/आंशिक पहुंच के लिए अभिलेखागार को पूरी तरह से डीकंप्रेस करने की आवश्यकता के बिना साफ फाइल सिस्टम (एपीआई-जैसे) एकीकरण की अनुमति देता है। FASTA फ़ाइलें हफ़मैन कोडिंग जैसा कि Zstd द्वारा कार्यान्वित किया गया है https://github.com/yhoogstrate/fastafs जीपीएल-v2.0 [21]
जीनोमिक अनुक्रमण डेटा संपीड़न उपकरण मानक जीनोम अनुक्रमण फ़ाइल स्वरूपों के साथ संगत नहीं हैं
सॉफ़्टवेयर विवरण संपीडन अनुपात मूल्यांकन के लिए प्रयुक्त डेटा दृष्टिकोण/एनकोडिंग योजना लिंक लाइसेंस का प्रयोग संदर्भ
जीनोम डिफरेंशियल कंप्रेसर (जीडीसी) एक ही प्रजाति के कई जीनोम को संपीड़ित करने के लिए LZ77-शैली का उपकरण 180 से 250 गुना / 70 से 100 गुना मानव और सैक्रोमाइसेस सेरेविसिया का परमाणु जीनोम अनुक्रम हफ़मैन कोडिंग http://sun.aei.polsl.pl/gdc जीपीएल v2 [5]
जीनोम पुनः अनुक्रमण (जीआरएस) संदर्भ अनुक्रम-आधारित उपकरण संदर्भ एसएनपी मानचित्र या अनुक्रम भिन्नता जानकारी से स्वतंत्र है 159-गुना / 18,133-गुना / 82-गुना मानव का परमाणु जीनोम अनुक्रम, अरेबिडोप्सिस थालियाना (एक ही जीनोम के विभिन्न संशोधन), और ओरिज़ा सैटिवा हफ़मैन कोडिंग https://web.archive.org/web/20121209070434/http://gmdd.shgmo.org/Computational-Biology/GRS/ गैर-व्यावसायिक उपयोग के लिए निःशुल्क [6]
जीनोम पुनः अनुक्रमण एन्कोडिंग (GReEN) संदर्भ अनुक्रम का उपयोग करके पुन: अनुक्रमण डेटा को संपीड़ित करने के लिए संभाव्य प्रतिलिपि मॉडल-आधारित उपकरण ~100-गुना मानव परमाणु जीनोम अनुक्रम अंकगणित कोडिंग http://bioinformatics.ua.pt/software/green/ -अघोषित- [7]
डीएनएज़िप संपीड़न उपकरणों का एक पैकेज ~750-गुना मानव परमाणु जीनोम अनुक्रम हफ़मैन कोडिंग http://www.ics.uci.edu/~dnazip/ -अघोषित- [9]
जीनोमज़िप एक संदर्भ जीनोम के संबंध में संपीड़न। वैकल्पिक रूप से जीनोमिक विविधताओं के बाहरी डेटाबेस का उपयोग करता है (उदाहरण के लिए डीबीएसएनपी) ~1200-गुना मानव परमाणु जीनोम अनुक्रम (वाटसन) और 1000 जीनोम परियोजना से अनुक्रम अनुभवजन्य वितरण के सन्निकटन के लिए एन्ट्रॉपी कोडिंग https://sourceforge.net/projects/genomezip/ -अघोषित- [10]


संदर्भ

  1. 1.0 1.1 Giancarlo, R.; Scaturro, D.; Utro, F. (2009). "Textual data compression in computational biology: A synopsis". Bioinformatics. 25 (13): 1575–1586. doi:10.1093/bioinformatics/btp117. PMID 19251772.
  2. Nalbantog̃Lu, O. U.; Russell, D. J.; Sayood, K. (2010). "डेटा संपीड़न अवधारणाएं और एल्गोरिदम और जैव सूचना विज्ञान में उनके अनुप्रयोग". Entropy. 12 (1): 34. doi:10.3390/e12010034. PMC 2821113. PMID 20157640.
  3. Hosseini, Morteza; Pratas, Diogo; Pinho, Armando (2016). "जैविक अनुक्रमों के लिए डेटा संपीड़न विधियों पर एक सर्वेक्षण". Information. 7 (4): 56. doi:10.3390/info7040056.
  4. 4.0 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Brandon, M. C.; Wallace, D. C.; Baldi, P. (2009). "जीनोमिक अनुक्रम डेटा के लिए डेटा संरचनाएं और संपीड़न एल्गोरिदम". Bioinformatics. 25 (14): 1731–1738. doi:10.1093/bioinformatics/btp319. PMC 2705231. PMID 19447783.
  5. 5.0 5.1 5.2 Deorowicz, S.; Grabowski, S. (2011). "यादृच्छिक पहुंच के साथ जीनोम का मजबूत सापेक्ष संपीड़न". Bioinformatics. 27 (21): 2979–2986. doi:10.1093/bioinformatics/btr505. PMID 21896510.
  6. 6.0 6.1 6.2 6.3 Wang, C.; Zhang, D. (2011). "जीनोम पुनरुत्पादन डेटा के कुशल भंडारण के लिए एक नवीन संपीड़न उपकरण". Nucleic Acids Research. 39 (7): e45. doi:10.1093/nar/gkr009. PMC 3074166. PMID 21266471.
  7. 7.0 7.1 7.2 Pinho, A. J.; Pratas, D.; Garcia, S. P. (2012). "GReEn: A tool for efficient compression of genome resequencing data". Nucleic Acids Research. 40 (4): e27. doi:10.1093/nar/gkr1124. PMC 3287168. PMID 22139935.
  8. 8.0 8.1 8.2 Tembe, W.; Lowey, J.; Suh, E. (2010). "G-SQZ: Compact encoding of genomic sequence and quality data". Bioinformatics. 26 (17): 2192–2194. doi:10.1093/bioinformatics/btq346. PMID 20605925.
  9. 9.0 9.1 9.2 Christley, S.; Lu, Y.; Li, C.; Xie, X. (2009). "ईमेल अनुलग्नकों के रूप में मानव जीनोम". Bioinformatics. 25 (2): 274–275. doi:10.1093/bioinformatics/btn582. PMID 18996942.
  10. 10.0 10.1 10.2 Pavlichin, D. S.; Weissman, T.; Yona, G. (2013). "मानव जीनोम फिर से सिकुड़ता है". Bioinformatics. 29 (17): 2199–2302. doi:10.1093/bioinformatics/btt362. PMID 23793748.
  11. Kuruppu, Shanika; Puglisi, Simon J.; Zobel, Justin (2011). "Reference Sequence Construction for Relative Compression of Genomes". स्ट्रिंग प्रसंस्करण और सूचना पुनर्प्राप्ति. Lecture Notes in Computer Science. Vol. 7024. pp. 420–425. doi:10.1007/978-3-642-24583-1_41. ISBN 978-3-642-24582-4. S2CID 16007637.
  12. Grabowski, Szymon; Deorowicz, Sebastian (2011). "जीनोम का इंजीनियरिंग सापेक्ष संपीड़न". arXiv:1103.2351 [cs.CE].
  13. 13.0 13.1 Pratas, D., Pinho, A. J., and Ferreira, P. J. S. G. Efficient compression of genomic sequences. Data Compression Conference, Snowbird, Utah, 2016.
  14. Lan, Divon; Tobler, Ray; Souilmi, Yassine; Llamas, Bastien (25 August 2021). "Genozip: a universal extensible genomic data compressor". Bioinformatics. 37 (16): 2225–2230. doi:10.1093/bioinformatics/btab102. PMC 8388020. PMID 33585897.
  15. CRAM benchmarking
  16. CRAM format specification (version 3.0)
  17. "The Importance of Data Compression in the Field of Genomics". pulse.embs.org (in English). Retrieved 2019-12-17.
  18. "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
  19. 19.0 19.1 Alberti, Claudio; Paridaens, Tom; Voges, Jan; Naro, Daniel; Ahmad, Junaid J.; Ravasi, Massimo; Renzi, Daniele; Zoia, Giorgio; Ochoa, Idoia; Mattavelli, Marco; Delgado, Jaime; Hernaez, Mikel (27 September 2018). "An introduction to MPEG-G, the new ISO standard for genomic information representation". bioRxiv 10.1101/426353.
  20. "ISO/IEC 23092-2:2019 Information technology — Genomic information representation — Part 2: Coding of genomic information". iso.org (in English).
  21. Hoogstrate, Youri; Jenster, Guido W.; van de Werken, Harmen J. G. (December 2021). "FASTAFS: file system virtualisation of random access compressed FASTA files". BMC Bioinformatics. 22 (1): 535. doi:10.1186/s12859-021-04455-3.