पिरामिड (इमेज प्रोसेसिंग)

From Vigyanwiki
5 स्तरों के साथ एक इमेज पिरामिड का दृश्य

पिरामिड, या पिरामिड रिप्रजेंटेशन, कंप्यूटर विज़न, इमेज प्रोसेसिंग और सिग्नल प्रोसेसिंग कम्युनिटी द्वारा विकसित एक प्रकार का मल्टी-स्केल सिग्नल रिप्रजेंटेशन है, जिसमें एक सिग्नल या एक इमेज बार-बार स्मूथिंग और सबसैंपलिंग के अधीन होती है। पिरामिड रिप्रजेंटेशन स्केल स्पेस रिप्रजेंटेशन और मल्टीरिज़ॉल्यूशन एनालिसिस का पूर्ववर्ती है।

पिरामिड जनरेशन

पिरामिड दो मुख्य प्रकार के होते हैं: लोपास और बैंडपास।

एक उपयुक्त स्मूथिंग फिल्टर के साथ इमेज को स्मूथ करके और फिर स्मूथ इमेज को सबसैम्पलिंग देकर, सामान्यतः प्रत्येक समन्वय दिशा के साथ 2 के कारक द्वारा एक लोपास पिरामिड बनाया जाता है। परिणामी इमेज को फिर उसी प्रक्रिया के अधीन किया जाता है, और चक्र को कई बार दोहराया जाता है। इस प्रक्रिया के प्रत्येक चक्र के परिणामस्वरूप स्मूथिंग में वृद्धि के साथ एक छोटी इमेज बनती है, लेकिन स्पाटिअल सैंपलिंग डेंसिटी में कमी आती है (अर्थात, इमेज रिज़ॉल्यूशन में कमी आती है)। यदि ग्राफ़िक रूप से चित्रित किया जाए, तो संपूर्ण बहु-स्तरीय रिप्रजेंटेशन एक पिरामिड की तरह दिखाई देगा, जिसमें नीचे मूल इमेज होगी और प्रत्येक चक्र के परिणामस्वरूप छोटी इमेज एक दूसरे के ऊपर चितीयित होगी।

एक बैंडपास पिरामिड में आसन्न स्तरों पर इमेज के बीच अंतर बनाकर और रिज़ॉल्यूशन के आसन्न स्तरों के बीच इमेज इन्टरपोलेशन करके बनाया जाता है, ताकि पिक्सेलवार अंतर की गणना की जा सके।[1]

पिरामिड जनरेशन कर्नल्स

पिरामिड बनाने के लिए विभिन्न प्रकार के विभिन्न स्मूथिंग कर्नेल (इमेज प्रसंस्करण) का प्रस्ताव किया गया है। [2][3][4][5][6][7] जो सुझाव दिए गए हैं, उनमें द्विपद गुणांक से उत्पन्न होने वाले द्विपद कर्नेल एक विशेष रूप से उपयोगी और सैद्धांतिक रूप से अच्छी तरह से स्थापित वर्ग के रूप में सामने आते हैं। [3][8][9][10][11][12] इस प्रकार, एक द्वि-आयामी इमेज को देखते हुए, हम (सामान्यीकृत) द्विपद फ़िल्टर (1/4, 1/2, 1/4) सामान्यतः प्रत्येक स्थानिक आयाम के साथ दो या अधिक बार लागू कर सकते हैं और फिर इमेज को दो के कारक से सबसैंपल कर सकते हैं। यह ऑपरेशन तब जितनी बार चाहें आगे बढ़ाया जा सकता है, जिससे एक कॉम्पैक्ट और एफिशिएंट मल्टी-स्केल रिप्रजेंटेशन प्राप्त होगा। यदि विशिष्ट आवश्यकताओं से प्रेरित किया जाता है, तो मध्यवर्ती मापक्रम के स्तर भी उत्पन्न हो सकते हैं जहां सबसैंपल चरण कभी-कभी छूट जाता है, जिससे एक ओवरसैंपल्ड या हाइब्रिड पिरामिड बन जाता है। [11]आज उपलब्ध सीपीयू की बढ़ती कम्प्यूटेशनल दक्षता के साथ, कुछ स्थितियों में पिरामिड जनरेशन के चरणों में स्मूथिंग कर्नेल के रूप में व्यापक समर्थित गाऊसी फिल्टर का उपयोग करना भी संभव है।

गाऊसी पिरामिड

गाऊसी पिरामिड में, बाद की इमेज को गाऊसी एवरेज (गाऊसी ब्लर) का उपयोग करके भारित किया जाता है और छोटा किया जाता है। स्थानीय औसत वाला प्रत्येक पिक्सेल पिरामिड के निचले स्तर पर प्रतिवैस पिक्सेल से मेल खाता है। इस तकनीक का प्रयोग विशेष रूप से टेक्सचर सिंथेसिस में किया जाता है।

लाप्लासियन पिरामिड

लाप्लासियन पिरामिड गॉसियन पिरामिड के समान है लेकिन प्रत्येक स्तर के बीच ब्लर वर्ज़न की इनर इमेज को बचाता है। उच्च स्तरों पर अंतर इमेज का उपयोग करके उच्च रिज़ॉल्यूशन इमेज के पुनर्निर्माण को सक्षम करने के लिए केवल सबसे छोटा स्तर एक अंतर इमेज नहीं है। इस तकनीक का उपयोग इमेज कम्प्रेशन में किया जा सकता है। [13]

स्टीरेबल पिरामिड

ईरो सिमोनसेलि और अन्य द्वारा विकसित एक स्टीयरेबल पिरामिड, एक मल्टी-स्केल, मल्टी-ओरिएंटेशन बैंडपास फ़िल्टर बैंक का कार्यान्वयन है जिसका उपयोग इमेज कम्प्रेशन, टेक्सचर सिंथेसिस और ऑब्जेक्ट रिकग्निशन सहित अनुप्रयोगों के लिए किया जाता है। इसे लाप्लासियन पिरामिड के एक ओरिएंटेशन सलेक्टिव वर्ज़न के रूप में सोचा जा सकता है, जिसमें एकल लाप्लासियन या गॉसियन फिल्टर के स्थान पर पिरामिड के प्रत्येक स्तर पर चलाने योग्य फिल्टर का एक बैंक उपयोग किया जाता है। [14][15][16]


पिरामिड के अनुप्रयोग

वैकल्पिक रिप्रजेंटेशन

कंप्यूटर विज़न के प्रारम्भिक दिनों में, वास्तविक दुनिया की इमेज डेटा से मल्टी-स्केल इमेज फ़ीचर डिटेक्शन (कंप्यूटर विज़न) की गणना के लिए पिरामिड का उपयोग मुख्य प्रकार के मल्टी-स्केल रिप्रजेंटेशन के रूप में किया जाता था। हाल की तकनीकों में स्केल-स्पेस रिप्रजेंटेशन सम्मिलित है, जो अपने थ्योरेटिकल फाउंडेशन, मल्टी-स्केल रिप्रजेंटेशन से सबसैंपलिंग चरण को अलग करने की क्षमता, सैद्धांतिक विश्लेषण के लिए अधिक शक्तिशाली उपकरणों के साथ-साथ कुछ शोधकर्ताओं के बीच लोकप्रिय रहा है। किसी भी वांछित मापक्रम पर रिप्रजेंटेशन की गणना करने की क्षमता, इस प्रकार विभिन्न रिज़ॉल्यूशन पर संबंधित इमेज रिप्रजेंटेशन की एल्गोरिदमिक समस्याओं से बचा जा सकता है। फिर भी, स्केल-स्पेस रिप्रजेंटेशन के लिए कम्प्यूटेशनल रूप से कुशल अनुमान व्यक्त करने के लिए पिरामिड का उपयोग अभी भी प्रायः किया जाता है। [11][17][18]

विस्तार प्रकलन

विभिन्न मापक्रम पर विवरण को बढ़ाने या कम करने के लिए लाप्लासियन पिरामिड के स्तरों को मूल इमेज में जोड़ा या हटाया जा सकता है। हालाँकि, इस फॉर्म का विस्तार से प्रकलन कई स्तिथियों में हेलो कलाकृतियों का उत्पादन करने के लिए जाना जाता है, जिससे द्विपक्षीय फ़िल्टर जैसे विकल्पों का विकास होता है।

कुछ इमेज कम्प्रेशन फ़ाइल प्रारूप एडम7 एल्गोरिदम या कुछ अन्य इंटरलेसिंग (बिटमैप्स) तकनीक का उपयोग करते हैं। इन्हें एक प्रकार के इमेज पिरामिड के रूप में देखा जा सकता है। क्योंकि वे फ़ाइल प्रारूप बड़े मापक्रम की विशेषताओं को पहले संग्रहीत करते हैं, और बारीक विवरण बाद में फ़ाइल में संग्रहीत करते हैं, एक विशेष दर्शक एक छोटे थंबनेल या छोटी स्क्रीन पर प्रदर्शित होने वाली इमेज को उपलब्ध पिक्सेल में प्रदर्शित करने के लिए बस पर्याप्त इमेज को तुरंत डाउनलोड कर सकता है - इसलिए एक फ़ाइल प्रत्येक रिज़ॉल्यूशन के लिए एक अलग फ़ाइल को संग्रहीत या उत्पन्न करने के स्थान पर कई दर्शक रिज़ॉल्यूशन का समर्थन कर सकती है।

यह भी देखें

संदर्भ

  1. E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden. "Pyramid methods in image processing". 1984.
  2. Burt, P. J. (May 1981). "Fast filter transform for image processing". Computer Graphics and Image Processing. 16: 20–51. doi:10.1016/0146-664X(81)90092-7.
  3. 3.0 3.1 Crowley, James L. (November 1981). "दृश्य जानकारी के लिए एक प्रतिनिधित्व". Carnegie-Mellon University, Robotics Institute. tech. report CMU-RI-TR-82-07. {{cite journal}}: Cite journal requires |journal= (help)
  4. Burt, Peter; Adelson, Ted (1983). "एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड" (PDF). IEEE Trans. Commun. 9 (4): 532–540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. S2CID 8018433.
  5. Crowley, J. L.; Parker, A. C. (March 1984). "A representation for shape based on peaks and ridges in the difference of low-pass transform". IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (2): 156–170. CiteSeerX 10.1.1.161.3102. doi:10.1109/TPAMI.1984.4767500. PMID 21869180. S2CID 14348919.
  6. Crowley, J. L.; Sanderson, A. C. (1987). "Multiple resolution representation and probabilistic matching of 2-D gray-scale shape" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294. doi:10.1109/tpami.1987.4767876. PMID 21869381. S2CID 14999508.
  7. Meer, P.; Baugher, E. S.; Rosenfeld, A. (1987). "फ़्रीक्वेंसी डोमेन विश्लेषण और छवि निर्माण गुठली का संश्लेषण". IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (4): 512–522. doi:10.1109/tpami.1987.4767939. PMID 21869409. S2CID 5978760.
  8. Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, pp. 234-254.
  9. Haddad, R. A.; Akansu, A. N. (March 1991). "भाषण और छवि प्रसंस्करण के लिए तेज़ गाऊसी द्विपद फ़िल्टर का एक वर्ग" (PDF). IEEE Transactions on Signal Processing. 39 (3): 723–727. Bibcode:1991ITSP...39..723H. doi:10.1109/78.80892.
  10. Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)
  11. 11.0 11.1 11.2 Lindeberg, T. and Bretzner, L. Real-time scale selection in hybrid multi-scale representations, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003.
  12. See the article on multi-scale approaches for a very brief theoretical statement
  13. Burt, Peter J.; Adelson, Edward H. (1983). "एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड" (PDF). IEEE Transactions on Communications. 31 (4): 532–540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. S2CID 8018433.
  14. Simoncelli, Eero. "चलाने योग्य पिरामिड". cns.nyu.edu.
  15. Manduchi, Roberto; Perona, Pietro; Shy, Doug (1997). "कुशल विकृत फ़िल्टर बैंक" (PDF). California Institute of Technology/University of Padua.
    Also in Manduchi, R.; Perona, P.; Shy, D. (1998). "कुशल विकृत फ़िल्टर बैंक". Transactions on Signal Processing. 46 (4): 1168–1173. Bibcode:1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102. doi:10.1109/78.668570.
  16. Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler "Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); doi:10.1117/12.274510
  17. Crowley, J, Riff O. Fast computation of scale normalised Gaussian receptive fields, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, 2003.
  18. Lowe, D. G. (2004). "स्केल-अपरिवर्तनीय मुख्य बिंदुओं से विशिष्ट छवि सुविधाएँ". International Journal of Computer Vision. 60 (2): 91–110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.


बाहरी संबंध