पिरामिड (इमेज प्रोसेसिंग): Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Type of multi-scale signal representation}} {{FeatureDetectionCompVisNavbox}} File:image pyramid.svg|thumb|upright=1.2|5 स्तरों के सा...")
 
 
(4 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Type of multi-scale signal representation}}
{{Short description|Type of multi-scale signal representation}}
{{FeatureDetectionCompVisNavbox}}
{{FeatureDetectionCompVisNavbox}}
[[File:image pyramid.svg|thumb|upright=1.2|5 स्तरों के साथ एक छवि पिरामिड का दृश्य प्रतिनिधित्व]]पिरामिड, या पिरामिड प्रतिनिधित्व, एक प्रकार का [[ पैमाना मॉडल ]] है | मल्टी-स्केल [[सिग्नल (सूचना सिद्धांत)]] [[कंप्यूटर दृष्टि]], [[ मूर्ति प्रोद्योगिकी ]] और [[ संकेत आगे बढ़ाना ]] समुदायों द्वारा विकसित ज्ञान प्रतिनिधित्व, जिसमें एक सिग्नल या एक छवि बार-बार [[ चौरसाई ]] और [[डाउनसैंपलिंग]] के अधीन होती है। . पिरामिड प्रतिनिधित्व [[स्केल स्पेस]]|स्केल-स्पेस प्रतिनिधित्व और मल्टीरिज़ॉल्यूशन विश्लेषण का पूर्ववर्ती है।
[[File:image pyramid.svg|thumb|upright=1.2|5 स्तरों के साथ एक इमेज पिरामिड का दृश्य]]'''पिरामिड''', या '''पिरामिड रिप्रजेंटेशन''', कंप्यूटर विज़न, इमेज प्रोसेसिंग और सिग्नल प्रोसेसिंग कम्युनिटी द्वारा विकसित एक प्रकार का मल्टी-स्केल सिग्नल रिप्रजेंटेशन है, जिसमें एक सिग्नल या एक इमेज बार-बार स्मूथिंग और सबसैंपलिंग के अधीन होती है। पिरामिड रिप्रजेंटेशन [[स्केल स्पेस]] रिप्रजेंटेशन और मल्टीरिज़ॉल्यूशन एनालिसिस का पूर्ववर्ती है।


==पिरामिड पीढ़ी==
==पिरामिड जनरेशन==


पिरामिड दो मुख्य प्रकार के होते हैं: लोपास और बैंडपास।
पिरामिड दो मुख्य प्रकार के होते हैं: लोपास और बैंडपास।


एक उपयुक्त स्मूथिंग फिल्टर के साथ छवि को चिकना करके और फिर चिकनी छवि को उप-नमूना देकर, आमतौर पर प्रत्येक समन्वय दिशा के साथ 2 के कारक द्वारा एक लोपास पिरामिड बनाया जाता है। परिणामी छवि को फिर उसी प्रक्रिया के अधीन किया जाता है, और चक्र को कई बार दोहराया जाता है। इस प्रक्रिया के प्रत्येक चक्र के परिणामस्वरूप स्मूथिंग में वृद्धि के साथ एक छोटी छवि बनती है, लेकिन स्थानिक नमूनाकरण घनत्व में कमी आती है (अर्थात, छवि रिज़ॉल्यूशन में कमी आती है)। यदि ग्राफ़िक रूप से चित्रित किया जाए, तो संपूर्ण बहु-स्तरीय प्रतिनिधित्व एक पिरामिड की तरह दिखाई देगा, जिसमें नीचे मूल छवि होगी और प्रत्येक चक्र के परिणामस्वरूप छोटी छवि एक दूसरे के ऊपर खड़ी होगी।
एक उपयुक्त स्मूथिंग फिल्टर के साथ इमेज को स्मूथ करके और फिर स्मूथ इमेज को सबसैम्पलिंग देकर, सामान्यतः प्रत्येक समन्वय दिशा के साथ 2 के कारक द्वारा एक लोपास पिरामिड बनाया जाता है। परिणामी इमेज को फिर उसी प्रक्रिया के अधीन किया जाता है, और चक्र को कई बार दोहराया जाता है। इस प्रक्रिया के प्रत्येक चक्र के परिणामस्वरूप स्मूथिंग में वृद्धि के साथ एक छोटी इमेज बनती है, लेकिन स्पाटिअल सैंपलिंग डेंसिटी में कमी आती है (अर्थात, इमेज रिज़ॉल्यूशन में कमी आती है)। यदि ग्राफ़िक रूप से चित्रित किया जाए, तो संपूर्ण बहु-स्तरीय रिप्रजेंटेशन एक पिरामिड की तरह दिखाई देगा, जिसमें नीचे मूल इमेज होगी और प्रत्येक चक्र के परिणामस्वरूप छोटी इमेज एक दूसरे के ऊपर चितीयित होगी।


एक बैंडपास पिरामिड पिरामिड में आसन्न स्तरों पर छवियों के बीच अंतर बनाकर और रिज़ॉल्यूशन के आसन्न स्तरों के बीच छवि प्रक्षेप करके बनाया जाता है, ताकि पिक्सेलवार अंतर की गणना की जा सके।<ref>
एक बैंडपास पिरामिड में आसन्न स्तरों पर इमेज के बीच अंतर बनाकर और रिज़ॉल्यूशन के आसन्न स्तरों के बीच इमेज इन्टरपोलेशन करके बनाया जाता है, ताकि पिक्सेलवार अंतर की गणना की जा सके।<ref>
E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden.
E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden.
[http://persci.mit.edu/pub_pdfs/RCA84.pdf "Pyramid methods in image processing"].
[http://persci.mit.edu/pub_pdfs/RCA84.pdf "Pyramid methods in image processing"].
1984.
1984.
</ref>
</ref>
==पिरामिड जनरेशन कर्नल्स==


 
पिरामिड बनाने के लिए विभिन्न प्रकार के विभिन्न स्मूथिंग [[कर्नेल (छवि प्रसंस्करण)|कर्नेल (इमेज प्रसंस्करण)]] का प्रस्ताव किया गया है। <ref>{{Cite journal
==पिरामिड पीढ़ी गुठली==
 
पिरामिड बनाने के लिए विभिन्न प्रकार के विभिन्न स्मूथिंग [[कर्नेल (छवि प्रसंस्करण)]] का प्रस्ताव किया गया है।<ref>{{Cite journal
| last1 = Burt | first1 = P. J.
| last1 = Burt | first1 = P. J.
| doi = 10.1016/0146-664X(81)90092-7
| doi = 10.1016/0146-664X(81)90092-7
Line 39: Line 37:
| citeseerx = 10.1.1.161.3102
| citeseerx = 10.1.1.161.3102
| s2cid = 14348919
| s2cid = 14348919
}}</ref><ref>{{cite journal | last1 = Crowley | first1 = J. L. | last2 = Sanderson | first2 = A. C. | year = 1987 | title = Multiple resolution representation and probabilistic matching of 2-D gray-scale shape | url = http://www-prima.inrialpes.fr/Prima/Homepages/jlc/papers/Crowley-Sanderson-PAMI87.pdf| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 9 | issue = 1| pages = 113–121 | doi = 10.1109/tpami.1987.4767876 | pmid = 21869381 | citeseerx = 10.1.1.1015.9294 | s2cid = 14999508 }}</ref><ref>{{cite journal | last1 = Meer | first1 = P. | last2 = Baugher | first2 = E. S. | last3 = Rosenfeld | first3 = A. | year = 1987 | title = फ़्रीक्वेंसी डोमेन विश्लेषण और छवि निर्माण गुठली का संश्लेषण| doi = 10.1109/tpami.1987.4767939 | journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 9 | issue = 4| pages = 512–522 | pmid = 21869409 | s2cid = 5978760 }}</ref> जो सुझाव दिए गए हैं, उनमें [[द्विपद गुणांक]] से उत्पन्न होने वाले द्विपद कर्नेल एक विशेष रूप से उपयोगी और सैद्धांतिक रूप से अच्छी तरह से स्थापित वर्ग के रूप में सामने आते हैं।<ref name=Crowley1981/><ref>Lindeberg, Tony, "[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A472968&dswid=77 Scale-space for discrete signals]," PAMI(12), No. 3, March 1990, pp. 234-254.</ref><ref>{{cite journal | last1 = Haddad | first1 = R. A. | last2 = Akansu | first2 = A. N. | date = March 1991 | title = भाषण और छवि प्रसंस्करण के लिए तेज़ गाऊसी द्विपद फ़िल्टर का एक वर्ग| url = https://web.njit.edu/~akansu/PAPERS/Haddad-AkansuFastGaussianBinomialFiltersIEEE-TSP-March1991.pdf | journal = IEEE Transactions on Signal Processing | volume = 39 | issue = 3| pages = 723–727| doi = 10.1109/78.80892 | bibcode = 1991ITSP...39..723H }}</ref><ref>Lindeberg, Tony. [http://www.csc.kth.se/~tony/book.html Scale-Space Theory in Computer Vision], Kluwer Academic Publishers, 1994, {{ISBN|0-7923-9418-6}} (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)</ref><ref name=LinBre03-ScSp/><ref>See the article on [[multi-scale approaches]] for a very brief theoretical statement</ref> इस प्रकार, एक द्वि-आयामी छवि को देखते हुए, हम (सामान्यीकृत) द्विपद फ़िल्टर (1/4, 1/2, 1/4) आमतौर पर प्रत्येक स्थानिक आयाम के साथ दो या अधिक बार लागू कर सकते हैं और फिर छवि को दो के कारक से उप-नमूना कर सकते हैं। यह ऑपरेशन तब जितनी बार चाहें आगे बढ़ाया जा सकता है, जिससे एक कॉम्पैक्ट और कुशल बहु-स्तरीय प्रतिनिधित्व प्राप्त होगा। यदि विशिष्ट आवश्यकताओं से प्रेरित किया जाता है, तो मध्यवर्ती पैमाने के स्तर भी उत्पन्न हो सकते हैं जहां उप-नमूना चरण कभी-कभी छूट जाता है, जिससे एक ओवरसैंपल्ड या हाइब्रिड पिरामिड बन जाता है।<ref name=LinBre03-ScSp/>आज उपलब्ध [[ CPU ]] की बढ़ती कम्प्यूटेशनल दक्षता के साथ, कुछ स्थितियों में पिरामिड पीढ़ी के चरणों में स्मूथिंग कर्नेल के रूप में व्यापक समर्थित [[गाऊसी फिल्टर]] का उपयोग करना भी संभव है।
}}</ref><ref>{{cite journal | last1 = Crowley | first1 = J. L. | last2 = Sanderson | first2 = A. C. | year = 1987 | title = Multiple resolution representation and probabilistic matching of 2-D gray-scale shape | url = http://www-prima.inrialpes.fr/Prima/Homepages/jlc/papers/Crowley-Sanderson-PAMI87.pdf| journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 9 | issue = 1| pages = 113–121 | doi = 10.1109/tpami.1987.4767876 | pmid = 21869381 | citeseerx = 10.1.1.1015.9294 | s2cid = 14999508 }}</ref><ref>{{cite journal | last1 = Meer | first1 = P. | last2 = Baugher | first2 = E. S. | last3 = Rosenfeld | first3 = A. | year = 1987 | title = फ़्रीक्वेंसी डोमेन विश्लेषण और छवि निर्माण गुठली का संश्लेषण| doi = 10.1109/tpami.1987.4767939 | journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 9 | issue = 4| pages = 512–522 | pmid = 21869409 | s2cid = 5978760 }}</ref> जो सुझाव दिए गए हैं, उनमें [[द्विपद गुणांक]] से उत्पन्न होने वाले द्विपद कर्नेल एक विशेष रूप से उपयोगी और सैद्धांतिक रूप से अच्छी तरह से स्थापित वर्ग के रूप में सामने आते हैं। <ref name=Crowley1981/><ref>Lindeberg, Tony, "[http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A472968&dswid=77 Scale-space for discrete signals]," PAMI(12), No. 3, March 1990, pp. 234-254.</ref><ref>{{cite journal | last1 = Haddad | first1 = R. A. | last2 = Akansu | first2 = A. N. | date = March 1991 | title = भाषण और छवि प्रसंस्करण के लिए तेज़ गाऊसी द्विपद फ़िल्टर का एक वर्ग| url = https://web.njit.edu/~akansu/PAPERS/Haddad-AkansuFastGaussianBinomialFiltersIEEE-TSP-March1991.pdf | journal = IEEE Transactions on Signal Processing | volume = 39 | issue = 3| pages = 723–727| doi = 10.1109/78.80892 | bibcode = 1991ITSP...39..723H }}</ref><ref>Lindeberg, Tony. [http://www.csc.kth.se/~tony/book.html Scale-Space Theory in Computer Vision], Kluwer Academic Publishers, 1994, {{ISBN|0-7923-9418-6}} (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)</ref><ref name=LinBre03-ScSp/><ref>See the article on [[multi-scale approaches]] for a very brief theoretical statement</ref> इस प्रकार, एक द्वि-आयामी इमेज को देखते हुए, हम (सामान्यीकृत) द्विपद फ़िल्टर (1/4, 1/2, 1/4) सामान्यतः प्रत्येक स्थानिक आयाम के साथ दो या अधिक बार लागू कर सकते हैं और फिर इमेज को दो के कारक से सबसैंपल कर सकते हैं। यह ऑपरेशन तब जितनी बार चाहें आगे बढ़ाया जा सकता है, जिससे एक कॉम्पैक्ट और एफिशिएंट मल्टी-स्केल रिप्रजेंटेशन प्राप्त होगा। यदि विशिष्ट आवश्यकताओं से प्रेरित किया जाता है, तो मध्यवर्ती मापक्रम के स्तर भी उत्पन्न हो सकते हैं जहां सबसैंपल चरण कभी-कभी छूट जाता है, जिससे एक ओवरसैंपल्ड या हाइब्रिड पिरामिड बन जाता है। <ref name=LinBre03-ScSp/>आज उपलब्ध [[ CPU |सीपीयू]] की बढ़ती कम्प्यूटेशनल दक्षता के साथ, कुछ स्थितियों में पिरामिड जनरेशन के चरणों में स्मूथिंग कर्नेल के रूप में व्यापक समर्थित [[गाऊसी फिल्टर]] का उपयोग करना भी संभव है।


===गाऊसी पिरामिड===
===गाऊसी पिरामिड===
गाऊसी पिरामिड में, बाद की छवियों को गाऊसी औसत (गाऊसी धुंधलापन) का उपयोग करके भारित किया जाता है और छोटा किया जाता है। स्थानीय औसत वाला प्रत्येक पिक्सेल पिरामिड के निचले स्तर पर पड़ोस पिक्सेल से मेल खाता है। इस तकनीक का प्रयोग विशेष रूप से [[बनावट संश्लेषण]] में किया जाता है।
गाऊसी पिरामिड में, बाद की इमेज को गाऊसी एवरेज (गाऊसी ब्लर) का उपयोग करके भारित किया जाता है और छोटा किया जाता है। स्थानीय औसत वाला प्रत्येक पिक्सेल पिरामिड के निचले स्तर पर प्रतिवैस पिक्सेल से मेल खाता है। इस तकनीक का प्रयोग विशेष रूप से [[बनावट संश्लेषण|टेक्सचर सिंथेसिस]] में किया जाता है।


===लाप्लासियन पिरामिड===
===लाप्लासियन पिरामिड===
लाप्लासियन पिरामिड गॉसियन पिरामिड के समान है लेकिन प्रत्येक स्तर के बीच धुंधले संस्करणों की अंतर छवि को बचाता है। उच्च स्तरों पर अंतर छवियों का उपयोग करके उच्च रिज़ॉल्यूशन छवि के पुनर्निर्माण को सक्षम करने के लिए केवल सबसे छोटा स्तर एक अंतर छवि नहीं है। इस तकनीक का उपयोग [[छवि संपीड़न]] में किया जा सकता है।<ref>{{cite journal | last1 = Burt | first1 = Peter J. | last2 = Adelson | first2 = Edward H. | year = 1983 | title = एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड| url = http://persci.mit.edu/pub_pdfs/pyramid83.pdf | journal = IEEE Transactions on Communications | volume =  31| issue = 4| pages =  532–540| doi = 10.1109/TCOM.1983.1095851 | citeseerx = 10.1.1.54.299 | s2cid = 8018433 }}</ref>
लाप्लासियन पिरामिड गॉसियन पिरामिड के समान है लेकिन प्रत्येक स्तर के बीच ब्लर वर्ज़न की इनर इमेज को बचाता है। उच्च स्तरों पर अंतर इमेज का उपयोग करके उच्च रिज़ॉल्यूशन इमेज के पुनर्निर्माण को सक्षम करने के लिए केवल सबसे छोटा स्तर एक अंतर इमेज नहीं है। इस तकनीक का उपयोग [[छवि संपीड़न|इमेज कम्प्रेशन]] में किया जा सकता है। <ref>{{cite journal | last1 = Burt | first1 = Peter J. | last2 = Adelson | first2 = Edward H. | year = 1983 | title = एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड| url = http://persci.mit.edu/pub_pdfs/pyramid83.pdf | journal = IEEE Transactions on Communications | volume =  31| issue = 4| pages =  532–540| doi = 10.1109/TCOM.1983.1095851 | citeseerx = 10.1.1.54.299 | s2cid = 8018433 }}</ref>
 


===संचालनीय पिरामिड===
===स्टीरेबल पिरामिड===
[[ईरो सिमोनसेलि]] और अन्य द्वारा विकसित एक स्टीयरेबल पिरामिड, एक मल्टी-स्केल, मल्टी-ओरिएंटेशन [[बंदपास छननी]] बैंक का कार्यान्वयन है जिसका उपयोग छवि संपीड़न, बनावट संश्लेषण और ऑब्जेक्ट पहचान की रूपरेखा सहित अनुप्रयोगों के लिए किया जाता है। इसे लाप्लासियन पिरामिड के एक ओरिएंटेशन चयनात्मक संस्करण के रूप में सोचा जा सकता है, जिसमें एकल लाप्लासियन या गॉसियन फिल्टर के बजाय पिरामिड के प्रत्येक स्तर पर चलाने योग्य फिल्टर का एक बैंक उपयोग किया जाता है।<ref>{{Cite web |first=Eero |last=Simoncelli |url=http://www.cns.nyu.edu/~eero/STEERPYR/ |title=चलाने योग्य पिरामिड|publisher=cns.nyu.edu }}</ref><ref>{{Cite web |first1=Roberto |last1=Manduchi |first2=Pietro |last2=Perona |first3=Doug |last3=Shy |title=कुशल विकृत फ़िल्टर बैंक|url=http://www.vision.caltech.edu/publications/ManduchiPeronaShy_efficient_deformable.pdf |publisher=[[California Institute of Technology]]/[[University of Padua]] |year=1997 }} <br />Also in {{Cite journal |journal=Transactions on Signal Processing |title=कुशल विकृत फ़िल्टर बैंक|volume=46 |issue=4 |pages=1168–1173 |year=1998 |doi=10.1109/78.668570|last1=Manduchi |first1=R. |last2=Perona |first2=P. |last3=Shy |first3=D. |bibcode=1998ITSP...46.1168M |citeseerx=10.1.1.5.3102 }}</ref><ref>Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler
[[ईरो सिमोनसेलि]] और अन्य द्वारा विकसित एक स्टीयरेबल पिरामिड, एक मल्टी-स्केल, मल्टी-ओरिएंटेशन [[बंदपास छननी|बैंडपास फ़िल्टर]] बैंक का कार्यान्वयन है जिसका उपयोग इमेज कम्प्रेशन, टेक्सचर सिंथेसिस और ऑब्जेक्ट रिकग्निशन सहित अनुप्रयोगों के लिए किया जाता है। इसे लाप्लासियन पिरामिड के एक ओरिएंटेशन सलेक्टिव वर्ज़न के रूप में सोचा जा सकता है, जिसमें एकल लाप्लासियन या गॉसियन फिल्टर के स्थान पर पिरामिड के प्रत्येक स्तर पर चलाने योग्य फिल्टर का एक बैंक उपयोग किया जाता है। <ref>{{Cite web |first=Eero |last=Simoncelli |url=http://www.cns.nyu.edu/~eero/STEERPYR/ |title=चलाने योग्य पिरामिड|publisher=cns.nyu.edu }}</ref><ref>{{Cite web |first1=Roberto |last1=Manduchi |first2=Pietro |last2=Perona |first3=Doug |last3=Shy |title=कुशल विकृत फ़िल्टर बैंक|url=http://www.vision.caltech.edu/publications/ManduchiPeronaShy_efficient_deformable.pdf |publisher=[[California Institute of Technology]]/[[University of Padua]] |year=1997 }} <br />Also in {{Cite journal |journal=Transactions on Signal Processing |title=कुशल विकृत फ़िल्टर बैंक|volume=46 |issue=4 |pages=1168–1173 |year=1998 |doi=10.1109/78.668570|last1=Manduchi |first1=R. |last2=Perona |first2=P. |last3=Shy |first3=D. |bibcode=1998ITSP...46.1168M |citeseerx=10.1.1.5.3102 }}</ref><ref>Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler
"Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); {{doi|10.1117/12.274510}}</ref>
"Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); {{doi|10.1117/12.274510}}</ref>


Line 55: Line 52:
==पिरामिड के अनुप्रयोग==
==पिरामिड के अनुप्रयोग==


===वैकल्पिक प्रतिनिधित्व===
===वैकल्पिक रिप्रजेंटेशन===
कंप्यूटर विज़न के शुरुआती दिनों में, वास्तविक दुनिया की छवि डेटा से मल्टी-स्केल इमेज [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] की गणना के लिए पिरामिड का उपयोग मुख्य प्रकार के मल्टी-स्केल प्रतिनिधित्व के रूप में किया जाता था। हाल की तकनीकों में स्केल स्पेस|स्केल-स्पेस प्रतिनिधित्व शामिल है, जो अपने सैद्धांतिक आधार, मल्टी-स्केल प्रतिनिधित्व से सबसैंपलिंग चरण को अलग करने की क्षमता, सैद्धांतिक विश्लेषण के लिए अधिक शक्तिशाली उपकरणों के साथ-साथ कुछ शोधकर्ताओं के बीच लोकप्रिय रहा है। किसी भी वांछित पैमाने पर प्रतिनिधित्व की गणना करने की क्षमता, इस प्रकार विभिन्न रिज़ॉल्यूशन पर संबंधित छवि प्रतिनिधित्व की एल्गोरिदमिक समस्याओं से बचा जा सकता है। फिर भी, स्केल स्पेस | स्केल-स्पेस प्रतिनिधित्व के लिए कम्प्यूटेशनल रूप से कुशल अनुमान व्यक्त करने के लिए पिरामिड का उपयोग अभी भी अक्सर किया जाता है।<ref name=LinBre03-ScSp>Lindeberg, T. and Bretzner, L. [http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A440700&dswid=-2509 Real-time scale selection in hybrid multi-scale representations], Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003.</ref><ref>Crowley, J, Riff O. [http://www-prima.inrialpes.fr/Prima/Homepages/jlc/papers/Crowley-ScaleSpace03.pdf Fast computation of scale normalised Gaussian receptive fields], Proc. Scale-Space'03, Isle of Skye, Scotland, Springer [[Lecture Notes in Computer Science]], volume 2695, 2003.</ref><ref>{{cite journal | last1 = Lowe | first1 = D. G. | year = 2004 | title = स्केल-अपरिवर्तनीय मुख्य बिंदुओं से विशिष्ट छवि सुविधाएँ| url = http://citeseer.ist.psu.edu/lowe04distinctive.html| journal = International Journal of Computer Vision | volume = 60 | issue = 2| pages = 91–110 | doi=10.1023/B:VISI.0000029664.99615.94| citeseerx = 10.1.1.73.2924 | s2cid = 221242327 }}</ref>
कंप्यूटर विज़न के प्रारम्भिक दिनों में, वास्तविक दुनिया की इमेज डेटा से मल्टी-स्केल इमेज [[फ़ीचर डिटेक्शन (कंप्यूटर विज़न)]] की गणना के लिए पिरामिड का उपयोग मुख्य प्रकार के मल्टी-स्केल रिप्रजेंटेशन के रूप में किया जाता था। हाल की तकनीकों में स्केल-स्पेस रिप्रजेंटेशन सम्मिलित है, जो अपने थ्योरेटिकल फाउंडेशन, मल्टी-स्केल रिप्रजेंटेशन से सबसैंपलिंग चरण को अलग करने की क्षमता, सैद्धांतिक विश्लेषण के लिए अधिक शक्तिशाली उपकरणों के साथ-साथ कुछ शोधकर्ताओं के बीच लोकप्रिय रहा है। किसी भी वांछित मापक्रम पर रिप्रजेंटेशन की गणना करने की क्षमता, इस प्रकार विभिन्न रिज़ॉल्यूशन पर संबंधित इमेज रिप्रजेंटेशन की एल्गोरिदमिक समस्याओं से बचा जा सकता है। फिर भी, स्केल-स्पेस रिप्रजेंटेशन के लिए कम्प्यूटेशनल रूप से कुशल अनुमान व्यक्त करने के लिए पिरामिड का उपयोग अभी भी प्रायः किया जाता है। <ref name=LinBre03-ScSp>Lindeberg, T. and Bretzner, L. [http://kth.diva-portal.org/smash/record.jsf?pid=diva2%3A440700&dswid=-2509 Real-time scale selection in hybrid multi-scale representations], Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003.</ref><ref>Crowley, J, Riff O. [http://www-prima.inrialpes.fr/Prima/Homepages/jlc/papers/Crowley-ScaleSpace03.pdf Fast computation of scale normalised Gaussian receptive fields], Proc. Scale-Space'03, Isle of Skye, Scotland, Springer [[Lecture Notes in Computer Science]], volume 2695, 2003.</ref><ref>{{cite journal | last1 = Lowe | first1 = D. G. | year = 2004 | title = स्केल-अपरिवर्तनीय मुख्य बिंदुओं से विशिष्ट छवि सुविधाएँ| url = http://citeseer.ist.psu.edu/lowe04distinctive.html| journal = International Journal of Computer Vision | volume = 60 | issue = 2| pages = 91–110 | doi=10.1023/B:VISI.0000029664.99615.94| citeseerx = 10.1.1.73.2924 | s2cid = 221242327 }}</ref>
 


===विस्तार से हेरफेर===
===विस्तार प्रकलन===
विभिन्न पैमानों पर विवरण को बढ़ाने या कम करने के लिए लाप्लासियन पिरामिड के स्तरों को मूल छवि में जोड़ा या हटाया जा सकता है। हालाँकि, इस फॉर्म का विस्तार से हेरफेर कई मामलों में हेलो कलाकृतियों का उत्पादन करने के लिए जाना जाता है, जिससे द्विपक्षीय फ़िल्टर जैसे विकल्पों का विकास होता है।
विभिन्न मापक्रम पर विवरण को बढ़ाने या कम करने के लिए लाप्लासियन पिरामिड के स्तरों को मूल इमेज में जोड़ा या हटाया जा सकता है। हालाँकि, इस फॉर्म का विस्तार से प्रकलन कई स्तिथियों में हेलो कलाकृतियों का उत्पादन करने के लिए जाना जाता है, जिससे द्विपक्षीय फ़िल्टर जैसे विकल्पों का विकास होता है।


कुछ छवि संपीड़न फ़ाइल प्रारूप एडम7 एल्गोरिदम या कुछ अन्य [[इंटरलेसिंग (बिटमैप्स)]] तकनीक का उपयोग करते हैं।
कुछ इमेज कम्प्रेशन फ़ाइल प्रारूप एडम7 एल्गोरिदम या कुछ अन्य [[इंटरलेसिंग (बिटमैप्स)]] तकनीक का उपयोग करते हैं। इन्हें एक प्रकार के इमेज पिरामिड के रूप में देखा जा सकता है। क्योंकि वे फ़ाइल प्रारूप बड़े मापक्रम की विशेषताओं को पहले संग्रहीत करते हैं, और बारीक विवरण बाद में फ़ाइल में संग्रहीत करते हैं, एक विशेष दर्शक एक छोटे थंबनेल या छोटी स्क्रीन पर प्रदर्शित होने वाली इमेज को उपलब्ध पिक्सेल में प्रदर्शित करने के लिए बस पर्याप्त इमेज को तुरंत डाउनलोड कर सकता है - इसलिए एक फ़ाइल प्रत्येक रिज़ॉल्यूशन के लिए एक अलग फ़ाइल को संग्रहीत या उत्पन्न करने के स्थान पर कई दर्शक रिज़ॉल्यूशन का समर्थन कर सकती है।
इन्हें एक प्रकार के छवि पिरामिड के रूप में देखा जा सकता है।
क्योंकि वे फ़ाइल प्रारूप बड़े पैमाने की विशेषताओं को पहले संग्रहीत करते हैं, और बारीक विवरण बाद में फ़ाइल में संग्रहीत करते हैं,
एक विशेष दर्शक एक छोटे थंबनेल या छोटी स्क्रीन पर प्रदर्शित होने वाली छवि को उपलब्ध पिक्सेल में प्रदर्शित करने के लिए बस पर्याप्त छवि को तुरंत डाउनलोड कर सकता है - इसलिए एक फ़ाइल प्रत्येक रिज़ॉल्यूशन के लिए एक अलग फ़ाइल को संग्रहीत या उत्पन्न करने के बजाय कई दर्शक रिज़ॉल्यूशन का समर्थन कर सकती है .


==यह भी देखें==
==यह भी देखें==
Line 71: Line 64:
* [[स्केल स्पेस कार्यान्वयन]]
* [[स्केल स्पेस कार्यान्वयन]]
* विवरण का स्तर (कंप्यूटर ग्राफिक्स)
* विवरण का स्तर (कंप्यूटर ग्राफिक्स)
* JPEG 2000#एकाधिक रिज़ॉल्यूशन प्रतिनिधित्व
* JPEG 2000#एकाधिक रिज़ॉल्यूशन रिप्रजेंटेशन


==संदर्भ==
==संदर्भ==
Line 88: Line 81:
[[Category: Machine Translated Page]]
[[Category: Machine Translated Page]]
[[Category:Created On 07/12/2023]]
[[Category:Created On 07/12/2023]]
[[Category:Vigyan Ready]]

Latest revision as of 14:37, 14 December 2023

5 स्तरों के साथ एक इमेज पिरामिड का दृश्य

पिरामिड, या पिरामिड रिप्रजेंटेशन, कंप्यूटर विज़न, इमेज प्रोसेसिंग और सिग्नल प्रोसेसिंग कम्युनिटी द्वारा विकसित एक प्रकार का मल्टी-स्केल सिग्नल रिप्रजेंटेशन है, जिसमें एक सिग्नल या एक इमेज बार-बार स्मूथिंग और सबसैंपलिंग के अधीन होती है। पिरामिड रिप्रजेंटेशन स्केल स्पेस रिप्रजेंटेशन और मल्टीरिज़ॉल्यूशन एनालिसिस का पूर्ववर्ती है।

पिरामिड जनरेशन

पिरामिड दो मुख्य प्रकार के होते हैं: लोपास और बैंडपास।

एक उपयुक्त स्मूथिंग फिल्टर के साथ इमेज को स्मूथ करके और फिर स्मूथ इमेज को सबसैम्पलिंग देकर, सामान्यतः प्रत्येक समन्वय दिशा के साथ 2 के कारक द्वारा एक लोपास पिरामिड बनाया जाता है। परिणामी इमेज को फिर उसी प्रक्रिया के अधीन किया जाता है, और चक्र को कई बार दोहराया जाता है। इस प्रक्रिया के प्रत्येक चक्र के परिणामस्वरूप स्मूथिंग में वृद्धि के साथ एक छोटी इमेज बनती है, लेकिन स्पाटिअल सैंपलिंग डेंसिटी में कमी आती है (अर्थात, इमेज रिज़ॉल्यूशन में कमी आती है)। यदि ग्राफ़िक रूप से चित्रित किया जाए, तो संपूर्ण बहु-स्तरीय रिप्रजेंटेशन एक पिरामिड की तरह दिखाई देगा, जिसमें नीचे मूल इमेज होगी और प्रत्येक चक्र के परिणामस्वरूप छोटी इमेज एक दूसरे के ऊपर चितीयित होगी।

एक बैंडपास पिरामिड में आसन्न स्तरों पर इमेज के बीच अंतर बनाकर और रिज़ॉल्यूशन के आसन्न स्तरों के बीच इमेज इन्टरपोलेशन करके बनाया जाता है, ताकि पिक्सेलवार अंतर की गणना की जा सके।[1]

पिरामिड जनरेशन कर्नल्स

पिरामिड बनाने के लिए विभिन्न प्रकार के विभिन्न स्मूथिंग कर्नेल (इमेज प्रसंस्करण) का प्रस्ताव किया गया है। [2][3][4][5][6][7] जो सुझाव दिए गए हैं, उनमें द्विपद गुणांक से उत्पन्न होने वाले द्विपद कर्नेल एक विशेष रूप से उपयोगी और सैद्धांतिक रूप से अच्छी तरह से स्थापित वर्ग के रूप में सामने आते हैं। [3][8][9][10][11][12] इस प्रकार, एक द्वि-आयामी इमेज को देखते हुए, हम (सामान्यीकृत) द्विपद फ़िल्टर (1/4, 1/2, 1/4) सामान्यतः प्रत्येक स्थानिक आयाम के साथ दो या अधिक बार लागू कर सकते हैं और फिर इमेज को दो के कारक से सबसैंपल कर सकते हैं। यह ऑपरेशन तब जितनी बार चाहें आगे बढ़ाया जा सकता है, जिससे एक कॉम्पैक्ट और एफिशिएंट मल्टी-स्केल रिप्रजेंटेशन प्राप्त होगा। यदि विशिष्ट आवश्यकताओं से प्रेरित किया जाता है, तो मध्यवर्ती मापक्रम के स्तर भी उत्पन्न हो सकते हैं जहां सबसैंपल चरण कभी-कभी छूट जाता है, जिससे एक ओवरसैंपल्ड या हाइब्रिड पिरामिड बन जाता है। [11]आज उपलब्ध सीपीयू की बढ़ती कम्प्यूटेशनल दक्षता के साथ, कुछ स्थितियों में पिरामिड जनरेशन के चरणों में स्मूथिंग कर्नेल के रूप में व्यापक समर्थित गाऊसी फिल्टर का उपयोग करना भी संभव है।

गाऊसी पिरामिड

गाऊसी पिरामिड में, बाद की इमेज को गाऊसी एवरेज (गाऊसी ब्लर) का उपयोग करके भारित किया जाता है और छोटा किया जाता है। स्थानीय औसत वाला प्रत्येक पिक्सेल पिरामिड के निचले स्तर पर प्रतिवैस पिक्सेल से मेल खाता है। इस तकनीक का प्रयोग विशेष रूप से टेक्सचर सिंथेसिस में किया जाता है।

लाप्लासियन पिरामिड

लाप्लासियन पिरामिड गॉसियन पिरामिड के समान है लेकिन प्रत्येक स्तर के बीच ब्लर वर्ज़न की इनर इमेज को बचाता है। उच्च स्तरों पर अंतर इमेज का उपयोग करके उच्च रिज़ॉल्यूशन इमेज के पुनर्निर्माण को सक्षम करने के लिए केवल सबसे छोटा स्तर एक अंतर इमेज नहीं है। इस तकनीक का उपयोग इमेज कम्प्रेशन में किया जा सकता है। [13]

स्टीरेबल पिरामिड

ईरो सिमोनसेलि और अन्य द्वारा विकसित एक स्टीयरेबल पिरामिड, एक मल्टी-स्केल, मल्टी-ओरिएंटेशन बैंडपास फ़िल्टर बैंक का कार्यान्वयन है जिसका उपयोग इमेज कम्प्रेशन, टेक्सचर सिंथेसिस और ऑब्जेक्ट रिकग्निशन सहित अनुप्रयोगों के लिए किया जाता है। इसे लाप्लासियन पिरामिड के एक ओरिएंटेशन सलेक्टिव वर्ज़न के रूप में सोचा जा सकता है, जिसमें एकल लाप्लासियन या गॉसियन फिल्टर के स्थान पर पिरामिड के प्रत्येक स्तर पर चलाने योग्य फिल्टर का एक बैंक उपयोग किया जाता है। [14][15][16]


पिरामिड के अनुप्रयोग

वैकल्पिक रिप्रजेंटेशन

कंप्यूटर विज़न के प्रारम्भिक दिनों में, वास्तविक दुनिया की इमेज डेटा से मल्टी-स्केल इमेज फ़ीचर डिटेक्शन (कंप्यूटर विज़न) की गणना के लिए पिरामिड का उपयोग मुख्य प्रकार के मल्टी-स्केल रिप्रजेंटेशन के रूप में किया जाता था। हाल की तकनीकों में स्केल-स्पेस रिप्रजेंटेशन सम्मिलित है, जो अपने थ्योरेटिकल फाउंडेशन, मल्टी-स्केल रिप्रजेंटेशन से सबसैंपलिंग चरण को अलग करने की क्षमता, सैद्धांतिक विश्लेषण के लिए अधिक शक्तिशाली उपकरणों के साथ-साथ कुछ शोधकर्ताओं के बीच लोकप्रिय रहा है। किसी भी वांछित मापक्रम पर रिप्रजेंटेशन की गणना करने की क्षमता, इस प्रकार विभिन्न रिज़ॉल्यूशन पर संबंधित इमेज रिप्रजेंटेशन की एल्गोरिदमिक समस्याओं से बचा जा सकता है। फिर भी, स्केल-स्पेस रिप्रजेंटेशन के लिए कम्प्यूटेशनल रूप से कुशल अनुमान व्यक्त करने के लिए पिरामिड का उपयोग अभी भी प्रायः किया जाता है। [11][17][18]

विस्तार प्रकलन

विभिन्न मापक्रम पर विवरण को बढ़ाने या कम करने के लिए लाप्लासियन पिरामिड के स्तरों को मूल इमेज में जोड़ा या हटाया जा सकता है। हालाँकि, इस फॉर्म का विस्तार से प्रकलन कई स्तिथियों में हेलो कलाकृतियों का उत्पादन करने के लिए जाना जाता है, जिससे द्विपक्षीय फ़िल्टर जैसे विकल्पों का विकास होता है।

कुछ इमेज कम्प्रेशन फ़ाइल प्रारूप एडम7 एल्गोरिदम या कुछ अन्य इंटरलेसिंग (बिटमैप्स) तकनीक का उपयोग करते हैं। इन्हें एक प्रकार के इमेज पिरामिड के रूप में देखा जा सकता है। क्योंकि वे फ़ाइल प्रारूप बड़े मापक्रम की विशेषताओं को पहले संग्रहीत करते हैं, और बारीक विवरण बाद में फ़ाइल में संग्रहीत करते हैं, एक विशेष दर्शक एक छोटे थंबनेल या छोटी स्क्रीन पर प्रदर्शित होने वाली इमेज को उपलब्ध पिक्सेल में प्रदर्शित करने के लिए बस पर्याप्त इमेज को तुरंत डाउनलोड कर सकता है - इसलिए एक फ़ाइल प्रत्येक रिज़ॉल्यूशन के लिए एक अलग फ़ाइल को संग्रहीत या उत्पन्न करने के स्थान पर कई दर्शक रिज़ॉल्यूशन का समर्थन कर सकती है।

यह भी देखें

संदर्भ

  1. E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden. "Pyramid methods in image processing". 1984.
  2. Burt, P. J. (May 1981). "Fast filter transform for image processing". Computer Graphics and Image Processing. 16: 20–51. doi:10.1016/0146-664X(81)90092-7.
  3. 3.0 3.1 Crowley, James L. (November 1981). "दृश्य जानकारी के लिए एक प्रतिनिधित्व". Carnegie-Mellon University, Robotics Institute. tech. report CMU-RI-TR-82-07. {{cite journal}}: Cite journal requires |journal= (help)
  4. Burt, Peter; Adelson, Ted (1983). "एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड" (PDF). IEEE Trans. Commun. 9 (4): 532–540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. S2CID 8018433.
  5. Crowley, J. L.; Parker, A. C. (March 1984). "A representation for shape based on peaks and ridges in the difference of low-pass transform". IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (2): 156–170. CiteSeerX 10.1.1.161.3102. doi:10.1109/TPAMI.1984.4767500. PMID 21869180. S2CID 14348919.
  6. Crowley, J. L.; Sanderson, A. C. (1987). "Multiple resolution representation and probabilistic matching of 2-D gray-scale shape" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294. doi:10.1109/tpami.1987.4767876. PMID 21869381. S2CID 14999508.
  7. Meer, P.; Baugher, E. S.; Rosenfeld, A. (1987). "फ़्रीक्वेंसी डोमेन विश्लेषण और छवि निर्माण गुठली का संश्लेषण". IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (4): 512–522. doi:10.1109/tpami.1987.4767939. PMID 21869409. S2CID 5978760.
  8. Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, pp. 234-254.
  9. Haddad, R. A.; Akansu, A. N. (March 1991). "भाषण और छवि प्रसंस्करण के लिए तेज़ गाऊसी द्विपद फ़िल्टर का एक वर्ग" (PDF). IEEE Transactions on Signal Processing. 39 (3): 723–727. Bibcode:1991ITSP...39..723H. doi:10.1109/78.80892.
  10. Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)
  11. 11.0 11.1 11.2 Lindeberg, T. and Bretzner, L. Real-time scale selection in hybrid multi-scale representations, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003.
  12. See the article on multi-scale approaches for a very brief theoretical statement
  13. Burt, Peter J.; Adelson, Edward H. (1983). "एक कॉम्पैक्ट छवि कोड के रूप में लाप्लासियन पिरामिड" (PDF). IEEE Transactions on Communications. 31 (4): 532–540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. S2CID 8018433.
  14. Simoncelli, Eero. "चलाने योग्य पिरामिड". cns.nyu.edu.
  15. Manduchi, Roberto; Perona, Pietro; Shy, Doug (1997). "कुशल विकृत फ़िल्टर बैंक" (PDF). California Institute of Technology/University of Padua.
    Also in Manduchi, R.; Perona, P.; Shy, D. (1998). "कुशल विकृत फ़िल्टर बैंक". Transactions on Signal Processing. 46 (4): 1168–1173. Bibcode:1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102. doi:10.1109/78.668570.
  16. Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler "Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); doi:10.1117/12.274510
  17. Crowley, J, Riff O. Fast computation of scale normalised Gaussian receptive fields, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, 2003.
  18. Lowe, D. G. (2004). "स्केल-अपरिवर्तनीय मुख्य बिंदुओं से विशिष्ट छवि सुविधाएँ". International Journal of Computer Vision. 60 (2): 91–110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327.


बाहरी संबंध