गति का अनुमान: Difference between revisions

From Vigyanwiki
(Created page with "{{Short description|Process used in video coding/compression}} Image:Elephantsdream_vectorstill06.png|thumb|350px|मोशन वैक्टर जो एक आंदो...")
 
No edit summary
 
(3 intermediate revisions by 3 users not shown)
Line 1: Line 1:
{{Short description|Process used in video coding/compression}}
{{Short description|Process used in video coding/compression}}
[[Image:Elephantsdream_vectorstill06.png|thumb|350px|मोशन वैक्टर जो एक आंदोलन से उत्पन्न होते हैं <math>z</math>छवि का -प्लेन, निचले-दाईं ओर पार्श्व गति के साथ संयुक्त। यह एक एमपीईजी मूवी को संपीड़ित करने के लिए किए गए गति अनुमान का दृश्य है।]]मोशन एस्टीमेशन 'मोशन वैक्टर' के निर्धारण की प्रक्रिया है जो एक 2डी इमेज से दूसरी में ट्रांसफॉर्मेशन का वर्णन करता है; आमतौर पर एक वीडियो क्रम में आसन्न [[वीडियो फ्रेम]] से। यह एक अच्छी तरह से बनाई गई समस्या है। बीमार समस्या है क्योंकि गति तीन आयामों में है लेकिन छवियां 2डी विमान पर 3डी दृश्य का प्रक्षेपण हैं। गति वैक्टर पूरी छवि (वैश्विक गति अनुमान) या विशिष्ट भागों से संबंधित हो सकते हैं, जैसे आयताकार ब्लॉक, मनमाने आकार के पैच या प्रति [[पिक्सेल]] भी। मोशन वैक्टर को एक ट्रांसलेशनल मॉडल या कई अन्य मॉडलों द्वारा दर्शाया जा सकता है जो एक वास्तविक वीडियो कैमरा की गति का अनुमान लगा सकते हैं, जैसे कि तीनों आयामों में रोटेशन और अनुवाद और ज़ूम।
[[Image:Elephantsdream_vectorstill06.png|thumb|350px|गति सदिश जो छवि के z-तल में एक संचलन से उत्पन्न होते हैं, पार्श्व संचलन के साथ निचले-दाएं तक संयुक्त होते हैं। यह एक चल चित्र विशेषज्ञ समूह चलचित्र को संपीड़ित करने के लिए किए गए गति आकलन का दृश्य है।]]'''गति का अनुमान''' गति सदिश निर्धारित करने की प्रक्रिया है जो एक 2D छवि से दूसरे में सामान्य रूप से एक वीडियो अनुक्रम में निकटवर्ती फ़्रेमों से परिवर्तन का वर्णन करता है। यह एक गलत समस्या है क्योंकि गति तीन आयामों में होती है लेकिन छवियां 2D तल पर 3D दृश्य का प्रक्षेपण हैं। गति सदिश पूरी छवि (वैश्विक गति अनुमान) या विशिष्ट भागों से संबंधित हो सकते हैं, जैसे आयताकार ब्लॉक, यादृच्छिक आकार के भाग या प्रति पिक्सेल से संबंधित हो सकते हैं। गति सदिश को एक स्थानांतरण मॉडल या कई अन्य मॉडलों द्वारा दर्शाया जा सकता है जो एक वास्तविक वीडियो कैमरा की गति का अनुमान लगा सकते हैं, जैसे कि तीनों आयामों में घूर्णन और स्थानांतरण और आकार वर्धन करता है।


== संबंधित शर्तें ==
== संबंधित पद ==
अधिक बार नहीं, शब्द गति अनुमान और [[ऑप्टिकल प्रवाह]] शब्द का उपयोग परस्पर विनिमय के लिए किया जाता है।{{citation needed|date=August 2019}} यह [[छवि पंजीकरण]] और [[स्टीरियो पत्राचार]] की अवधारणा से भी संबंधित है।<ref name="Liu2006">{{cite book|author=John X. Liu|title=कंप्यूटर विजन और रोबोटिक्स|url=https://books.google.com/books?id=pmXzAbPUvnYC&q=%22motion+estimation%22+correspondence|year=2006|publisher=Nova Publishers|isbn=978-1-59454-357-9}}</ref> वास्तव में ये सभी शब्द दो छवियों या वीडियो फ्रेम के बीच पत्राचार समस्या की प्रक्रिया को संदर्भित करते हैं। एक वास्तविक दृश्य या वस्तु के दो दृश्यों (छवियों या फ़्रेमों) में एक दूसरे के अनुरूप होने वाले बिंदु आमतौर पर उस दृश्य में या उस वस्तु पर एक ही बिंदु होते हैं। इससे पहले कि हम गति का आकलन करें, हमें अपने पत्राचार के माप को परिभाषित करना चाहिए, यानी, मिलान मीट्रिक, जो इस बात का माप है कि दो छवि बिंदु कितने समान हैं। यहां कोई सही या गलत नहीं है; मैचिंग मेट्रिक का चुनाव आम तौर पर अनुमान प्रक्रिया में अंतिम अनुमानित गति के साथ-साथ अनुकूलन रणनीति के लिए उपयोग किया जाता है।
अधिक से अधिक बार, पद गति के अनुमान और [[ऑप्टिकल प्रवाह|प्रकाशीय प्रवाह]] शब्द का उपयोग परस्पर विनिमय के लिए किया जाता है।{{citation needed|date=August 2019}} यह [[छवि पंजीकरण]] और [[स्टीरियो पत्राचार|त्रिविम पत्राचार]] की अवधारणा से भी संबंधित है।<ref name="Liu2006">{{cite book|author=John X. Liu|title=कंप्यूटर विजन और रोबोटिक्स|url=https://books.google.com/books?id=pmXzAbPUvnYC&q=%22motion+estimation%22+correspondence|year=2006|publisher=Nova Publishers|isbn=978-1-59454-357-9}}</ref> वास्तव में ये सभी शब्द दो छवियों या वीडियो फ़्रेमों के बीच संबंधित बिंदुओं को खोजने की प्रक्रिया को संदर्भित करते हैं। एक वास्तविक दृश्य या वस्तु के दो दृश्यों (छवियों या फ़्रेमों) में एक दूसरे के अनुरूप होने वाले बिंदु सामान्य रूप से उस दृश्य में या उस वस्तु पर समान बिंदु होते हैं। इससे पहले कि हम गति का आकलन करें, हमें अपने संगत के माप को परिभाषित करना चाहिए, अर्थात, सुमेलन दूरीक, जो इस बात का माप है कि दो छवि बिंदु कितने समान हैं। यहां कोई सही या गलत नहीं है; सुमेलन दूरीक का चयन सामान्य रूप से अनुमान प्रक्रिया में अंतिम अनुमानित गति के साथ-साथ अनुकूलन योजना के लिए उपयोग किया जाता है।


प्रत्येक मोशन वेक्टर का उपयोग किसी अन्य चित्र में इस [[ मेक्रोब्लॉक ]] (या इसी तरह के एक) की स्थिति के आधार पर एक मैक्रोब्लॉक का प्रतिनिधित्व करने के लिए किया जाता है, जिसे संदर्भ चित्र कहा जाता है।
प्रत्येक गति सदिश का उपयोग किसी अन्य चित्र में इस [[ मेक्रोब्लॉक |स्थूल-ब्लॉक]] (या एक समान) की स्थिति के आधार पर एक स्थूल-ब्लॉक का प्रतिनिधित्व करने के लिए किया जाता है, जिसे संदर्भ चित्र कहा जाता है।


H.264/MPEG-4 AVC मानक गति सदिश को इस प्रकार परिभाषित करता है:
एच.264/एमपीईजी-4 उन्नत वीडियो कोडिंग मानक गति सदिश को इस प्रकार परिभाषित करता है:<blockquote>गति सदिश: एक द्वि-आयामी सदिश जो अंतर-भविष्यवाणी के लिए उपयोग किया जाता है जो डिकोडेड चित्र में निर्देशांक से संदर्भ चित्र में निर्देशांक तक समायोजन प्रदान करता है।<ref>[http://www.stewe.org/itu-recs/h264.pdf Latest working draft of H.264/MPEG-4 AVC] {{webarchive|url=https://web.archive.org/web/20040723160536/http://www.stewe.org/itu-recs/h264.pdf |date=2004-07-23 }}. Retrieved on 2008-02-29.</ref><ref>{{Cite web|url=http://www.hhi.fraunhofer.de/fileadmin/hhi/downloads/IP/ip_ic_H.264-MPEG4-AVC-Version8-FinalDraft.pdf|title=Latest working draft of H.264/MPEG-4 AVC on hhi.fraunhofer.de.}}</ref></blockquote>
 
<ब्लॉककोट>
गति सदिश: एक द्वि-आयामी सदिश जो अंतर-भविष्यवाणी के लिए उपयोग किया जाता है जो डिकोडेड चित्र में निर्देशांक से संदर्भ चित्र में निर्देशांक तक ऑफसेट प्रदान करता है।<ref>[http://www.stewe.org/itu-recs/h264.pdf Latest working draft of H.264/MPEG-4 AVC] {{webarchive|url=https://web.archive.org/web/20040723160536/http://www.stewe.org/itu-recs/h264.pdf |date=2004-07-23 }}. Retrieved on 2008-02-29.</ref><ref>{{Cite web|url=http://www.hhi.fraunhofer.de/fileadmin/hhi/downloads/IP/ip_ic_H.264-MPEG4-AVC-Version8-FinalDraft.pdf|title=Latest working draft of H.264/MPEG-4 AVC on hhi.fraunhofer.de.}}</ref>
</ब्लॉककोट>


== एल्गोरिदम ==
== एल्गोरिदम ==
मोशन वैक्टर खोजने के तरीकों को पिक्सेल आधारित तरीकों (प्रत्यक्ष) और फीचर आधारित तरीकों (अप्रत्यक्ष) में वर्गीकृत किया जा सकता है। एक प्रसिद्ध बहस के परिणामस्वरूप निष्कर्ष स्थापित करने की कोशिश करने के लिए विरोधी गुटों के दो पेपर तैयार किए गए।<ref>Philip H.S. Torr and Andrew Zisserman: [https://www.robots.ox.ac.uk/~vgg/publications/2000/Torr00a/torr00a.pdf Feature Based Methods for Structure and Motion Estimation], ICCV Workshop on Vision Algorithms, pages 278-294, 1999</ref><ref>Michal Irani and P. Anandan: [https://web.archive.org/web/20180102072903/https://pdfs.semanticscholar.org/3d18/95f35202c2f421491df10105ff83c851ebd1.pdf About Direct Methods], ICCV Workshop on Vision Algorithms, pages 267-277, 1999.</ref>
गति सदिश खोजने के तरीकों को पिक्सेल आधारित तरीकों (प्रत्यक्ष) और विशेषता आधारित तरीकों (अप्रत्यक्ष) में वर्गीकृत किया जा सकता है। एक प्रसिद्ध चर्चा के परिणामस्वरूप निष्कर्ष स्थापित करने के प्रयास करने के लिए विरोधी पक्षों के दो पत्र तैयार किए गए थे।<ref>Philip H.S. Torr and Andrew Zisserman: [https://www.robots.ox.ac.uk/~vgg/publications/2000/Torr00a/torr00a.pdf Feature Based Methods for Structure and Motion Estimation], ICCV Workshop on Vision Algorithms, pages 278-294, 1999</ref><ref>Michal Irani and P. Anandan: [https://web.archive.org/web/20180102072903/https://pdfs.semanticscholar.org/3d18/95f35202c2f421491df10105ff83c851ebd1.pdf About Direct Methods], ICCV Workshop on Vision Algorithms, pages 267-277, 1999.</ref>




=== प्रत्यक्ष तरीके ===
=== प्रत्यक्ष तरीके ===
* [[ब्लॉक-मिलान एल्गोरिथम]]
* [[ब्लॉक-मिलान एल्गोरिथम|ब्लॉक-सुमेलन एल्गोरिथम]]
* [[चरण सहसंबंध]] और आवृत्ति डोमेन विधियाँ
* प्रावस्था सहसंबंध और आवृत्ति प्रक्षेत्र विधियाँ
* पिक्सेल पुनरावर्ती एल्गोरिदम
* पिक्सेल पुनरावर्ती एल्गोरिदम
* ऑप्टिकल प्रवाह
* प्रकाशीय प्रवाह


=== अप्रत्यक्ष तरीके ===
=== अप्रत्यक्ष तरीके ===
अप्रत्यक्ष तरीके सुविधाओं का उपयोग करते हैं, जैसे कि [[कोने का पता लगाना]], और फ्रेम के बीच संबंधित सुविधाओं का मिलान करना, आमतौर पर एक स्थानीय या वैश्विक क्षेत्र पर लागू सांख्यिकीय फ़ंक्शन के साथ। सांख्यिकीय कार्य का उद्देश्य उन मिलानों को हटाना है जो वास्तविक गति के अनुरूप नहीं हैं।
अप्रत्यक्ष तरीके सुविधाओं का उपयोग करते हैं, जैसे कि सीमा [[कोने का पता लगाना|का पता लगाना]], और फ्रेम के बीच संबंधित संगत विशेषता का सुमेलन करना, सामान्य रूप से एक स्थानीय या वैश्विक क्षेत्र पर प्रयुक्त सांख्यिकीय फलन के साथ सुमेलन करना। सांख्यिकीय फलनों का उद्देश्य उन मिलानों को हटाना है जो वास्तविक गति के अनुरूप नहीं हैं।


जिन सांख्यिकीय कार्यों का सफलतापूर्वक उपयोग किया गया है उनमें [[RANSAC]] शामिल है।
जिन सांख्यिकीय फलनों का सफलतापूर्वक उपयोग किया गया है उनमें [[RANSAC|यादृच्छिक नमूना सर्वसम्मति]] सम्मिलित है।


=== वर्गीकरण पर अतिरिक्त नोट ===
=== वर्गीकरण पर अतिरिक्त ध्यान ===
यह तर्क दिया जा सकता है कि लगभग सभी विधियों को मिलान मानदंडों की किसी प्रकार की परिभाषा की आवश्यकता होती है। अंतर केवल यह है कि क्या आप पहले एक स्थानीय छवि क्षेत्र को सारांशित करते हैं और फिर सारांश की तुलना करते हैं (जैसे कि फीचर आधारित तरीके), या आप पहले प्रत्येक पिक्सेल की तुलना करते हैं (जैसे कि अंतर को चुकता करना) और फिर एक स्थानीय छवि क्षेत्र (ब्लॉक आधार) पर सारांशित करें गति और फ़िल्टर आधारित गति)। मिलान मानदंड का एक उभरता हुआ प्रकार प्रत्येक पिक्सेल स्थान के लिए सबसे पहले एक स्थानीय छवि क्षेत्र को सारांशित करता है (लाप्लासियन ट्रांसफ़ॉर्म जैसे कुछ फ़ीचर ट्रांसफ़ॉर्म के माध्यम से), प्रत्येक सारांशित पिक्सेल की तुलना करता है और एक स्थानीय छवि क्षेत्र पर फिर से सारांशित करता है।<ref>Rui Xu, David Taubman & Aous Thabit Naman, '[https://ieeexplore.ieee.org/abstract/document/7370941/ Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding]', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.</ref> कुछ मिलान मानदंडों में उन बिंदुओं को बाहर करने की क्षमता होती है जो वास्तव में एक अच्छा मिलान स्कोर बनाने के बावजूद एक दूसरे के अनुरूप नहीं होते हैं, दूसरों के पास यह क्षमता नहीं होती है, लेकिन वे अभी भी मिलान मानदंड हैं।
यह तर्क दिया जा सकता है कि लगभग सभी विधियों को समान मानदंडों की किसी प्रकार की परिभाषा की आवश्यकता होती है। अंतर केवल इतना है कि आप पहले एक स्थानीय छवि क्षेत्र को संक्षेप में प्रस्तुत करते हैं और फिर सारांश की तुलना करते हैं (जैसे कि विशेषता आधारित तरीके) या आप पहले प्रत्येक पिक्सेल की तुलना करते हैं (जैसे अंतर को कम करना) और फिर एक स्थानीय छवि क्षेत्र (ब्लॉक आधार गति और फ़िल्टर आधारित गति) पर सारांशित करें समान मानदंड का एक आविर्भावी प्रकार प्रत्येक पिक्सेल स्थान के लिए सबसे पहले एक स्थानीय छवि क्षेत्र (लाप्लासियन रूपांतरण जैसे कुछ विशेषता रूपांतरण के माध्यम से) को सारांशित करता है, प्रत्येक सारांशित पिक्सेल की तुलना करता है और एक स्थानीय छवि क्षेत्र पर पुनः सारांशित करता है।<ref>Rui Xu, David Taubman & Aous Thabit Naman, '[https://ieeexplore.ieee.org/abstract/document/7370941/ Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding]', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.</ref> कुछ सुमेलन मानदंडों में उन बिंदुओं को बाहर करने की क्षमता होती है जो वास्तव में एक अच्छा सुमेलन अंक बनाने के बाद भी एक दूसरे के अनुरूप नहीं होते हैं, दूसरों के पास यह क्षमता नहीं होती है, लेकिन वे अभी भी सुमेलन मानदंड से अनुरूप हैं।


== अनुप्रयोग ==
== अनुप्रयोग ==
[[File:Motion_interpolation_example.jpg|thumb|[[ गति प्रक्षेप ]] के साथ वीडियो फ्रेम]]
[[File:Motion_interpolation_example.jpg|thumb|गति प्रक्षेप के साथ वीडियो फ़्रेम]]


=== वीडियो कोडिंग ===
=== वीडियो कोडिंग ===


गति वैक्टर को अगली छवि में परिवर्तन को संश्लेषित करने के लिए एक छवि पर लागू करने को [[गति मुआवजा]] कहा जाता है।<ref name="FurhtGreenberg2012">{{cite book|author1=Borko Furht|author2=Joshua Greenberg|author3=Raymond Westwater|title=वीडियो संपीड़न के लिए मोशन एस्टीमेशन एल्गोरिदम|url=https://books.google.com/books?id=OaLhBwAAQBAJ&q=%22motion+compensation%22|date=6 December 2012|publisher=Springer Science & Business Media|isbn=978-1-4615-6241-2}}</ref> यह [[असतत कोसाइन परिवर्तन]] (DCT) आधारित [[वीडियो कोडिंग मानकों]] पर सबसे आसानी से लागू होता है, क्योंकि कोडिंग ब्लॉक में की जाती है।<ref>{{cite book |last1=Swartz |first1=Charles S. |title=Understanding Digital Cinema: A Professional Handbook |date=2005 |publisher=[[Taylor & Francis]] |isbn=9780240806174 |page=143 |url=https://books.google.com/books?id=tYw3ehoBnjkC&pg=PA143}}</ref>
गति सदिश को पार्श्वस्थ छवि में परिवर्तन को संश्लेषित करने के लिए एक छवि पर प्रयुक्त करने को [[गति मुआवजा|गति प्रतिकरण]] कहा जाता है।<ref name="FurhtGreenberg2012">{{cite book|author1=Borko Furht|author2=Joshua Greenberg|author3=Raymond Westwater|title=वीडियो संपीड़न के लिए मोशन एस्टीमेशन एल्गोरिदम|url=https://books.google.com/books?id=OaLhBwAAQBAJ&q=%22motion+compensation%22|date=6 December 2012|publisher=Springer Science & Business Media|isbn=978-1-4615-6241-2}}</ref> यह [[असतत कोसाइन परिवर्तन]] (डीसीटी) आधारित [[वीडियो कोडिंग मानकों]] पर सबसे आसानी से प्रयुक्त होता है, क्योंकि कोडिंग ब्लॉक में की जाती है।<ref>{{cite book |last1=Swartz |first1=Charles S. |title=Understanding Digital Cinema: A Professional Handbook |date=2005 |publisher=[[Taylor & Francis]] |isbn=9780240806174 |page=143 |url=https://books.google.com/books?id=tYw3ehoBnjkC&pg=PA143}}</ref>
लौकिक अतिरेक के दोहन के तरीके के रूप में, गति अनुमान और मुआवजा [[वीडियो संपीड़न]] के प्रमुख भाग हैं। लगभग सभी वीडियो कोडिंग मानक ब्लॉक-आधारित गति अनुमान और मुआवजे का उपयोग करते हैं जैसे [[एमपीईजी]] श्रृंखला जिसमें हालिया [[एचईवीसी]] शामिल है।
 
अस्थायी अतिरेक के समुपयोजन के तरीके के रूप में, गति के अनुमान और प्रतिकरण [[वीडियो संपीड़न]] के प्रमुख भाग हैं। लगभग सभी वीडियो कोडिंग मानक ब्लॉक-आधारित गति के अनुमान और प्रतिकरण का उपयोग करते हैं जैसे [[एमपीईजी|चल चित्र विशेषज्ञ समूह]] श्रृंखला जिसमें हाल ही मे [[एचईवीसी|उच्च क्षमता वाले वीडियो कोडिंग]] (एचईवीसी) सम्मिलित है।
 
===3D पुनर्निर्माण===
एक साथ स्थानीयकरण और मानचित्रण में, एक गतिमान कैमरे से छवियों का उपयोग करके एक दृश्य के 3D मॉडल का पुनर्निर्माण किया जाता है।<ref>Kerl, Christian, Jürgen Sturm, and [[Daniel Cremers]]. "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.402.5544&rep=rep1&type=pdf Dense visual SLAM for RGB-D cameras]." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.</ref>


===3डी पुनर्निर्माण===
[[एक साथ स्थानीयकरण और मानचित्रण]] में, एक चलते हुए कैमरे से छवियों का उपयोग करके एक दृश्य के 3डी मॉडल का पुनर्निर्माण किया जाता है।<ref>Kerl, Christian, Jürgen Sturm, and [[Daniel Cremers]]. "[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.402.5544&rep=rep1&type=pdf Dense visual SLAM for RGB-D cameras]." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.</ref>




== यह भी देखें ==
== यह भी देखें ==
* [[मूविंग ऑब्जेक्ट डिटेक्शन]]
* [[मूविंग ऑब्जेक्ट डिटेक्शन|गतिमान वस्तु का पता लगाना]]
* [[ग्राफ़िक्स प्रोसेसिंग युनिट]]
* [[ग्राफ़िक्स प्रोसेसिंग युनिट|आलेखी प्रसंस्करण इकाई]]
* [[ दृष्टि प्रसंस्करण इकाई ]]
* [[ दृष्टि प्रसंस्करण इकाई ]]
* [[स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म]]
* [[स्केल-इनवेरिएंट फीचर ट्रांसफॉर्म|अपरिवर्तनीय-मापन विशेषता परिवर्तन]]


==संदर्भ==
==संदर्भ==
<references/>
<references/>
[[Category: वीडियो प्रसंस्करण]] [[Category: मोशन (भौतिकी)]] [[Category: कंप्यूटर दृष्टि में गति]]


[[Category: Machine Translated Page]]
[[Category:All articles with unsourced statements]]
[[Category:Articles with unsourced statements from August 2019]]
[[Category:Created On 02/05/2023]]
[[Category:Created On 02/05/2023]]
[[Category:Lua-based templates]]
[[Category:Machine Translated Page]]
[[Category:Pages with script errors]]
[[Category:Templates Vigyan Ready]]
[[Category:Templates that add a tracking category]]
[[Category:Templates that generate short descriptions]]
[[Category:Templates using TemplateData]]
[[Category:Webarchive template wayback links]]
[[Category:कंप्यूटर दृष्टि में गति]]
[[Category:मोशन (भौतिकी)]]
[[Category:वीडियो प्रसंस्करण]]

Latest revision as of 15:25, 16 May 2023

गति सदिश जो छवि के z-तल में एक संचलन से उत्पन्न होते हैं, पार्श्व संचलन के साथ निचले-दाएं तक संयुक्त होते हैं। यह एक चल चित्र विशेषज्ञ समूह चलचित्र को संपीड़ित करने के लिए किए गए गति आकलन का दृश्य है।

गति का अनुमान गति सदिश निर्धारित करने की प्रक्रिया है जो एक 2D छवि से दूसरे में सामान्य रूप से एक वीडियो अनुक्रम में निकटवर्ती फ़्रेमों से परिवर्तन का वर्णन करता है। यह एक गलत समस्या है क्योंकि गति तीन आयामों में होती है लेकिन छवियां 2D तल पर 3D दृश्य का प्रक्षेपण हैं। गति सदिश पूरी छवि (वैश्विक गति अनुमान) या विशिष्ट भागों से संबंधित हो सकते हैं, जैसे आयताकार ब्लॉक, यादृच्छिक आकार के भाग या प्रति पिक्सेल से संबंधित हो सकते हैं। गति सदिश को एक स्थानांतरण मॉडल या कई अन्य मॉडलों द्वारा दर्शाया जा सकता है जो एक वास्तविक वीडियो कैमरा की गति का अनुमान लगा सकते हैं, जैसे कि तीनों आयामों में घूर्णन और स्थानांतरण और आकार वर्धन करता है।

संबंधित पद

अधिक से अधिक बार, पद गति के अनुमान और प्रकाशीय प्रवाह शब्द का उपयोग परस्पर विनिमय के लिए किया जाता है।[citation needed] यह छवि पंजीकरण और त्रिविम पत्राचार की अवधारणा से भी संबंधित है।[1] वास्तव में ये सभी शब्द दो छवियों या वीडियो फ़्रेमों के बीच संबंधित बिंदुओं को खोजने की प्रक्रिया को संदर्भित करते हैं। एक वास्तविक दृश्य या वस्तु के दो दृश्यों (छवियों या फ़्रेमों) में एक दूसरे के अनुरूप होने वाले बिंदु सामान्य रूप से उस दृश्य में या उस वस्तु पर समान बिंदु होते हैं। इससे पहले कि हम गति का आकलन करें, हमें अपने संगत के माप को परिभाषित करना चाहिए, अर्थात, सुमेलन दूरीक, जो इस बात का माप है कि दो छवि बिंदु कितने समान हैं। यहां कोई सही या गलत नहीं है; सुमेलन दूरीक का चयन सामान्य रूप से अनुमान प्रक्रिया में अंतिम अनुमानित गति के साथ-साथ अनुकूलन योजना के लिए उपयोग किया जाता है।

प्रत्येक गति सदिश का उपयोग किसी अन्य चित्र में इस स्थूल-ब्लॉक (या एक समान) की स्थिति के आधार पर एक स्थूल-ब्लॉक का प्रतिनिधित्व करने के लिए किया जाता है, जिसे संदर्भ चित्र कहा जाता है।

एच.264/एमपीईजी-4 उन्नत वीडियो कोडिंग मानक गति सदिश को इस प्रकार परिभाषित करता है:

गति सदिश: एक द्वि-आयामी सदिश जो अंतर-भविष्यवाणी के लिए उपयोग किया जाता है जो डिकोडेड चित्र में निर्देशांक से संदर्भ चित्र में निर्देशांक तक समायोजन प्रदान करता है।[2][3]

एल्गोरिदम

गति सदिश खोजने के तरीकों को पिक्सेल आधारित तरीकों (प्रत्यक्ष) और विशेषता आधारित तरीकों (अप्रत्यक्ष) में वर्गीकृत किया जा सकता है। एक प्रसिद्ध चर्चा के परिणामस्वरूप निष्कर्ष स्थापित करने के प्रयास करने के लिए विरोधी पक्षों के दो पत्र तैयार किए गए थे।[4][5]


प्रत्यक्ष तरीके

  • ब्लॉक-सुमेलन एल्गोरिथम
  • प्रावस्था सहसंबंध और आवृत्ति प्रक्षेत्र विधियाँ
  • पिक्सेल पुनरावर्ती एल्गोरिदम
  • प्रकाशीय प्रवाह

अप्रत्यक्ष तरीके

अप्रत्यक्ष तरीके सुविधाओं का उपयोग करते हैं, जैसे कि सीमा का पता लगाना, और फ्रेम के बीच संबंधित संगत विशेषता का सुमेलन करना, सामान्य रूप से एक स्थानीय या वैश्विक क्षेत्र पर प्रयुक्त सांख्यिकीय फलन के साथ सुमेलन करना। सांख्यिकीय फलनों का उद्देश्य उन मिलानों को हटाना है जो वास्तविक गति के अनुरूप नहीं हैं।

जिन सांख्यिकीय फलनों का सफलतापूर्वक उपयोग किया गया है उनमें यादृच्छिक नमूना सर्वसम्मति सम्मिलित है।

वर्गीकरण पर अतिरिक्त ध्यान

यह तर्क दिया जा सकता है कि लगभग सभी विधियों को समान मानदंडों की किसी प्रकार की परिभाषा की आवश्यकता होती है। अंतर केवल इतना है कि आप पहले एक स्थानीय छवि क्षेत्र को संक्षेप में प्रस्तुत करते हैं और फिर सारांश की तुलना करते हैं (जैसे कि विशेषता आधारित तरीके) या आप पहले प्रत्येक पिक्सेल की तुलना करते हैं (जैसे अंतर को कम करना) और फिर एक स्थानीय छवि क्षेत्र (ब्लॉक आधार गति और फ़िल्टर आधारित गति) पर सारांशित करें । समान मानदंड का एक आविर्भावी प्रकार प्रत्येक पिक्सेल स्थान के लिए सबसे पहले एक स्थानीय छवि क्षेत्र (लाप्लासियन रूपांतरण जैसे कुछ विशेषता रूपांतरण के माध्यम से) को सारांशित करता है, प्रत्येक सारांशित पिक्सेल की तुलना करता है और एक स्थानीय छवि क्षेत्र पर पुनः सारांशित करता है।[6] कुछ सुमेलन मानदंडों में उन बिंदुओं को बाहर करने की क्षमता होती है जो वास्तव में एक अच्छा सुमेलन अंक बनाने के बाद भी एक दूसरे के अनुरूप नहीं होते हैं, दूसरों के पास यह क्षमता नहीं होती है, लेकिन वे अभी भी सुमेलन मानदंड से अनुरूप हैं।

अनुप्रयोग

गति प्रक्षेप के साथ वीडियो फ़्रेम

वीडियो कोडिंग

गति सदिश को पार्श्वस्थ छवि में परिवर्तन को संश्लेषित करने के लिए एक छवि पर प्रयुक्त करने को गति प्रतिकरण कहा जाता है।[7] यह असतत कोसाइन परिवर्तन (डीसीटी) आधारित वीडियो कोडिंग मानकों पर सबसे आसानी से प्रयुक्त होता है, क्योंकि कोडिंग ब्लॉक में की जाती है।[8]

अस्थायी अतिरेक के समुपयोजन के तरीके के रूप में, गति के अनुमान और प्रतिकरण वीडियो संपीड़न के प्रमुख भाग हैं। लगभग सभी वीडियो कोडिंग मानक ब्लॉक-आधारित गति के अनुमान और प्रतिकरण का उपयोग करते हैं जैसे चल चित्र विशेषज्ञ समूह श्रृंखला जिसमें हाल ही मे उच्च क्षमता वाले वीडियो कोडिंग (एचईवीसी) सम्मिलित है।

3D पुनर्निर्माण

एक साथ स्थानीयकरण और मानचित्रण में, एक गतिमान कैमरे से छवियों का उपयोग करके एक दृश्य के 3D मॉडल का पुनर्निर्माण किया जाता है।[9]


यह भी देखें

संदर्भ

  1. John X. Liu (2006). कंप्यूटर विजन और रोबोटिक्स. Nova Publishers. ISBN 978-1-59454-357-9.
  2. Latest working draft of H.264/MPEG-4 AVC Archived 2004-07-23 at the Wayback Machine. Retrieved on 2008-02-29.
  3. "Latest working draft of H.264/MPEG-4 AVC on hhi.fraunhofer.de" (PDF).
  4. Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999
  5. Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
  6. Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.
  7. Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). वीडियो संपीड़न के लिए मोशन एस्टीमेशन एल्गोरिदम. Springer Science & Business Media. ISBN 978-1-4615-6241-2.
  8. Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174.
  9. Kerl, Christian, Jürgen Sturm, and Daniel Cremers. "Dense visual SLAM for RGB-D cameras." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.