गति का अनुमान

From Vigyanwiki
Revision as of 19:38, 7 May 2023 by alpha>SprashM
गति सदिश जो छवि के z-तल में एक संचलन से उत्पन्न होते हैं, पार्श्व संचलन के साथ निचले-दाएं तक संयुक्त होते हैं। यह एक चल चित्र विशेषज्ञ समूह चलचित्र को संपीड़ित करने के लिए किए गए गति आकलन का दृश्य है।

गति का अनुमान गति सदिश निर्धारित करने की प्रक्रिया है जो एक 2D छवि से दूसरे में सामान्य रूप से एक वीडियो अनुक्रम में निकटवर्ती फ़्रेमों से परिवर्तन का वर्णन करता है। यह एक गलत समस्या है क्योंकि गति तीन आयामों में होती है लेकिन छवियां 2D तल पर 3D दृश्य का प्रक्षेपण हैं। गति सदिश पूरी छवि (वैश्विक गति अनुमान) या विशिष्ट भागों से संबंधित हो सकते हैं, जैसे आयताकार ब्लॉक, यादृच्छिक आकार के भाग या प्रति पिक्सेल से संबंधित हो सकते हैं। गति सदिश को एक स्थानांतरण मॉडल या कई अन्य मॉडलों द्वारा दर्शाया जा सकता है जो एक वास्तविक वीडियो कैमरा की गति का अनुमान लगा सकते हैं, जैसे कि तीनों आयामों में घूर्णन और स्थानांतरण और आकार वर्धन करता है।

संबंधित पद

अधिक से अधिक बार, पद गति के अनुमान और प्रकाशीय प्रवाह शब्द का उपयोग परस्पर विनिमय के लिए किया जाता है।[citation needed] यह छवि पंजीकरण और त्रिविम पत्राचार की अवधारणा से भी संबंधित है।[1] वास्तव में ये सभी शब्द दो छवियों या वीडियो फ़्रेमों के बीच संबंधित बिंदुओं को खोजने की प्रक्रिया को संदर्भित करते हैं। एक वास्तविक दृश्य या वस्तु के दो दृश्यों (छवियों या फ़्रेमों) में एक दूसरे के अनुरूप होने वाले बिंदु सामान्य रूप से उस दृश्य में या उस वस्तु पर समान बिंदु होते हैं। इससे पहले कि हम गति का आकलन करें, हमें अपने संगत के माप को परिभाषित करना चाहिए, अर्थात, सुमेलन दूरीक, जो इस बात का माप है कि दो छवि बिंदु कितने समान हैं। यहां कोई सही या गलत नहीं है; सुमेलन दूरीक का चयन सामान्य रूप से अनुमान प्रक्रिया में अंतिम अनुमानित गति के साथ-साथ अनुकूलन योजना के लिए उपयोग किया जाता है।

प्रत्येक गति सदिश का उपयोग किसी अन्य चित्र में इस स्थूल-ब्लॉक (या एक समान) की स्थिति के आधार पर एक स्थूल-ब्लॉक का प्रतिनिधित्व करने के लिए किया जाता है, जिसे संदर्भ चित्र कहा जाता है।

एच.264/एमपीईजी-4 उन्नत वीडियो कोडिंग मानक गति सदिश को इस प्रकार परिभाषित करता है:

गति सदिश: एक द्वि-आयामी सदिश जो अंतर-भविष्यवाणी के लिए उपयोग किया जाता है जो डिकोडेड चित्र में निर्देशांक से संदर्भ चित्र में निर्देशांक तक समायोजन प्रदान करता है।[2][3]

एल्गोरिदम

गति सदिश खोजने के तरीकों को पिक्सेल आधारित तरीकों (प्रत्यक्ष) और विशेषता आधारित तरीकों (अप्रत्यक्ष) में वर्गीकृत किया जा सकता है। एक प्रसिद्ध चर्चा के परिणामस्वरूप निष्कर्ष स्थापित करने के प्रयास करने के लिए विरोधी पक्षों के दो पत्र तैयार किए गए थे।[4][5]


प्रत्यक्ष तरीके

  • ब्लॉक-सुमेलन एल्गोरिथम
  • प्रावस्था सहसंबंध और आवृत्ति प्रक्षेत्र विधियाँ
  • पिक्सेल पुनरावर्ती एल्गोरिदम
  • प्रकाशीय प्रवाह

अप्रत्यक्ष तरीके

अप्रत्यक्ष तरीके सुविधाओं का उपयोग करते हैं, जैसे कि सीमा का पता लगाना, और फ्रेम के बीच संबंधित संगत विशेषता का सुमेलन करना, सामान्य रूप से एक स्थानीय या वैश्विक क्षेत्र पर प्रयुक्त सांख्यिकीय फलन के साथ सुमेलन करना। सांख्यिकीय फलनों का उद्देश्य उन मिलानों को हटाना है जो वास्तविक गति के अनुरूप नहीं हैं।

जिन सांख्यिकीय फलनों का सफलतापूर्वक उपयोग किया गया है उनमें यादृच्छिक नमूना सर्वसम्मति सम्मिलित है।

वर्गीकरण पर अतिरिक्त ध्यान

यह तर्क दिया जा सकता है कि लगभग सभी विधियों को समान मानदंडों की किसी प्रकार की परिभाषा की आवश्यकता होती है। अंतर केवल इतना है कि आप पहले एक स्थानीय छवि क्षेत्र को संक्षेप में प्रस्तुत करते हैं और फिर सारांश की तुलना करते हैं (जैसे कि विशेषता आधारित तरीके) या आप पहले प्रत्येक पिक्सेल की तुलना करते हैं (जैसे अंतर को कम करना) और फिर एक स्थानीय छवि क्षेत्र (ब्लॉक आधार गति और फ़िल्टर आधारित गति) पर सारांशित करें । समान मानदंड का एक आविर्भावी प्रकार प्रत्येक पिक्सेल स्थान के लिए सबसे पहले एक स्थानीय छवि क्षेत्र (लाप्लासियन रूपांतरण जैसे कुछ विशेषता रूपांतरण के माध्यम से) को सारांशित करता है, प्रत्येक सारांशित पिक्सेल की तुलना करता है और एक स्थानीय छवि क्षेत्र पर पुनः सारांशित करता है।[6] कुछ सुमेलन मानदंडों में उन बिंदुओं को बाहर करने की क्षमता होती है जो वास्तव में एक अच्छा सुमेलन अंक बनाने के बाद भी एक दूसरे के अनुरूप नहीं होते हैं, दूसरों के पास यह क्षमता नहीं होती है, लेकिन वे अभी भी सुमेलन मानदंड से अनुरूप हैं।

अनुप्रयोग

गति प्रक्षेप के साथ वीडियो फ़्रेम

वीडियो कोडिंग

गति सदिश को पार्श्वस्थ छवि में परिवर्तन को संश्लेषित करने के लिए एक छवि पर प्रयुक्त करने को गति प्रतिकरण कहा जाता है।[7] यह असतत कोसाइन परिवर्तन (डीसीटी) आधारित वीडियो कोडिंग मानकों पर सबसे आसानी से प्रयुक्त होता है, क्योंकि कोडिंग ब्लॉक में की जाती है।[8]

अस्थायी अतिरेक के समुपयोजन के तरीके के रूप में, गति के अनुमान और प्रतिकरण वीडियो संपीड़न के प्रमुख भाग हैं। लगभग सभी वीडियो कोडिंग मानक ब्लॉक-आधारित गति के अनुमान और प्रतिकरण का उपयोग करते हैं जैसे चल चित्र विशेषज्ञ समूह श्रृंखला जिसमें हाल ही मे उच्च क्षमता वाले वीडियो कोडिंग (एचईवीसी) सम्मिलित है।

3D पुनर्निर्माण

एक साथ स्थानीयकरण और मानचित्रण में, एक गतिमान कैमरे से छवियों का उपयोग करके एक दृश्य के 3D मॉडल का पुनर्निर्माण किया जाता है।[9]


यह भी देखें

संदर्भ

  1. John X. Liu (2006). कंप्यूटर विजन और रोबोटिक्स. Nova Publishers. ISBN 978-1-59454-357-9.
  2. Latest working draft of H.264/MPEG-4 AVC Archived 2004-07-23 at the Wayback Machine. Retrieved on 2008-02-29.
  3. "Latest working draft of H.264/MPEG-4 AVC on hhi.fraunhofer.de" (PDF).
  4. Philip H.S. Torr and Andrew Zisserman: Feature Based Methods for Structure and Motion Estimation, ICCV Workshop on Vision Algorithms, pages 278-294, 1999
  5. Michal Irani and P. Anandan: About Direct Methods, ICCV Workshop on Vision Algorithms, pages 267-277, 1999.
  6. Rui Xu, David Taubman & Aous Thabit Naman, 'Motion Estimation Based on Mutual Information and Adaptive Multi-scale Thresholding', in Image Processing, IEEE Transactions on , vol.25, no.3, pp.1095-1108, March 2016.
  7. Borko Furht; Joshua Greenberg; Raymond Westwater (6 December 2012). वीडियो संपीड़न के लिए मोशन एस्टीमेशन एल्गोरिदम. Springer Science & Business Media. ISBN 978-1-4615-6241-2.
  8. Swartz, Charles S. (2005). Understanding Digital Cinema: A Professional Handbook. Taylor & Francis. p. 143. ISBN 9780240806174.
  9. Kerl, Christian, Jürgen Sturm, and Daniel Cremers. "Dense visual SLAM for RGB-D cameras." 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2013.