सर्वोत्तम प्रतिक्रिया
खेल सिद्धांत में, सबसे अच्छी प्रतिक्रिया रणनीति (खेल सिद्धांत) (या रणनीति) है जो एक खिलाड़ी के लिए सबसे अनुकूल परिणाम (खेल सिद्धांत) उत्पन्न करती है, अन्य खिलाड़ियों की रणनीतियों को (फुडेनबर्ग & तिरोल 1991, p. 29 ; गिबन्स 1992, pp. 33–49 ) के अनुसार दिया गया है। जॉन फोर्ब्स नैश के लिए एक सर्वोत्तम प्रतिक्रिया की अवधारणा केंद्रीय है। जॉन नैश का सबसे प्रसिद्ध योगदान, नैश संतुलन, वह बिंदु जिस पर खेल में प्रत्येक खिलाड़ी की रणनीतियाँ (नैश 1950) ने अन्य खिलाड़ियों के लिए सर्वश्रेष्ठ प्रतिक्रिया (या सर्वश्रेष्ठ प्रतिक्रियाओं में से एक) का चयन किया है।
पत्राचार
प्रतिक्रिया 1: 1 पत्राचार, जिसे सर्वश्रेष्ठ प्रतिक्रिया पत्राचार के रूप में भी जाना जाता है, का उपयोग मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & तिरोल 1991 , खंड 1.3.बी; ओसबोर्न & रुबिनस्टीन 1994 , खंड 2.2) के अस्तित्व के प्रमाण में किया जाता है। प्रतिक्रिया पत्राचार प्रतिक्रिया कार्य नहीं हैं क्योंकि फलन (गणित) में प्रति तर्क केवल एक मान होना चाहिए, और कई प्रतिक्रिया पत्राचार अपरिभाषित होंगे, अर्थात, कुछ प्रतिद्वंद्वी रणनीति पसंद के लिए एक लंबवत रेखा है। एक पत्राचार खिलाड़ी की रणनीतियों के सम्मुच्चय में प्रतिद्वंद्वी रणनीति वर्णन के सम्मुच्चय से प्रत्येक खिलाड़ी के लिए बनाता है। तो, प्रतिद्वंद्वी की रणनीतियों के किसी दिए गए सम्मुच्चय , के लिए खिलाड़ी की सर्वश्रेष्ठ प्रतिक्रियाओं का प्रतिनिधित्व करता है।
सभी 2x2 प्रसामान्य रूप खेल के लिए प्रतिक्रिया पत्राचार एक इकाई वर्ग योजना स्थल में प्रत्येक खिलाड़ी के लिए एक रेखा (गणित) के साथ तैयार किया जा सकता है। आंकड़े 1 से 3 लेखाचित्र स्टैग हंट खेल के लिए सर्वोत्तम प्रतिक्रिया पत्राचार है। चित्र 1 में बिन्दुकित रेखा अनुकूलन (गणित) के प्रतिनिधित्व और संभाव्यता मूल्यों की व्याख्या दिखाती है कि खिलाड़ी वाई 'स्टैग' खेलता है, संभावना के एक फलन के रूप में खिलाड़ी X स्टैग खेलता है (दिखाया गया है)। चित्र 2 में बिन्दुकित रेखा इष्टतम संभावना दिखाती है कि खिलाड़ी X 'स्टैग' (x-अक्ष में दिखाया गया है) खेलता है, संभावना के एक फलन के रूप में कि खिलाड़ी Y स्टैग खेलता है (y-अक्ष में दिखाया गया है)। ध्यान दें कि चित्र 2 सामान्य रूप से उपयोग किए जाने वाले अक्षों के विपरीत अक्षों में स्वतंत्र और प्रतिक्रिया चरों को आलेख करता है, ताकि इसे पिछले लेखाचित्र पर आरोपित किया जा सके, जहां दो खिलाड़ियों की सर्वश्रेष्ठ प्रतिक्रियाएं चित्रा 3 में सहमत हों नैश संतुलन को उन बिंदुओं पर दिखाने के लिए आलेख करता है।
तीन विशिष्ट प्रतिक्रिया पत्राचार आकार हैं, तीन प्रकार के सममित फलन 2x2 फलन में से प्रत्येक के लिए एक: समन्वय फलन, डिसऑर्डिनेशन फलन और वर्चस्व वाली रणनीतियों वाले फलन (छोटा चौथा स्तिथि जिसमें प्रतिदान हमेशा दोनों चालों के बराबर होती है, वास्तव में एक खेल सैद्धांतिक समस्या नहीं है)। कोई भी प्रतिदान सममित 2x2 खेल इन तीन रूपों में से एक को प्राप्त करेगा।
समन्वय खेल
जिन खेलों में खिलाड़ी उच्चतम स्कोर करते हैं, जब दोनों खिलाड़ी एक ही रणनीति चुनते हैं, जैसे कि स्टैग हंट और बैटल ऑफ द सक्सेस (खेल सिद्धांत), समन्वय खेल कहलाते हैं। इन खेलों में चित्रा 3 के समान आकार के प्रतिक्रिया पत्राचार होते हैं, जहां नीचे बाएं कोने में एक नैश संतुलन होता है, दूसरा शीर्ष दाएं कोने में होता है, और अन्य दो के बीच विकर्ण के साथ कहीं मिश्रण नैश होता है।
विरोधी समन्वय खेल
गेम ऑफ़ चिकन और हॉक-धोव खेल जैसे खेल जिसमें खिलाड़ी विपरीत रणनीतियों का चयन करते समय उच्चतम अंक प्राप्त करते हैं, यानी, असंतोष, समन्वय-विरोधी खेल कहलाते हैं। उनके पास प्रतिक्रिया पत्राचार (चित्र 4) है जो समन्वय खेलों के विपरीत दिशा में पार करते हैं, तीन नैश संतुलन के साथ, शीर्ष बाएं और निचले दाएं कोनों में से प्रत्येक में, जहां एक खिलाड़ी एक रणनीति चुनता है, दूसरा खिलाड़ी विपरीत रणनीति चुनता है। तीसरा नैश संतुलन एक मिश्रित रणनीति है जो नीचे बाएँ से ऊपरी दाएँ कोने तक विकर्ण के साथ स्थित है। यदि खिलाड़ियों को नहीं पता है कि उनमें से कौन सा है, तो मिश्रित नैश एक क्रमिक रूप से स्थिर रणनीति (ईएसएस) है, क्योंकि खेल नीचे बाईं ओर ऊपर दाईं ओर तिरछी रेखा तक ही सीमित है। अन्यथा कहा जाता है कि एक असंबद्ध विषमता अस्तित्व में है, और कोना नैश संतुलन ईएसएस हैं।
प्रभुत्व वाली रणनीतियों वाले खेल
प्रभुत्व वाले फलन (खेल सिद्धांत) रणनीतियों में प्रतिक्रिया पत्राचार होते हैं जो केवल एक बिंदु पर पार करते हैं, जो भुगतान सममित 2x2 फलन में या तो नीचे बाएं या शीर्ष दाएं कोने में होगा। उदाहरण के लिए, एकल-खेल प्रिजनर असमंजस में, सहयोगी चाल प्रतिद्वंद्वी सहयोग की किसी भी संभावना के लिए इष्टतम नहीं है। चित्रा 5 ऐसे खेल के लिए प्रतिक्रिया पत्राचार दिखाता है, जहां आयाम संभावना खेल सहयोग करते हैं, नैश संतुलन निचले बाएं कोने में है जहां कोई भी खिलाड़ी सहयोग नहीं करता है। यदि आयामों को संभाव्यता खेल दोष के रूप में परिभाषित किया गया था, तो दोनों खिलाड़ियों का सर्वश्रेष्ठ प्रतिक्रिया वक्र सभी प्रतिद्वंद्वी रणनीति संभावनाओं के लिए 1 होगा और प्रतिक्रिया पत्राचार शीर्ष दाएं कोने पर तिर्यक् (और एक नैश संतुलन बनाएगा) होगा।
अन्य (अदायगी असममित) खेल
भुगतान विषमता के साथ 2x2 फलन में प्रतिक्रिया पत्राचार आकृतियों की एक विस्तृत श्रृंखला संभव है। प्रत्येक खिलाड़ी के लिए चित्र 6 में दिखाए गए पांच संभावित सर्वश्रेष्ठ प्रतिक्रिया आकार हैं। बाएं से दाएं ये हैं: वर्चस्व वाली रणनीति (हमेशा 2 खेलें), हावी रणनीति (हमेशा 1 खेलें), बढ़ती (रणनीति 2 खेलें यदि संभावना है कि अन्य खिलाड़ी खेल 2 प्रभावसीमा से ऊपर है), गिरना (खेल योजना 1 यदि संभावना है कि अन्य खिलाड़ी 2 खेलता है तो प्रभावसीमा से ऊपर है), और उदासीन (दोनों रणनीतियाँ सभी परिस्थितियों में समान रूप से अच्छी तरह से खेलती हैं)।
जबकि अदायगी सममित 2x2 खेल के केवल चार संभावित प्रकार हैं (जिनमें से एक तुच्छ है), प्रति खिलाड़ी पांच अलग-अलग सर्वश्रेष्ठ प्रतिक्रिया वक्र बड़ी संख्या में अदायगी असममित खेल प्रकारों की अनुमति देते हैं। इनमें से कई वास्तव में एक दूसरे से भिन्न नहीं हैं। सममित खेलों का निर्माण करने के लिए आयामों को फिर से परिभाषित किया जा सकता है (रणनीति 1 और 2 के विनिमय नाम)।
सुमेलन पेनी
अदायगी विषमता के साथ एक प्रसिद्ध फलन सुमेलन पेनी फलन है। इस खेल में एक खिलाड़ी, पंक्ति खिलाड़ी - y आयाम पर रेखांकन - जीतता है यदि खिलाड़ी समन्वय करते हैं (दोनों सिर चुनते हैं या दोनों पूंछ चुनते हैं) जबकि अन्य खिलाड़ी, स्तंभ खिलाड़ी - एक्स-अक्ष में दिखाया गया है - जीतता है अगर खिलाड़ी असमंजस। खेलयर वाई की प्रतिक्रिया पत्राचार एक समन्वय खेल का है, जबकि खिलाड़ी एक्स का एक डिसऑर्डिनेशन फलन है। एकमात्र नैश संतुलन मिश्रित रणनीतियों का संयोजन है जहां दोनों खिलाड़ी स्वतंत्र रूप से 0.5 प्रत्येक की प्रायिकता के साथ हेड और टेल चुनते हैं।
गतिविज्ञान
विकासवादी खेल सिद्धांत में, सर्वोत्तम प्रतिक्रिया गतिशीलता नियमों को अद्यतन करने वाली रणनीति के एक वर्ग का प्रतिनिधित्व करती है, जहां अगले पड़ाव में खिलाड़ियों की रणनीति जनसंख्या के कुछ उपसमुच्चय के लिए उनकी सर्वोत्तम प्रतिक्रियाओं द्वारा निर्धारित की जाती है। कुछ उदाहरणों में निम्न सम्मिलित हैं:
- एक बड़े जनसंख्या प्रतिरूप में, खिलाड़ी संभावित रूप से अपनी अगली कार्रवाई का चयन करते हैं, जिसके आधार पर रणनीति समग्र रूप से जनसंख्या के लिए सर्वोत्तम प्रतिक्रिया होती है।
- एक स्थानिक प्रतिरूप में, खिलाड़ी (अगले पड़ाव में) उस क्रिया को चुनते हैं जो उनके सभी प्रतिवैस (एलिसन 1993) के लिए सबसे अच्छी प्रतिक्रिया है।
महत्वपूर्ण रूप से, इन प्रतिरूपों में खिलाड़ी केवल अगले पड़ाव में सर्वश्रेष्ठ प्रतिक्रिया का चयन करते हैं जो उन्हें अगले पड़ाव में उच्चतम भुगतान देगा। खिलाड़ी इस प्रभाव पर विचार नहीं करते हैं कि अगले पड़ाव में रणनीति चुनने से खेल में भविष्य के खेल पर प्रभाव पड़ेगा। इस बाधा के परिणामस्वरूप गतिशील नियम को प्रायः अदूरदर्शी सर्वश्रेष्ठ प्रतिक्रिया कहा जाता है।
संभावित खेलों के सिद्धांत में, 'सर्वश्रेष्ठ प्रतिक्रिया गतिकी' प्रत्येक खिलाड़ी के लिए सर्वश्रेष्ठ प्रतिक्रिया की गणना करके नैश संतुलन खोजने का एक तरीका है:
'प्रमेय:' किसी भी परिमित संभावित खेल में, सर्वोत्तम प्रतिक्रिया गतिकी हमेशा नैश संतुलन में परिवर्तित होती है।
(निसान et al. 2007 , खंड 19.3.2)
समकृत
सर्वोत्तम प्रतिक्रिया पत्राचारों के स्थान पर, कुछ प्रतिरूप समकृत सर्वोत्तम प्रतिक्रिया कार्यों का उपयोग करते हैं। ये कार्य सर्वोत्तम प्रतिक्रिया पत्राचार के समान हैं, सिवाय इसके कि फलन एक शुद्ध रणनीति से दूसरे में नहीं जाता है। अंतर को चित्र 8 में दिखाया गया है, जहां काला सर्वोत्तम प्रतिक्रिया पत्राचार का प्रतिनिधित्व करता है और अन्य रंग प्रत्येक अलग-अलग चिकने सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। मानक सर्वोत्तम प्रतिक्रिया पत्राचारों में, एक कार्रवाई के लिए सामान्य लाभ के परिणामस्वरूप व्यक्ति उस कार्रवाई को संभाव्यता 1 के साथ खेलता है। समकृत सर्वोत्तम प्रतिक्रिया में दो क्रियाओं के बीच का अंतर घटता है, व्यक्ति का खेल 50:50 तक पहुंचता है।
ऐसे कई कार्य हैं जो समकृत सर्वोत्तम प्रतिक्रिया कार्यों का प्रतिनिधित्व करते हैं। यहां दिखाए गए फलन निम्न फलन पर कई भिन्नताएं हैं:
जहाँ प्रक्रिया के अपेक्षित भुगतान का प्रतिनिधित्व करता है, और एक मापदण्ड है जो उस घात को निर्धारित करता है जिस पर फलन सही सर्वोत्तम प्रतिक्रिया से विचलित होता है (एक बड़ा तात्पर्य यह है कि खिलाड़ी के 'गलतियाँ' करने की अधिक संभावना है)।
समकृत सर्वोत्तम प्रतिक्रिया का उपयोग करने के कई सैद्धांतिक और अनुभवजन्य दोनों लाभ हैं। सबसे पहले, यह मनोवैज्ञानिक प्रयोगों के अनुरूप है; जब व्यक्ति स्थूलतः दो कार्यों के बीच उदासीन होते हैं तो ऐसा प्रतीत होता है कि वे यादृच्छिक रूप से अधिक या कम चुनते हैं। दूसरा, व्यक्तियों का खेल सभी स्तिथियों में विशिष्ट रूप से निर्धारित होता है, क्योंकि यह 1:1 पत्राचार है जो एक कार्य (गणित) भी है। अंत में, कुछ सीखने के नियमों के साथ सहज सर्वोत्तम प्रतिक्रिया का उपयोग करने से (जैसा कि काल्पनिक नाटक में होता है) परिणामस्वरूप खिलाड़ी मिश्रित रणनीति नैश संतुलन (फुडेनबर्ग & लेविन 1998) खेलना सीख सकते हैं .
यह भी देखें
संदर्भ
- Ellison, G. (1993), "Learning, Local Interaction, and Coordination" (PDF), Econometrica, 61 (5): 1047–1071, doi:10.2307/2951493, JSTOR 2951493
- Fudenberg, D.; Levine, David K. (1998), The Theory of Learning in Games, Cambridge MA: MIT Press
- Fudenberg, Drew; Tirole, Jean (1991). Game theory. Cambridge, Massachusetts: MIT Press. ISBN 9780262061414. Book preview.
- Gibbons, R. (1992), A primer in game theory, Harvester-Wheatsheaf, S2CID 10248389
- Nash, John F. (1950), "Equilibrium points in n-person games", Proceedings of the National Academy of Sciences of the United States of America, 36 (1): 48–49, Bibcode:1950PNAS...36...48N, doi:10.1073/pnas.36.1.48, PMC 1063129, PMID 16588946
- Osborne, M.J.; Rubinstein, Ariel (1994), A course in game theory, Cambridge MA: MIT Press
- Young, H.P. (2005), Strategic Learning and Its Limits, Oxford University Press
- Nisan, N.; Roughgarden, T.; Tardos, É.; Vazirani, V.V. (2007), Algorithmic Game Theory (PDF), New York: Cambridge University Press