戈比硬币 甲藏起一枚 10 或 20 戈比的硬币,乙猜对则得到硬币,猜错则给甲 15 戈比。双方最优策略是什么?
首先正如题主所说,设甲藏10块的概率为,乙猜10块的概率为
那么在乙看来,收益的期望是的函数:
.
同样的,在甲看来,自己的收益期望是的函数:
注意甲的收益正好是乙的相反数,因为这是一个零和博弈。
演绎之前,我做几个假设:
1)这个游戏不停地重复进行。
2)甲和乙都会从之前的游戏结果中总结规律,并用来修正自己的策略。在这里,甲的策略表现在参数上,而乙的策略表现在参数上。
3)甲和乙都是谨慎的,他们只会缓慢调整自己的策略。就是说,策略从全部藏10块突然变成全部藏20,或者说突然从1.0变成0.0,这种情况不可能发生。和是连续的
那么现在游戏开始
甲觉得,只藏10比较好,因为这样万一输了只损失10块钱,而赢了能挣15.于是,他的初始策略是=1.0。
乙觉得,只猜20比较好,因为这样如果赢了能有20块,输了只损失15块,于是他的初始策略是=0.0,或=1.0.
游戏开始后,根据演绎结果,两人的策略随时间变化如下图所示,最终两人的策略分别稳定在=35/60和=25/60,和题主的答案一样。
那么我来分段解释一下演绎的逻辑过程:
(0~a段)
对甲来说=1.0,即甲只藏10块硬币。而乙的初始策略是=0.0,即只猜20块硬币,显然乙会输的很惨。不过乙不是傻子,他发现总是输,就开始偶尔猜一猜10块的,尝到甜头后,他不断提高猜10块的概率(提高)。
这个结果也可以从数学上解释,开头提到了,甲的收益函数为
在的情况下,甲的收益是的增函数,因此对甲来说P1越高越好,因此甲当然保持P1=1.0不变。表现为图中的水平红线。虽然乙开始偶尔猜10块,但是甲觉得总体上还是赢的多,因此并不对策略做出调整。
对于乙来说,,在P1>35/60的情况下,这是个P2的减函数,所以乙当然要不断提高P2. 不过乙并没有直接把P2提高到1.0,这是因为我之前的假设(3)。这个假设也可以通俗地理解如下:乙虽然越来越发现甲好像一直藏的是10块,但侥幸心理让他还是经常猜20,万一甲这次藏了20呢。当然,时间长了,乙猜20的频率会越来越低,表现在P2随时间的上升。表现为图中蓝线的上升。
(a~b)段
随着P2的上升,P2到达了一个突破点:25/60. 这时,甲的收益率会变成P1的减函数。这时候,甲应该减小P1了。
即使甲不懂数学,他也会开始减小P1。因为他会突然发现最近开始输多赢少了,他认为这是因为乙猜10块的次数增多的缘故。于是他也偶尔藏一藏20,表现在红线的下降。同样的,由于假设(3),甲并没有直接把P1降到0.
对于乙来说,收益仍然是P2的增函数,于是他继续增加P2。表现在蓝线的继续上升。
(b~c)段
同样的,随着P1的下降,P1也到达了一个突破点:35/60. 这时,乙的收益率会变成P2的减函数。这时候,乙应该停止增加P2了。于是蓝线转而向下。
通俗地解释一下,乙从游戏开始以来就不断增加猜10块的概率,并在a点成功逆转了输赢。但是乙突然发现,最近又开始输多赢少了。这是因为,随着P1减小,甲藏20块的情况越来越多。于是乙又开始增加猜20的频率,表现在P2的下降。
同样的,甲在这一段并不会改变自己降低P1的策略,因为现在他的收益仍然是P1的减函数。
那么后面的逻辑就很简单了,每当P1突破35/60,或P2突破25/60.对方都会改变自己的策略变化方向,那么这样下去结果只有一个,两人的策略都收敛到临界概率,即=35/60和=25/60。
对于题主的第一个问题,我认为,纳什均衡并不是假设在游戏开始后策略不改变,而是一个动态的平衡,双方根据对结果的分析调整自己的策略,最后达到一种均衡。所以题主说的假设“在游戏开始后策略不改变”我觉得是不对的,可能是我们表述和理解的问题。
对于题主的第二个问题,我也不清楚,但我觉得这个问题应该可以用数值实验来解答。可以建立一个模型,我们人工调整甲或乙的策略,来试验那种策略最终受益更多。
第三个问题,我认为这种均衡在两个个人之间很可能无法观测到。因为个体不大可能满足前面提到的几个假设。例如,乙可能是不理性的,他发现全部猜20块总输,可能会突然变成全猜10块,这样一来,图中的两条曲线很可能不会收敛到平衡值,而是永远震荡下去。但是在生物群之间很可能发生,因为总体的统计规律应该是连续变化的。另外企业和企业之间也可能发生,因为企业有大量专业的分析管理人员,他们的行为比个体更加谨慎。
———————————————2016年11月17日————————————————
根据@的建议,用python模拟了一下。代码如下:
import matplotlib.pyplot as plt
def b1(p1,p2):
b=(35.-60.*p2)*p1-(20.-35.*p2)
return b
def b2(p1,p2):
b=(60.*p1-35.)*p2+(20.-35.*p1)
return b
p1=1.0
p2=0.0
p1_i=[]
p2_i=[]
b1_i=[]
b2_i=[]
balance=[35./60]
p1_i.append(p1)
p2_i.append(p2)
b1_i.append(b1(p1,p2))
b2_i.append(b2(p1,p2))
step_i=[]
step_i.append(0)
for i in range(1,100001):
# step1=(15.-b1(p1,p2))*0.00001
# step2=(20.-b2(p1,p2))*0.00001
step1=0.001 # 与@相同,采用固定步长0.1%
step2=0.001 # 与@相同,采用固定步长0.1%
if((35.-60.*p2)>=0.):
p1=p1+step1
else:
p1=p1-step1
p1=min(1.0,p1)
p1=max(0.0,p1)
if((60.*p1-35.)>=0.):
p2=p2+step2
else:
p2=p2-step2
p2=min(1.0,p2)
p2=max(0.0,p2)
p1_i.append(p1)
p2_i.append(p2)
b1_i.append(b1(p1,p2))
b2_i.append(b2(p1,p2))
step_i.append(i)
balance.append(35./60)
plt.plot(step_i,p1_i,"r")
plt.plot(step_i,p2_i,"g")
plt.plot(step_i,balance,"b")
这里与@相同,采用固定步长0.1%,结果是不收敛
原谅本人比较懒,没标注横纵坐标。 横坐标是时间步,红线是P1的演化,绿线是P2的演化。蓝线是理论平衡位置。结果是不收敛。原谅本人比较懒,没标注横纵坐标。 横坐标是时间步,红线是P1的演化,绿线是P2的演化。蓝线是理论平衡位置。结果是不收敛。
下面使用与收益相关的步长:
step1=(15.-b1(p1,p2))*0.00001
step2=(20.-b2(p1,p2))*0.00001
这个模型我是这么考虑的:甲的收益最高是15,乙的最高是20。我假定当人收益高的时候倾向于维持现状,步长较小,收益低了要革命,步长较大。
快收敛了,但收敛不彻底。快收敛了,但收敛不彻底。
两人的收益:
居然稳定在了正负5/12,正如题主所说,不太公平。但是虽然不公平,这个平衡确实可以实现的。这也是纳什均衡的结果。居然稳定在了正负5/12,正如题主所说,不太公平。但是虽然不公平,这个平衡确实可以实现的。这也是纳什均衡的结果。 2/2 首页 上一页 1 2
更多阅读
表态课堂 一分钟,教你选一枚卡地亚蓝气球——从A-Z分解蓝气球 卡地亚蓝气球真假对比
【表态课堂】一分钟,教你选一枚卡地亚蓝气球——从A-Z分解蓝气球作者:熊小默 | 微博:熊小默| 2015-1-27 00:00 “蓝气球巨大的出货量证明了它的江湖地位,但我们知道有许多“懂表人”对它嗤之以鼻,为何?且让@熊小默用一套A-Z的关键词来分
史上今天 印度一枚捆绑式火箭发射失败 印度火箭 发射 直播
印度在航天领域取得许多成就,成为世界上继美国、俄罗斯、欧盟、中国和日本之后的第六个航天大国。印度斯哈里科塔发射场印度一枚捆绑式火箭发射失败1988年7月13日,印度一枚捆绑式运载火箭从斯哈里科塔发射场第二次发射卫星时,在火
一枚袁大头——民间异术后人的传奇经历 一枚袁大头第五部
一枚袁大头——民间异术后人的传奇经历 作者:飞行电熨斗分类:悬疑探险一桩六十年前的离奇事件,兵痞马三炮在临死之际留下枚假的袁大头,隐隐指向一处秘密的宝藏。 有人寻找那枚袁大头,有人想找宝藏,而还有人却在找寻着袁大头和宝藏后的
李戡:说什么李敖二世,还是一枚娃娃而已 - 慕容莲生的日志 - 网 宋莲生
李戡:说什么李敖二世,还是一枚娃娃而已「声色日记」 2011-03-16 01:35:19 阅读8835 评论27 字号:大中小订阅附言:这东西真陈旧啊。故事都可以从去年夏天说起了
一枚袁大头 一枚袁大头第三部龟兹
九十年代初不经意间收藏了一枚袁大头,当时这枚袁大头觉得好玩又是第一次见就把它保存下来了。再后来听人说袁大头存世不多,才知道它的珍贵。这个品相还行,现在存世的究竟还有多少?名词解释