戈比硬币甲藏起一枚 10 或 20 戈比的硬币，乙猜对则得到硬币，猜错则给甲 15 戈比。双方最优策略是什么？-爱华网

题主从纳什均衡直接得到了答案，我的研究方向是数值模拟，因此我试着用一种用一种演绎的方法来分析了一下。

首先正如题主所说，设甲藏10块的概率为，乙猜10块的概率为
那么在乙看来，收益的期望是的函数：

.
同样的，在甲看来，自己的收益期望是的函数：

注意甲的收益正好是乙的相反数，因为这是一个零和博弈。

演绎之前，我做几个假设：
1）这个游戏不停地重复进行。
2）甲和乙都会从之前的游戏结果中总结规律，并用来修正自己的策略。在这里，甲的策略表现在参数上，而乙的策略表现在参数上。
3）甲和乙都是谨慎的，他们只会缓慢调整自己的策略。就是说，策略从全部藏10块突然变成全部藏20，或者说突然从1.0变成0.0，这种情况不可能发生。和是连续的

那么现在游戏开始
甲觉得，只藏10比较好，因为这样万一输了只损失10块钱，而赢了能挣15.于是，他的初始策略是=1.0。
乙觉得，只猜20比较好，因为这样如果赢了能有20块，输了只损失15块，于是他的初始策略是=0.0，或=1.0.
游戏开始后，根据演绎结果，两人的策略随时间变化如下图所示，最终两人的策略分别稳定在=35/60和=25/60,和题主的答案一样。
那么我来分段解释一下演绎的逻辑过程：
（0~a段）
对甲来说=1.0,即甲只藏10块硬币。而乙的初始策略是=0.0，即只猜20块硬币，显然乙会输的很惨。不过乙不是傻子，他发现总是输，就开始偶尔猜一猜10块的，尝到甜头后，他不断提高猜10块的概率（提高）。
这个结果也可以从数学上解释，开头提到了，甲的收益函数为
在的情况下，甲的收益是的增函数，因此对甲来说P1越高越好，因此甲当然保持P1=1.0不变。表现为图中的水平红线。虽然乙开始偶尔猜10块，但是甲觉得总体上还是赢的多，因此并不对策略做出调整。
对于乙来说，，在P1>35/60的情况下，这是个P2的减函数，所以乙当然要不断提高P2. 不过乙并没有直接把P2提高到1.0，这是因为我之前的假设（3）。这个假设也可以通俗地理解如下：乙虽然越来越发现甲好像一直藏的是10块，但侥幸心理让他还是经常猜20，万一甲这次藏了20呢。当然，时间长了，乙猜20的频率会越来越低，表现在P2随时间的上升。表现为图中蓝线的上升。

（a~b）段
随着P2的上升，P2到达了一个突破点：25/60. 这时，甲的收益率会变成P1的减函数。这时候，甲应该减小P1了。
即使甲不懂数学，他也会开始减小P1。因为他会突然发现最近开始输多赢少了，他认为这是因为乙猜10块的次数增多的缘故。于是他也偶尔藏一藏20，表现在红线的下降。同样的，由于假设（3），甲并没有直接把P1降到0.
对于乙来说，收益仍然是P2的增函数，于是他继续增加P2。表现在蓝线的继续上升。

（b~c）段
同样的，随着P1的下降，P1也到达了一个突破点：35/60. 这时，乙的收益率会变成P2的减函数。这时候，乙应该停止增加P2了。于是蓝线转而向下。
通俗地解释一下，乙从游戏开始以来就不断增加猜10块的概率，并在a点成功逆转了输赢。但是乙突然发现，最近又开始输多赢少了。这是因为，随着P1减小，甲藏20块的情况越来越多。于是乙又开始增加猜20的频率，表现在P2的下降。
同样的，甲在这一段并不会改变自己降低P1的策略，因为现在他的收益仍然是P1的减函数。

那么后面的逻辑就很简单了，每当P1突破35/60，或P2突破25/60.对方都会改变自己的策略变化方向，那么这样下去结果只有一个，两人的策略都收敛到临界概率，即=35/60和=25/60。

对于题主的第一个问题，我认为，纳什均衡并不是假设在游戏开始后策略不改变，而是一个动态的平衡，双方根据对结果的分析调整自己的策略，最后达到一种均衡。所以题主说的假设“在游戏开始后策略不改变”我觉得是不对的，可能是我们表述和理解的问题。
对于题主的第二个问题，我也不清楚，但我觉得这个问题应该可以用数值实验来解答。可以建立一个模型，我们人工调整甲或乙的策略，来试验那种策略最终受益更多。
第三个问题，我认为这种均衡在两个个人之间很可能无法观测到。因为个体不大可能满足前面提到的几个假设。例如，乙可能是不理性的，他发现全部猜20块总输，可能会突然变成全猜10块，这样一来，图中的两条曲线很可能不会收敛到平衡值，而是永远震荡下去。但是在生物群之间很可能发生，因为总体的统计规律应该是连续变化的。另外企业和企业之间也可能发生，因为企业有大量专业的分析管理人员，他们的行为比个体更加谨慎。

戈比硬币甲藏起一枚 10 或 20 戈比的硬币，乙猜对则得到硬币，猜错则给甲 15 戈比。双方最优策略是什么？

———————————————2016年11月17日————————————————

根据@的建议，用python模拟了一下。代码如下：
import matplotlib.pyplot as plt

def b1(p1,p2):
b=(35.-60.*p2)*p1-(20.-35.*p2)
return b

def b2(p1,p2):
b=(60.*p1-35.)*p2+(20.-35.*p1)
return b

p1=1.0
p2=0.0
p1_i=[]
p2_i=[]
b1_i=[]
b2_i=[]

balance=[35./60]

p1_i.append(p1)
p2_i.append(p2)
b1_i.append(b1(p1,p2))
b2_i.append(b2(p1,p2))

step_i=[]
step_i.append(0)

for i in range(1,100001):

# step1=(15.-b1(p1,p2))*0.00001
# step2=(20.-b2(p1,p2))*0.00001
step1=0.001 # 与@相同，采用固定步长0.1%
step2=0.001 # 与@相同，采用固定步长0.1%

if((35.-60.*p2)>=0.):
p1=p1+step1
else:
p1=p1-step1

p1=min(1.0,p1)
p1=max(0.0,p1)

if((60.*p1-35.)>=0.):
p2=p2+step2
else:
p2=p2-step2

p2=min(1.0,p2)
p2=max(0.0,p2)

p1_i.append(p1)
p2_i.append(p2)
b1_i.append(b1(p1,p2))
b2_i.append(b2(p1,p2))
step_i.append(i)
balance.append(35./60)

plt.plot(step_i,p1_i,"r")
plt.plot(step_i,p2_i,"g")
plt.plot(step_i,balance,"b")

这里与@相同，采用固定步长0.1%，结果是不收敛
原谅本人比较懒，没标注横纵坐标。横坐标是时间步，红线是P1的演化，绿线是P2的演化。蓝线是理论平衡位置。结果是不收敛。原谅本人比较懒，没标注横纵坐标。横坐标是时间步，红线是P1的演化，绿线是P2的演化。蓝线是理论平衡位置。结果是不收敛。

下面使用与收益相关的步长：
step1=(15.-b1(p1,p2))*0.00001
step2=(20.-b2(p1,p2))*0.00001

这个模型我是这么考虑的：甲的收益最高是15，乙的最高是20。我假定当人收益高的时候倾向于维持现状，步长较小，收益低了要革命，步长较大。
快收敛了，但收敛不彻底。快收敛了，但收敛不彻底。
两人的收益：
居然稳定在了正负5/12，正如题主所说，不太公平。但是虽然不公平，这个平衡确实可以实现的。这也是纳什均衡的结果。居然稳定在了正负5/12，正如题主所说，不太公平。但是虽然不公平，这个平衡确实可以实现的。这也是纳什均衡的结果。 2/2 首页上一页 1 2

戈比硬币

爱华网本文地址 » http://www.aihuau.com/a/81440103/5390.html

戈比硬币甲藏起一枚 10 或 20 戈比的硬币，乙猜对则得到硬币，猜错则给甲 15 戈比。双方最优策略是什么？

更多阅读

表态课堂一分钟，教你选一枚卡地亚蓝气球——从A-Z分解蓝气球卡地亚蓝气球真假对比

史上今天印度一枚捆绑式火箭发射失败印度火箭发射直播

一枚袁大头——民间异术后人的传奇经历一枚袁大头第五部

李戡：说什么李敖二世，还是一枚娃娃而已 - 慕容莲生的日志 - 网宋莲生

一枚袁大头一枚袁大头第三部龟兹

声明:《戈比硬币甲藏起一枚 10 或 20 戈比的硬币，乙猜对则得到硬币，猜错则给甲 15 戈比。双方最优策略是什么？》为网友不合群分享！如侵犯到您的合法权益请联系我们删除

更多阅读

表态课堂 一分钟，教你选一枚卡地亚蓝气球——从A-Z分解蓝气球 卡地亚蓝气球真假对比

史上今天 印度一枚捆绑式火箭发射失败 印度火箭 发射 直播

一枚袁大头——民间异术后人的传奇经历 一枚袁大头第五部

李戡：说什么李敖二世，还是一枚娃娃而已 - 慕容莲生的日志 - 网 宋莲生