人人书

博弈论:决策制胜的法则全文阅读

外国小说文学理论侦探推理惊悚悬疑传记回忆杂文随笔诗歌戏曲小故事
人人书 > 科普学习 > 博弈论:决策制胜的法则

没有均衡点的博弈方法:混合策略

书籍名:《博弈论:决策制胜的法则》    作者:乔迪·德罗夫
推荐阅读:博弈论:决策制胜的法则txt下载 博弈论:决策制胜的法则笔趣阁 博弈论:决策制胜的法则顶点 博弈论:决策制胜的法则快眼 博弈论:决策制胜的法则sodu
上一章目录下一章
    《博弈论:决策制胜的法则》没有均衡点的博弈方法:混合策略,页面无弹窗的全文阅读!



很多具有竞争色彩的博弈和通过此类博弈来模拟的情境都无法运用纯策略来破解,因为它们没有均衡点。任何玩家往往都没有主导的纯策略,即无论何时都最有利于玩家的策略。在这样的情况下,玩家双方都不应该透露自己的策略,而是要尽量保密,甚至设法欺骗对手。比如打扑克的时候,玩家就会尝试欺骗对手,除非万不得已,绝不让对方知道自己的牌。



确定最佳混合策略


我们回顾一下本章第一部分中讨论的第三场也就是最后一场博弈。玩家可以写的数字有两个:玩家A可以写1或8,玩家B可以写7或2。如果双方写下数字的奇偶性相同(都是偶数或者都是奇数),A就获得收益,数额为A写下的数字;相反,B获得收益,数额为B写下的数字。

该博弈的收益矩阵如下:

我们可以看出,两位玩家输赢的机会似乎均等(A能赢1英镑或8英镑,B能赢2英镑或7英镑),且该矩阵没有鞍点:极大极小值为-2,而极小极大值为1。因此,任何一方都没有纯策略。那我们来看一下,我们是否可以制定混合策略,从而确定其对弈值。混合策略的形成需要将一系列纯策略随机化。这时,我们需要根据每一种纯策略使用的频率,将概率分配给它们。比方说,在这个例子中,A有两种纯策略(写下1或写下8),B也一样。对A来说,概率p(写1)、p(写8),对B来说,概率p(写7)、p(写2),都要用来计算玩家潜在收益的最大数额。我们已知各种情况下玩家的收益和损失,就能确定该博弈的期望值。

首先,我们必须确定A必须分配给两种纯策略的概率。如果p为写8的概率,那1-p就是写1的概率。因此,如果B选择写7的策略,那么玩家A的期望收益值(V)就是:

V=1(1-p)+(-7)p,由此可得一次方程:V=1-8p。

相反,如果B选择写2的策略,那么玩家A的期望收益值(V)就变成:

V=(-2)(1-p)+8p,由此可得一次方程:V=10p-2。

玩家A希望不管B选择哪种策略,都能确定p的值,从而得出最高期望值。他可以通过解这个方程组得出p和V的值。这样一来,p=1/6,V=-1/3。

我们可以用同样的方式计算出玩家B的混合策略。假设写2的概率为p,那么写7的概率就是(1-p)。如果A选择写1的策略,那B的期望值就是:

V=2p+(-1)(1-p),由此可得一次方程:V=3p-1。

如果A选择写8的策略,那B的期望值就是:

V=(-8)p+7(1-p),即V=7-15p。

玩家B希望不管A选择哪种策略,都能确定p的值,从而得出最高期望值。他可以通过解这个方程组得出p和V的值。这样一来,p=4/9,V=1/3。

这里采用的方法可以扩展到2×2的矩阵中,这样我们就可以利用混合策略破解没有鞍点的博弈了。现在我们将上述结果更加详细地分析一下。首先,我们能够看到,对双方来说,期望值都是相同的(V=1/3),只有一个符号不同:A的期望值是负数,表示A会输,而B的期望值是正数,说明B会赢得A输掉的钱。总之,该对弈值(A的平均余额)可以写成这样的算式:(ad-bc)/(a+d-b-c),这里的a、b、c、d都是收益矩阵中的数值(从左到右,从上到下)。因此,这里的对弈值是:(8-14)/18=-6/18=-1/3。由此看出,平均而言,A每三局输掉1英镑,前提是双方都采用最优策略。

我们也可以直接确定A和B的混合策略。实际上,我们可以通过考虑每一行中A的收益或损失来计算出A选择这种或那种纯策略的比例。具体算法如下:1-(-2)=3(第一行),-7-8=-15(第二行)。所以,很明显,A的最优策略就是按照15∶3的比例随机进行,也就是写1和写8的比例是5∶1。这就好比掷骰子,骰子的五个面上写1,一个面上写8。请注意,这个结果同我们之前解方程组得到的结果是一样的,写8的概率只能是1/6,那么写1的概率就是5/6。

同样,对于玩家B来说,就要计算每一列上的数据:第一列:1-(-7)=8,第二列:-2-8=-10。所以B必须按照10∶8的比例随机进行,也就是写7和写2的比例是5∶4。这个结果也跟我们之前解方程组的结果一致,写2的概率是4/9,写7的概率是5/9。

现在,我们可以为两位玩家制定最佳混合策略了:A要随机选择写1(概率为5/6)或写8(概率为1/6)。同样,B要随机选择写7(概率为5/9)或写2(概率为4/9)。

总之,即使该博弈仍然没有鞍点,我们也能保证,如果双方都选择最佳混合策略,那B的平均收益是每局0.33英镑。如果B选择任何其他策略,而A保持不变,那B的收益就会降低。但如果B保持原有的最佳混合策略,而A发生了改变,那A的损失就会增加。



上一章目录下一章
推荐书籍:恋爱中的苏格拉底:哲学入门十讲 表达力:人生情商课 岸萤 儿童发展心理学 记忆记忆 南货店 萨缪尔森传:现代经济学奠基者的一生·第一卷 希特勒最后的阴谋 我想要两颗西柚 舍不得看完的中国史:秦并天下