混合策略的应用

《博弈论：决策制胜的法则》混合策略的应用,页面无弹窗的全文阅读!

在上一小节中，我们通过举例深入分析了如何通过为玩家双方制定混合策略来破解一场博弈，但前提是我们要先看其收益矩阵，判定其没有鞍点，即极小极大值和极大极小值并不一致。为了让问题更加清晰明确，我们在举例时选择了抽象博弈，而没有涉及其他有具体意义的情境，以便于读者集中关注收益矩阵的对弈值分析。

接下来，我们再通过另一个例子，看一下如何将这种方法运用到现实生活中去。

极小极大定理

在所有的有限双人零和博弈中，都有一个对弈值，也就是在双方公平博弈的前提下，A期望从B那里赢取的平均收益值。这里的公平博弈是指双方都会尽量使自己的利益最大化。

该定理是博弈论中最重要的理论，并在本章中以不同方式加以应用。提出并证实该定理的是冯·诺依曼，他认为该定理具有可行性，主要有以下三个原因：

对第一位玩家来说，存在某种能够使其利益最大化的策略，并能保证其获得确定的收益（即平均对弈值），且第二位玩家无法加以干扰。

对第二位玩家来说，也存在某种能够使其利益最大化的策略，并能保证其损失不高于一个确定的值（即平均对弈值），且第一位玩家无法加以干扰。

在零和博弈中，第一位玩家的收益就是第二位玩家的损失。这就意味着，假如存在该平均对弈值，玩家双方就要分别接受相应的收益或损失，因为任何其他的策略都会使其偏离该对弈值，继而遭受利益上的损害。

企业发展前景

某企业开发了一项新产品，并对其未来一年的市场投放进行评估。如果经济形势乏力，他们就降低产量；如果未来经济复苏，销售前景看好，他们就进行大规模生产。预期利润（千英镑）见下表：

企业管理部门在做决议时，假设经济形势的变化规律遵循某种最佳混合策略。那该企业的最佳混合策略是什么？预期收益是多少？

我们从矩阵中的数值可以看出，不存在单纯的最优策略，因为该矩阵没有鞍点（极大极小值=300，极小极大值=500）。因此，我们必须确定其最优混合策略。

假设大规模生产的概率为p，那小规模生产的概率就是（1-p），期望值是V。那么，如果经济形势不好，期望值就是：

V=500（1-p）+100p，即：V=500-400p。

相反，如果经济形势复苏，期望值则是：

V=300（1-p）+900p，即V=300+600p。

解方程组可得：p=1/5，V=420。该结果表明，如果这种情况多次出现，那最佳混合策略就是随机采用1/5的大规模生产策略和4/5的小规模生产策略，平均预期利润为420000英镑。

V=（ad-bc）/（a+d-b-c），a、b、c、d都是收益矩阵中的数值（从左到右，从上到下）。在这里，我们就能得出：（500·900-300·100）/（500+900-300-100）=420000/1000=420。显然，这个结果跟之前我们解一次方程组得出的结果完全相同。

另外，我们在解决这个问题时，首先假设经济形势的变化也将遵循最佳混合策略。通过计算得出，经济形势良好的概率为2/5，那么经济形势乏力的概率就是1-2/5=3/5。