人人书

博弈论:决策制胜的法则全文阅读

外国小说文学理论侦探推理惊悚悬疑传记回忆杂文随笔诗歌戏曲小故事
人人书 > 科普学习 > 博弈论:决策制胜的法则

第四章 博弈论

书籍名:《博弈论:决策制胜的法则》    作者:乔迪·德罗夫
推荐阅读:博弈论:决策制胜的法则txt下载 博弈论:决策制胜的法则笔趣阁 博弈论:决策制胜的法则顶点 博弈论:决策制胜的法则快眼 博弈论:决策制胜的法则sodu
上一章目录下一章
    《博弈论:决策制胜的法则》第四章 博弈论,页面无弹窗的全文阅读!



90%的数学成果都超出了实际需要的范畴,都来自对谜题答案的探索。

——让·迪厄多内(Jean Dieudonné)

博弈论是数学的一个分支,主要用于决策制定。它适用于存在冲突的各种情境,参与者在不知道对方决策的情况下,必须制定出能够使自己利益最大化的决策。该理论是基于抽象游戏形成的,并由此得名,不过其实际意义并不在于游戏本身,而在于将游戏的理念应用于各种问题的分析和解决。

本章的研究重点是存在竞争的双人零和博弈。术语“零和”是指一方的收益必然等于另一方的损失,也就是说,赢家只有一个,获得全部收益。各方一定会设法采取对自己最有利的行动,更确切地说,就是让自己的收益最大化。换句话说,各方的最终目的都是将全部收益收入囊中。



博弈论原理


在介绍博弈论之前,我们先来看三个不同难度的游戏,其中蕴含了几个贯穿本章和下一章的重要概念。需要说明的是,尽管该理论包含“博弈”一词,从而谈及游戏、玩家、回合、策略、平衡的游戏、游戏的价值等等,但实际上,我们这里提出的任何情境都与我们在前几章中提到的“游戏”术语不是一回事。更好的方法是想象某个情境或者冲突,最初发生在两人(或两个群体)之间,规则决定了双方同时做出可行的对策,而不是像第二章中轮流行动。这就意味着,他们在不知道对方策略的情况下,一方得益,另一方损失。因此,从现在开始,我们要探讨的内容包括:博弈——代指某些情境;玩家——某一情境中至少涉及两人;策略——任意一方都将做出相当于游戏招数的决策;收益——更清楚地说,每次决策造成的利益得失。

为了对博弈论的基本原理建立初步认识,我们先来看一个例子。这个例子非常简单,甚至算不上博弈。A、B两人必须同时写下数字1或2。B必须向A付钱,数额为两人写下的数字之和。显然,该博弈并不平衡,因为A一定会是赢家。然而,我们可以提出疑问,双方怎么做对自己有利?我们可以将该博弈看作一个矩阵,也就是收益矩阵,它可能会产生如下结果:

该矩阵中的数字就是B必须支付给A的数额,这要看双方选择的策略(双方各有两种可能的做法,从而产生了矩阵中的四种结果)。由于该博弈十分简单,因此一目了然,假如双方都从自己的利益出发,A就会写2,而B就会写1,那么A的收益为3英镑。

博弈论的先驱

早在17世纪,科学家已经提出建立一门学科,利用科学方法研究人类行为和冲突,比如克里斯蒂安·惠更斯(1629-1695)和G.W.莱布尼茨(1646-1716),但他们并没有取得重要成果。然而到了18世纪,从这个角度分析游戏的相关作品仍然十分罕见。不过,1713年,詹姆斯·瓦尔德格雷夫(James Waldegrave)在信中提出了一种仅限双人的扑克牌玩法。该方法与现在的一种混合策略类似,他利用其提出了极大极小的破解方案。但是,该方案没有形成理论,也没有进行扩展,从而无法应用到其他情境中去。

德国哲学家G.W.莱布尼茨,在数学领域颇有建树

19世纪,多位经济学家建立了简单的数学模型,用于分析基本的竞争情况。其中包括安东尼·奥古斯丁·库尔诺的《关于财富理论之数学原则的研究》(1838),该著作阐述了双头垄断,并提出了解决方案,该方案可以被视为纳什均衡的一种具体情况。然而,从根本上说,直到20世纪,博弈论才发展成一种具有充分依据的数学分支。

为了弄清楚双方如何获得收益,我们需要对他们的做法做进一步分析:由于A不知道B的做法,他肯定会假设,B会尽量减少其付钱的数额。这样一来,A如果写下1,他的收益至少是2英镑,如果写下2,他的收益则至少是3英镑。我们将3(矩阵左下角的数字)称为极大极小值(即最小值中的最大值)。同样,B也会假设,A会设法得到最大的收益。所以B如果写下1,就会最多损失3英镑,如果写下2,就会最多损失4英镑。我们将3称为极小极大值(即最大值中的最小值)。就像这个例子,如果某博弈的极大极小值和极小极大值位于同一格中,那该博弈就可以说是“严格确定的”,并且有一个鞍点(就好比一个马鞍和两条正交曲线,一条有最小值,另一条有最大值,交点就是一条线的最小值和另一条线的最大值重合的点)。

鞍点对应的数值就是对弈值,也就是这个例子中的3英镑。只要双方都实施最优策略,就一定会得出这个数值。如果有一方采取了不同的做法(即运用另外一种策略),其对手就能提高对弈值,从而增加收益或减少损失,具体是哪种情况,还要看他是A还是B。这种博弈也可以称为确定博弈,存在纯策略。

现在,我们来看另一种博弈,双方的策略也具备以上条件,但不同的是收益矩阵,这次是建立在平等标准之上的:如果双方写下的数字相同,A赢1英镑,反之,B赢1英镑。

现在,A的极大极小值是-1(两个最小值都是-1),而B的极小极大值是1(两个最大值都是1);这一差异意味着这场博弈没有鞍点,如此一来,也就没有纯策略。如果A采取某种策略(比如总写1),要是B发现了,B就会顺理成章地写2,那他就总能赢1英镑。由于该博弈非常简单,且具有对称性,那最优策略就是1和2都要有,这样对手就找不到规律了。所以,最优策略就是行动随机,比如抛硬币,正面朝上写1,反面朝上写2。在这种情况下,纯策略根本无从谈起,因为这里面必然包含运气因素,无法提前确定。如果最优策略牵扯运气,而且不能公开,我们就可以考虑“混合策略”。

这两个例子都是比较极端的情况。在第一个例子中,博弈是由纯策略的选择来确定的,因为如果双方都采用最优策略,那结果将是一致的,我们称之为“对弈值”。而在第二个例子中,预先确定的策略并不一定会产生最佳的结果。要想获得最佳结果,唯一的办法就是运用随机策略,也就是“混合策略”。

现在我们来看另一种博弈,跟之前的例子类似,但是双方的最优策略分析起来要复杂得多。和之前一样,双方可以写下两个数字。A可以写1或8,B可以写7或2。如果双方写下数字的奇偶性相同(都是偶数或者都是奇数),A就赢得收益,数额为A写下的数字;相反,B则赢得收益,数额为B写下的数字。

该博弈的收益矩阵如下:

记住,该收益矩阵中的数字都是针对A的收益来看的;所以,如果B赢的话,就会记为负数,表示A的损失。A能赢1英镑或8英镑,而B能赢2英镑或7英镑。该矩阵没有鞍点;极大极小值为-2(-2>-7),而极小极大值为1(1<8)。事实上,在一个2×2的矩阵中,如果一条对角线上的数值大于其他两个数值,就不会有鞍点。这意味着,该博弈无法确定,没有纯策略。在之前的博弈中,双方的最优策略就是选择随机行动,从而平衡收益。但是,这种情况就不一样了,B是有制胜策略的。尽管双方还是要采用一定程度的随机行为,但其最优策略并不是那么绝对。双方都可以按照一定的比例来做决定。因此,我们可以利用双方的混合策略来破解这场博弈。我们之后还会再来探讨博弈的结果,以及双方最优策略的确定。

你或许已经发现,在用矩阵来呈现的各类博弈当中,各行列出的是第一位玩家的不同策略,各列列出的是第二位玩家的不同策略。这称作博弈的“正规形式”,也是最常见的双人同时做出举动的博弈模式,在我们进行博弈论分析的大多数情境中都会出现。还有另一种呈现方法,我们称之为博弈的“扩展形式”,即用树形图来呈现所有的步骤。最适合该形式的是双方轮流做出举动的博弈。第二章中探讨的大多数游戏皆属此类。

博弈论的诞生

20世纪初,有些科学家已经开始尝试形成某种理论框架。到20世纪中期,该框架不断发展,形成了当今博弈论的理论基础。第一条普遍定理是由恩斯特·策梅洛(Ernst Zermelo,1871-1953)证实的,相关著作最终于1912年完成。该定理的内容为:对于任何有限完全信息博弈(比如国际跳棋或国际象棋)来说,都存在基于纯策略的最佳解决方案,也就是说不需要考虑随机因素。然而,该定理只证实了该解决方案的存在,至于如何寻找这样的策略,却几乎没有说明。

法国数学家埃米尔·博雷尔在概率论领域进行了大量研究

1920年,伟大的数学家埃米尔·博雷尔(Émile Borel)对该新兴理论产生了兴趣,并引入了混合策略(即包含随机因素的策略)的概念。不久,约翰·冯·诺依曼开始了该领域的研究,并于1928年提出并证实了极大极小定理,该定理后来成为博弈论发展的关键一步。该理论的内容为:在双人有限博弈中,有一个平均值,在公平博弈的前提下,该平均值代表玩家A可以从玩家B那里获得的收益,也就是玩家A努力获得的最大收益,或者最少损失。



上一章目录下一章
推荐书籍:恋爱中的苏格拉底:哲学入门十讲 表达力:人生情商课 岸萤 儿童发展心理学 记忆记忆 南货店 萨缪尔森传:现代经济学奠基者的一生·第一卷 希特勒最后的阴谋 我想要两颗西柚 舍不得看完的中国史:秦并天下