博弈论——纳什均衡_资讯

纳什均衡,Nash equilibrium,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。——。

简单地说，纳什均衡就是别人采取那样的策略，我不得不采取这样的策略，在别人不改变策略的情况下，我也无法采取别的策略，如如形成了一种“非合作博弈均衡”。

你可能听说过这个故事。老师让全班所有的同学想一个0到100之间的整数，说谁想的数字最接近全班平均值的2/3,谁就获胜。那么聪明的学生就会这么想：假设如果全班的同学都随机选了一个数字，那么平均值就是50，我的答案应该是50的2/3，也就是33；如果再进一步想，如果大部分的同学都足够聪明，想的也是33，那么平均值就变成了33，那么更聪明的我答案就要变成22。但是如果全班的同学也足够聪明，想到了22，那么我的答案就是22/32=14。所以假定所有的学生都会这一样一步一步的推理，最后得出的答案就是0。而事实上没有哪个班的学生能聪明到这个程度，也就是给那个最极端的答案0

生活中的大多数人也不会聪明到那个程度，去做那个极端的推理并执行。但是博弈论可以帮助我们理解社会上一个看似复杂又矛盾的现象。比如为中小学生“减负”的呼声一直没断过，中学生作业多、任务重已成为一个事实，很多学生晚上要花3个小时甚至4个小时做作业，到了晚上11点、12点还不能睡觉，周末的各学科的练习卷会有十几二十份，根本没有玩的时间。但是与此同时，在周末或者晚上很多家长又把孩子送出去加各种各样的兴趣班、辅导班。这不是让孩子的负担更重了吗？难道大多数的家长不知道孩子的学业已经很沉重了吗？

难道学校的想布置这么多作业吗？难道学习喜欢做作业到深夜吗？难道家长喜欢晚上周末不怨其烦的送孩子去各种班吗？答案当然都是不是。有人这些都是被逼的。不错，其实这是三个“纳什均衡”。

先看学校的老师为什么要布置这么多的作业。那是因为别的学校也布置了那么多的作业。如果自己的学科不布置那么多的作业，那么学生的各项学科技能（考试成绩）将落后于同一地区的兄弟学校。这是老师不远看到的，也是学校领导不愿意遇见的，很多时候也是家长的意愿，即想看到我的孩子有个好成绩。

再看学生为什么不得不完成那么多的作业。其实也是被逼的。同班同学都完成了，为什么你完不成？这是老师的责问。同班同学都完成了，为什么我完不成？这是自我能力的怀疑。所以孩子们都孜孜不倦地完成了一天数个小时的作业量。完不成的孩子，要么已经完成了自我否定，破罐子破摔，成了老师、家长眼中的“差生”；要么鼓起勇气对抗到底，成了老师、家长眼中的“顽劣”、熊孩子。

最后家长为什么要送孩子去各种兴趣班、辅导班。那是因为别的家长也把孩子送过去了。别家的孩子去某某钢琴班，考了个十级被某学校提前录取了；那家的孩子去了舞蹈班拿了个金奖，都去北京演出了；哪家的孩子去了哪个辅导班，成绩一下子提高了30分，上次考试都进了班级前10名。所以没有哪个家长是做得住的，不管孩子有多少兴趣，有没有时间玩自己的游戏，都得送过去。

理解了博弈论中“纳什均衡”，可以帮助我们懂得人生中的很多无奈。我想这也是自我修养的一种提升。

要使用博弈模型解决公路超载问题，可以考虑以下步骤：

1 定义参与者：确定涉及公路超载问题的各方参与者，例如政府管理机构、运输公司和个体车主。

2 确定策略空间：为每个参与者定义可行的策略集合，这些策略可以包括载重限制、路线选择、运输时间等。

3 确定收益函数：为每个参与者定义收益函数，该函数量化了他们的利益与所选策略的关系。例如，政府可能关注公路安全和维护，运输公司可能关注运输成本和客户满意度。

4 建立博弈模型：根据参与者、策略和收益函数，构建适当的博弈模型，如博弈论中的非合作博弈模型，可以使用博弈论中的标准形式或扩展形式。

5 分析和求解：使用适当的博弈求解技术，如纳什均衡或其他解概念，分析模型并找到可能的均衡解。

6 评估和实施策略：基于模型的结果，评估不同策略的影响和效果，并制定相应的政策或措施来解决公路超载问题。这可以包括制定合理的载重限制、优化路网规划、调整运输成本和激励措施等。

需要注意的是，博弈模型的准确性和预测能力受到模型假设的限制和数据可用性的影响。因此，在实际应用中，模型的构建和求解应结合实际情况和数据，并与交通管理部门和利益相关方进行合作和讨论，以确保所采取的策略和措施的可行性和有效性。

1博弈论是指某个个人或是组织，面对一定的环境条件，在一定的规则约束下，依靠所掌握的信息，从各自选择的行为或是策略进行选择并加以实施，并从各自取得相应结果或收益的过程，在经济学上博奕论是个非常重要的理论概念。

什么是博弈论？古语有云，世事如棋。生活中每个人如同棋手，其每一个行为如同在一张看不见的棋盘上布一个子，精明慎重的棋手们相互揣摩、相互牵制，人人争赢，下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们 “出棋” 着数中理性化、逻辑化的部分，并将其系统化为一门科学。换句话说，就是研究个体如何在错综复杂的相互影响中得出最合理的策略。事实上，博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化，通过建立自完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情，以最简单的二人对弈为例，稍想一下便知此中大有玄妙：若假设双方都精确地记得自己和对手的每一步棋且都是最“理性” 的棋手，甲出子的时候，为了赢棋，得仔细考虑乙的想法，而乙出子时也得考虑甲的想法，所以甲还得想到乙在想他的想法，乙当然也知道甲想到了他在想甲的想法…

面对如许重重迷雾，博弈论怎样着手分析解决问题，怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢？现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立，1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》，标志着现代系统博弈理论的初步形成。对于非合作、纯竞争型博弈，诺伊曼所解决的只有二人零和博弈--好比两个人下棋、或是打乒乓球，一个人赢一着则另一个人必输一着，净获利为零。在这里抽象化后的博弈问题是，已知参与者集合(两方) ，策略集合(所有棋着) ，和盈利集合(赢子输子) ，能否且如何找到一个理论上的“解” 或“平衡” ，也就是对参与双方来说都最“合理” 、最优的具体策略？怎样才是“合理” ？应用传统决定论中的“最小最大” 准则，即博弈的每一方都假设对方的所有功略的根本目的是使自己最大程度地失利，并据此最优化自己的对策，诺伊曼从数学上证明，通过一定的线性运算，对於每一个二人零和博弈，都能够找到一个“最小最大解” 。通过一定的线性运算，竞争双方以概率分布的形式随机使用某套最优策略中的各个步骤，就可以最终达到彼此盈利最大且相当。当然，其隐含的意义在於，这套最优策略并不依赖于对手在博弈中的操作。用通俗的话说，这个著名的最小最大定理所体现的基本“理性” 思想是“抱最好的希望，做最坏的打算” 。

2在经济学中，“智博弈”（Pigs’payoffs）是一个著名博弈论例子。

这个例子讲的是：圈里有两头，一头大，一头小。圈的一边有个踏板，每踩一下踏板，在远离踏板的圈的另一边的投食口就会落下少量的食物。如果有一只去踩踏板，另一只就有机会抢先吃到另一边落下的食物。当小踩动踏板时，大会在小跑到食槽之前刚好吃光所有的食物；若是大踩动了踏板，则还有机会在小吃完落下的食物之前跑到食槽，争吃到另一半残羹。

那么，两只各会采取什么策略？答案是：小将选择“搭便车”策略，也就是舒舒服服地等在食槽边；而大则为一点残羹不知疲倦地奔忙于踏板和食槽之间。

原因何在？因为，小踩踏板将一无所获，不踩踏板反而能吃上食物。对小而言，无论大是否踩动踏板，不踩踏板总是好的选择。反观大，已明知小是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。

“小躺着大跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。

如果改变一下核心指标，圈里还会出现同样的“小躺着大跑”的景象吗？试试看。

改变方案一：减量方案。投食仅原来的一半分量。结果是小大都不去踩踏板了。小去踩，大将会把食物吃完；大去踩，小将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。

如果目的是想让们去多踩踏板，这个游戏规则的设计显然是失败的。

改变方案二：增量方案。投食为原来的一倍分量。结果是小、大都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小和大相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。

对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让们去多踩踏板的效果并不好。

改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小和大都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。

对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。

原版的“智博弈”故事给了竞争中的弱者（小）以等待为最佳策略的启发。但是对于社会而言，因为小未能参与竞争，小搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

比如，公司的激励制度设计，奖励力度太大，又是持股，又是期权，公司职员个个都成了百万富翁，成本高不说，员工的积极性并不一定很高。这相当于“智博弈”

增量方案所描述的情形。但是如果奖励力度不大，而且见者有份（不劳动的“小”也有），一度十分努力的大也不会有动力了----就象“智博弈”减量方案一所描述的情形。最好的激励机制设计就象改变方案三----减量加移位的办法，奖励并非人人有份，而是直接针对个人（如业务按比例提成），既节约了成本（对公司而言），又消除了“搭便车”现象，能实现有效的激励。

许多人并未读过“智博弈”的故事，但是却在自觉地使用小的策略。股市上等待庄家抬轿的散户；等待产业市场中出现具有赢利能力新产品、继而大举仿制牟取暴利的游资；公司里不创造效益但分享成果的人，等等。因此，对于制订各种经济管理的游戏规则的人，必须深谙“智博弈”指标改变的个中道理。

3背景知识：纳什博弈论的原理与应用

http://entsinacomcn 2002年03月21日17:44 北京晚报

1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。然而，纳什天才的发现却遭到冯·诺依曼的断然否定，在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性，使纳什坚持了自己的观点，终成一代大师。要不是30多年的严重精神病折磨，恐怕他早已

站在诺贝尔奖的领奖台上了，而且也绝不会与其他人分享这一殊荣。

纳什是一个非常天才的数学家，他的主要贡献是1950至1951年在普林斯顿读博士学位时做出的。然而，他的天才发现———非合作博弈的均衡，即“纳什均衡”并不是一帆风顺的。

1948年纳什到普林斯顿大学读数学系的博士。那一年他还不到20岁。当时普林斯顿可谓人杰地灵，大师如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系主任)、阿尔伯特·塔克、阿伦佐·切奇、哈罗德·库恩、诺尔曼·斯蒂恩罗德、埃尔夫·福克斯……等全都在这里。博弈论主要是由冯·诺依曼(1903—1957)创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论，而且发明了计算机。早在20世纪初，塞梅鲁(Zermelo)、鲍罗(Borel)和冯·诺伊曼已经开始研究博弈的准确的数学表达，直到1939年，冯·诺依曼遇到经济学家奥斯卡·摩根斯特恩(Oskar Morgenstern)，并与其合作才使博弈论进入经济学的广阔领域。

1944年他与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如，1838年古诺(Cournot)简单双寡头垄断博弈；1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈———“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃”，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的10月，他骤感才思潮涌，梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950年11月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯·诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔听得很认真，他终于意识到纳什的思路比冯·诺伊曼的合作博弈的理论更能反映现实的情况，而对其严密优美的数学证明极为赞叹。盖尔建议他马上整理出来发表，以免被别人捷足先登。纳什这个初出茅庐的小子，根本不知道竞争的险恶，从未想过要这么做。结果还是盖尔充当了他的“经纪人”，代为起草致科学院的短信，系主任列夫谢茨则亲自将文稿递交给科学院。纳什写的文章不多，就那么几篇，但已经足够了，因为都是精品中的精品。这一点也是值得我们深思的。国内提一个教授，要求在“核心的刊物”上发表多少篇文章。按照这个标准可能纳什还不一定够资格。

1996年诺贝尔经济学奖得主莫尔里斯当牛津大学艾奇沃思经济学讲座教授时也没有发表过什么文章，特殊的人才，必须有特殊的选拔办法。

纳什在上大学时就开始从事纯数学的博弈论研究，1948年进入普林斯顿大学后更是如鱼得水。20岁出头已成为闻名世界的数学家。特别是在经济博弈论领域，他做出了划时代的贡献，是继冯·诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡的概念在非合作博弈理论中起着核心的作用。后续的研究者对博弈论的贡献，都是建立在这一概念之上的。由于纳什均衡的提出和不断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、军事科学等领域奠定了坚实的理论基础。

囚犯的两难处境

大理论中的小故事

要了解纳什的贡献，首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲“囚犯的两难处境”的例子，每本书上的例子都大同小异。

博弈论毕竟是数学，更确切地说是运筹学的一个分支，谈经论道自然少不了数学语言，外行人看来只是一大堆数学公式。好在博弈论关心的是日常经济生活问题，所以不能不食人间烟火。其实这一理论是从棋弈、扑克和战争等带有竞赛、对抗和决策性质的问题中借用的术语，听上去有点玄奥，实际上却具有重要现实意义。博弈论大师看经济社会问题犹如棋局，常常寓深刻道理于游戏之中。所以，多从我们的日常生活中的凡人小事入手，以我们身边的故事做例子，娓娓道来，并不乏味。话说有一天，一位富翁在家中被杀，财物被盗。警方在此案的侦破过程中，抓到两个犯罪嫌疑人，斯卡尔菲丝和那库尔斯，并从他们的住处搜出被害人家中丢失的财物。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离，分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。检察官说，“由于你们的偷盗罪已有确凿的证据，所以可以判你们一年刑期。但是，我可以和你做个交易。如果你单独坦白杀人的罪行，我只判你三个月的监禁，但你的同伙要被判十年刑。如果你拒不坦白，而被同伙检举，那么你就将被判十年刑，他只判三个月的监禁。但是，如果你们两人都坦白交代，那么，你们都要被判5年刑。”斯卡尔菲丝和那库尔斯该怎么办呢？他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖，结果是大家都只被判一年。但是由于两人处于隔离的情况下无法串供。所以，按照亚当·斯密的理论，每一个人都是从利己的目的出发，他们选择坦白交代是最佳策略。因为坦白交代可以期望得到很短的监禁———3个月，但前提是同伙抵赖，显然要比自己抵赖要坐10年牢好。这种策略是损人利己的策略。不仅如此，坦白还有更多的好处。如果对方坦白了而自己抵赖了，那自己就得坐10年牢。太不划算了！因此，在这种情况下还是应该选择坦白交代，即使两人同时坦白，至多也只判5年，总比被判10年好吧。所以，两人合理的选择是坦白，原本对双方都有利的策略(抵赖)和结局(被判1年刑)就不会出现。这样两人都选择坦白的策略以及因此被判5年的结局被称为“纳什均衡”，也叫非合作均衡。因为，每一方在选择策略时都没有“共谋”(串供)，他们只是选择对自己最有利的策略，而不考虑社会福利或任何其他对手的利益。也就是说，这种策略组合由所有局中人(也称当事人、参与者)的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。不妨让我们重温一下这位经济学圣人在《国富论》中的名言：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。因此，从“纳什均衡”中我们还可以悟出一条真理：合作是有利的“利己策略”。但它必须符合以下黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。

从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境”这样的例子。如价格战、军奋竞赛、污染等等。一般的博弈问题由三个要素所构成：即局中人(players)又称当事人、参与者、策略等等的集合，策略(strategies)集合以及每一对局中人所做的选择和赢得(payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。

价格战博弈：

现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战……这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐”。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡”，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡”。这个结果可能对消费者是有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论(vivalry game)其结果会如何呢？每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则：“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强反垄断的意义所在。

污染博弈：

假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世纪90年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。

贸易自由与壁垒：

这个问题对于刚刚加入WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。X国试图对Y国进行进口贸易限制，比如提高关税，则Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如X和Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。

参考资料：

完全信息静态博弈2007-06-02 11:42 一、完全信息静态博弈：纳什均衡

纳什均衡是著名博弈论专家纳什（John Nash）对博弈论的重要贡献之一。纳什在19

世纪50年1951年的两篇重要论文中，在一般意义上给定了非合作博弈及其均衡解，并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。

（一）占优策略均衡

占优策略（dominant strategies）是指这样一种特殊的博弈：某一参与人的策略可能并不依赖于其他参与人的策略选择。换句话说，无论其他参与人如何选择自己的策略，该参与人的最优策略选择是惟一的。

以博弈论中最为著名的囚犯困境（prisoner’s dilemma）为例，说明占优策略均衡原理。两个合伙作案的犯罪嫌疑人被警方抓获。警方怀疑他们作案，但警方手中并没有掌握他们作案的确凿证据。因而，对两个犯罪嫌疑人犯罪事实的认定及相应的量刑完全取决于他们自己的供认。假定警方对两名犯罪嫌疑人实行隔离关押，隔离审讯，每个犯罪嫌疑人都无法观察到对方的选择。同时，警方明确地分别告知两名犯罪嫌疑人，他们面临着以下几种后果可以用表10－2表示。该表又称为“收益矩阵或得益矩阵”。从表10－2中可以看出，每个犯罪嫌疑人都有两种可供选择的策略：供认或不供认。而且，每个犯罪嫌疑人选择的最优策略不依赖于其同伙的策略选择，

表10－2 囚犯困境的收益矩阵

囚犯B

供认不供认

囚犯A 供认

不供认

－8，－8 －1，－10

－10，－1 －2，－2

在博弈中，如果所有参与人都有占优策略存在，可以证明，博弈将在所有参与人的占优策略的基础上达到均衡，这种均衡称为占优策略均衡。上面提到的囚犯困境中的“A供认，B供认”就是占优策略均衡解。

囚犯困境的问题是博弈论中的一个基本的、典型的事例，类似问题在许多情况下都会出现，如寡头竞争、军备竞赛、团队生产中的劳动供给、公共产品的供给等等。同时，囚犯困境反映了一个深刻问题，这就是个人理性与团体理性的冲突。例如，微观经济学的基本观点之一，是通过市场机制这只“看不见的手”，在人人追求自身利益最大化的基础上可以达到全社会资源的最优配置。囚犯困境对此提出了新的挑战。

（二）重复剔除的占优策略均衡

在每个参与人都有占优策略的情况下，占优策略均衡是非常合乎逻辑的。但遗憾的是在绝大多数博弈中，占优策略均衡是不存在的。不过，在有些博弈中，我们仍然可以根据占优的逻辑找出均衡。

智猪博弈（boxed pigs）是博弈论中的另一个著名的例子。假设猪圈里有两头猪，一头大猪，一头小猪，猪圈的一端有一个猪食槽，另一端安装了一个按钮，控制猪食的供应。按一下按钮，将有8个单位的猪食进入猪食槽，供两头猪食用。两头猪场面临选择的策略有两个：自己去按按钮或等待另一头猪去按按钮。如果某一头猪作出自己去按按钮的选择，它必须付出如下代价：第一，它需要收益相当于两个单位的成本；第二，由于猪食槽远离猪食，它将比另一头猪后到猪食槽，从而减少吃食的数量。假定：若大猪先到（小猪按按钮），大猪将吃到7个单位的猪食，小猪只能吃到1个单位的猪食；若小猪先到（大猪场按按钮），大猪和小猪各吃到4个单位的猪食；若两头猪同时到（两头猪都选择等待，实际上两头猪都吃不到猪食），大猪吃到5个单位的猪食，小猪吃到3个单位的猪食。

智猪博弈的收益矩阵如表10－3所示。表中的数字表示不同选择下每头猪所能吃到的猪食数量减去按按钮的成本之后的净收益水平。

表10－3 智猪博弈的收益矩阵

小猪

按按钮等待

大猪按按钮

等待

3，1 2，4

7，－1 0，0

从表9－3中不难看出，在这个博弈中，不论大猪场选择什么策略，小猪的占优策略均为等待。而对大猪来说，它的选择就不是如此简单了。大猪场的最优策略必须依赖于小猪的选择。如果小猪选择等待，大猪的最优策略是按按钮，这是，大猪能得到个单位的净收益（吃到4个单位猪食减去2个单位的按按钮成本），否则，大猪的净收益为0；如果小猪选择按按钮，大猪的最优策略显然是等待，这时大猪的净收益为7个单位。换句话说，在这个博弈中，只有小猪有占优策略，而大猪没有占优策略。

那么这个博弈的均衡解是什么呢？这个博弈的均衡解是大猪选择按按钮，小猪选择等待，这是，大猪和小猪的净收益水平分别为2个单位和4个单位。这是一个“多劳不多得，少劳不少得”的均衡。

在找出上述智猪博弈的均衡解时，我们实际上是按照“重复剔除严格劣策略”（iterated elimination of strictly dominated strategies）的逻辑思路进行的。该思路可以归纳如下：首先找出某参与人的严格劣策略，将它剔除，重新构造一个不包括已剔除策略的新博弈；然后，继续剔除这个新的博弈中某一参与人的严格劣策略；重复进行这一过程，直到剩下惟一的参与人策略组合为止。剩下的话这个惟一的参与人组合，就是这个博弈的均衡解，称为“重复剔除的占有策略均衡”（iterated dominance equilibrium）。所谓“严格劣策略”（strictly dominated strategies）是指：在博弈中，不论其他参与人采取什么策略，某一参与人可能采取的策略中，对自己严格不利的策略。

由表10－3可以看出，无论大猪选择什么策略，小猪选择按按钮，对小猪是一个严格劣策略，我们首先加以剔除。在剔除小猪按按钮这一选择后的新博弈中，小猪只有等待一个选择，而大猪则有两个可供选择的策略。在大猪这两个可供选择的策略中，选择等待对大猪是一个严格劣策略，我们再剔除新博弈中大猪的严格劣策略等待。剩下的新博弈中只有小猪等待、大猪按按钮这一个可供选择的策略，就是智猪博弈的最后均衡解，从而达到重复剔除的占优策略均衡。

智猪博弈听起来似乎有些滑稽，但智猪博弈的例子在现实中确有很多。例如，在股份公司中，股东都承担着监督经理的职能，但是，大小股东从监督中获得的收益大小不一样。在监督成本相同相同的情况下，大股东从监督中获得的收益明显大于小股东。因此，小股东往往不会象大股东那样去监督经理人员，而大股东也明确无误地知道小股东会选择不监督（这是小股东的占优策略），大股东明知道小股东要搭大股东的便车，但是大股东别无选择。大股东选择监督经理的责任、独自承担监督成本是在小股东占优选择的前提下必须选择的最优策略。这样以来，与智猪博弈一样，从每股的净收益（每股收益减去每股分担的监督成本）来看，小股东要大于大股东。

（三）纳什均衡

前面我们讨论了占优策略均衡和重复剔除的策略均衡。但是在现实生活中，还有相当多的博弈，我们无法使用占优策略均衡或重复剔除的策略均衡的方法找出均衡解。例如，在房地产开发博弈中，假定市场需求有限，A、B两个开发商都想开发一定规模的房地产，但是市场对房地产的需求只能满足一个房地产的开发量，而且，每个房地产商必须一次性开发这一定规模的房地产才能获利。在这种情况下，无论是对开发商A还是开发商B，都不存在一种策略优于另一种策略，也不存在严格劣策略：如果A选择开发，则B的最优策略是不开发；如果A选择不开发，则B的最优策略是开发；类似地，如果B选择开发，则A的最优策略是不开发；如果B选择不开发，则A的最优策略是开发。研究这类博弈的均衡解，需要引人纳什均衡。

纳什均衡是指在均衡中，每个博弈参与人都确信，在给定其他参与人选择的策略的情况下，该参与人选择了最优策略以回应对手的策略。纳什均衡是完全信息静态博弈解的一般概念，构成纳什均衡的策略一定是重复剔除严格劣策略过程中不能被剔除的策略。也就是说，没有一种策略严格优于纳什均衡策略（注意：其逆定理不一定成立），更为重要的是，许多不存在占优策略均衡或重复剔除的占优策略均衡的博弈，却存在纳什均衡。

与重复剔除的占优策略均衡一样，纳什均衡不仅要求所有的博弈参与人都是理性的，而且，要求每个参与人都了解所有其他参与人都是理性的。

在占优策略均衡中，不论所有其他参与人选择什么策略，一个参与人的的占优策略都是他的最优策略。显然，这一策略一定是所有其他参与人选择某一特定策略时该参与人的占优策略。因此，占优策略均衡一定是纳什均衡。在重复剔除的占优策略均衡中，最后剩下的惟一策略组合，一定是在重复剔除严格劣策略过程中无法被剔除的策略组合。因此，重复剔除的占优策略均衡也一定是纳什均衡。

下面我们以博弈论中经常提到的性别战（battle of the sexes）为例，说明纳什均衡解。谈恋爱的男女通常是共度周末而不愿意分开活动的，这是研究问题的前提。但是，对于周末参加什么活动，男女双方往往各自有着自己的偏好。假定某周末，男方宁愿选择观看一场足球比赛，而女方宁愿去逛商店。再进一步假定：如果男方和女方分开活动，男女双方的效用为0；如果男方和女方一起去看足球赛，则男方的效用为5，而女方的效用为1；如果男方和女方一起去逛商店，则南男方的效用为1，女方的效用为5。根据上述假定，男女双方不同选择的所有结果及其效用组合如表10－4所示。

表10－4 性别战的收益矩阵

女方

看足球逛商店

男方看足球

逛商店

5，1 0，0

0，0 1，5

在这个博弈中剔除两个严格劣策略以后，剩下的新博弈中，无法剔除严格劣策略。因此是一个纳什均衡。这里有两个解，即男女双方一起去看足球赛和一起去逛商店。除非有进一步的信息，如男方或女方具有优先选择权，否则，我们无法确定男女双方在上述博弈中会作出什么样的选择。

以上我们讨论了完全信息静态博弈。本节的以下部分，我们讨论完全信息动态博

原文发布于自己的博客平台 http://wwwjetchencn/nash-equilibrium/

具有竞争或对抗性质的行为称为博弈行为，并且博弈理论在经济学、国际关系、军事战略等很多领域都有广泛的应用，其中以纳什均衡为代表的非合作性博弈理论在日常中最为常用。

在很多场景下，比如玩德州扑克等游戏时，虽然有些时候选择的策略并不一定是全局的最优解，但却是相对于其他人的策略而做出的最优解，即每个人都是对自己最有利的解决方案，我们将其称为为 纳什均衡 。

纳什均衡（或者纳什平衡），Nash equilibrium ，又称为非合作博弈均衡，是博弈论的一个重要策略组合，以约翰·纳什命名。

再解释一下，所谓纳什均衡，指的是参与者的一种策略组合，在该策略上，任何参与人单独改变策略都不会得到好处，即 每个人的策略都是对其他人的策略的最优反应 。换句话说，如果在一个策略组合上，当所有其他人都不改变策略时，没有人会改变自己的策略，则该策略组合就是一个纳什均衡。

枯燥的描述很难理解，下面使用几个案例来理解下。

背景：有两个囚犯A和B，犯事儿进去了，然后警官对其分开审讯，所以A和B是没有机会进行串供的

奖惩：如果双双招供，则各判2年，如果双双不招供，则各判1年，如果一个招供一个不招供，则招供的人立即释放，不招供的人判刑十年

结果：最后囚犯A和B都会选择招供，所以各判2年，这个便是此时的纳什均衡。

但是明明双双不招供才是最优解啊，其实不然，回头再看一下概念，纳什均衡其实并不是全局的最优解，而是每个人相对于每个人的策略而做出的最佳策略，下面来解释下。

我们来建立一个数学模型，使用 -2、-1、0、-10 来形容上面的奖惩，见下面的分析图。

A的心路历程：

所以，不管B招不招供，A只要招供了，对A而言是最优的策略。

同理，对于B的心路历程也相似，B也会选择招供：

所以最终的结果是A和B都选择了招供。

即此时的纳什均衡点为：A和B都招供。

综述，敲黑板，纳什均衡的前提是： 决策圈中的个体是独立，不合作，不横向沟通的

背景：有两只猪，一只是大猪，另一只是小猪，然后有一个食槽，里面会有食物落下，但是需要去远处按一下按钮，每次按一下按钮，食槽中便会补满食物。但是呢，在按按钮的来回路上，是需要消耗一定的能量的。

奖惩：跑过去按一下按钮再跑回来吃食物，会消耗一些能量，记为 -2，每次食槽中补满食物，总食物量为 10份，大猪先吃的话能吃到 9 份，小猪先吃的话，大猪能吃到 6 份，一起吃的话，大猪能吃到 7 份

结果：大猪会选择去按按钮，而小猪会选择不去按按钮，即在原地等着。

小猪心路历程：

所以，不管大猪怎么样，小猪都会选择在原地等待。

大猪心路历程：

所以，表面上看，大猪的决策是受到小猪的决策所影响的，但是分析小猪的心路历程得知，小猪是不会去按按钮的，那么大猪最后的决策还是会选择去按按钮，这样大猪的收益才会最大化。

所以综上，最终结果是大猪去按按钮，而小猪在原地等待着。

即此时的纳什均衡点为：大猪去，小猪不去。

在每次参与者都只有有限种策略选择并且允许混合策略的前提下，纳什均衡是一定存在的。

比如选举、群体之间的利益竞争、会议中的法案竞争等，是必然存在纳什均衡的。

以公司间的价格战为例：如果对方一直降价，那我方继续降价必然会出现亏本买卖，然而如果不降价，也会出现失去市场的情况，损失更大，但如果对方不降价，我方更要降价才能谋得一丝丝利益，所以只要出现价格战，必然会两败俱伤，这是纳什均衡体现的必然结局。所以要改变这种结局，双方必须坐下来谈判寻求新的利益评估分摊方案，从而改变原先的利益格局（比如当年京东和当当的一场价格战，最终以双方各占某一方面的主市场从而获得新的利益分割方案）。

纳什均衡是基于非合作博弈论的平衡不动点解

例如上文的囚徒困境问题，如果两个囚徒是有合作的，则必然不存在纳什均衡点。

所以，在现实生活中，纳什均衡这一博弈是很重要但是也是很有限的，因为在很多情况下，即使知道平衡不动点必然存在，但是往往却很难找到。

纳什均衡（这一非合作博弈论模型）仅仅是突破了博弈论中的一个局限

因为在社会这一庞大的博弈环境下，还会掺杂着复杂的经济行为，虽然社会中的大家并非是集体合作性的，但在这种庞大的非合作性对象中，纳什均衡点是几乎不可能找到的。

纳什均衡属于NP问题

（摘自 wik i上面的一段话，暂时看不懂但却觉得很有道理）纳什均衡属于NP问题，Daskalakis 证明它属于 NP 问题的一个子集，不是通常认为的 NP-完全问题，而是 PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。

博弈论主要研究公式化了的激励结构间的相互作用，是研究具有斗争或竞争性质现象的数学理论和方法。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。

博弈论已经成为经济学的标准分析工具之一。

博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略，达到取胜的目的。博弈论思想古已有之，中国古代的《孙子兵法》等著作就不仅是一部军事著作，而且算是最早的一部博弈论著作。

博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上，没有向理论化发展。

扩展资料：

要素

1、局中人：在一场竞赛或博弈中，每一个有决策权的参与者成为一个局中人。只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”。

2、策略：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。

如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。

3、得失：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。

4、对于博弈参与者来说，存在着一博弈结果。

5、博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。所谓纳什均衡，它是一稳定的博弈结果。

-博弈论

博弈论的数学模型

作者：竺可桢学院01混合班

王大方何霈邹铭

摘要

博弈论现在得到了广泛的应用，涉及到人的决策问题都可以用博弈论的模型加以解释。本文首先用数学的方法表述实际生活中的博弈行为，并导出一般情况下的博弈的结果，进而讨论一些不同的外部约束条件对博弈过程的影响。我们用经济学中的垄断竞争现象作为博弈问题的一个实例，讨论生产者在不同状态下的决策，进而分析双方共谋的动机和可能性。

（一）基本博弈模型的建立

一, 博弈行为的表述

博弈的标准式包括：

1． 1．博弈的参与者。

2． 2．每一个参与者可供选择的战略集。

3． 3．针对所有参与者可能选择的战略组合，每一个参与者获得的利益在n人博弈中，

用Si为参与者i的可以选择战略空间，其中任意一个特定的纯战略为si，其中任意特定的纯战略为si，si∈Si，

n元函数ui（s1，s2，……sn）, 当n个博弈者的决策为s1，s2，……sn时,表示第I各参与者的收益函数。

二, 博弈的解

当博弈进入一个稳定状态时，参与者选择的战略必然是针对其他参与者既定战略的最优反应，在此状态下没有人愿意单独背离当前的局势。这个局势叫纳什均衡：

在n个参与者标准式博弈，G={ S1，S2，……Sn；u1，u2，……un}中，若战略组合{s1，s2，……sn}满足对每一个参与者i，si是针对{

s1，s2，……si-1，si+1……sn}的最优反应战略，，目标战略组合{s1，s2，……sn}为该博弈的纳什均衡。即：ui {

s1，s2，……si-1，si，si+1……sn}≥ui {

s1，s2，……si-1，si，si+1……sn}，对一切si∈Si均成立。

纳什于1950年证明在任何有限个参与者，且每个参与者可选择的纯战略为有限个的博弈中，均存在纳什均衡。（包括混合战略）混合战略指认某种概率分布来取一个战略空间中的战略，在本文中不加讨论。

在一般情况中，纳什证明保证了我们的均衡分析有意义。

三, 博弈实例：单阶段博弈古诺竞争

在古诺竞争中，少数厂商通过改变产量来控制价格，以使他们的收益最大化。

我们作如下假设：

1． 1．厂商生产的商品是相同的，消费者没有对某家厂商的偏好。

2． 2．市场上价格与供给量的函数为p=a-bQ，且供给增加不会导致过剩，而仅仅使价格降

低，即厂商可以将生产的产品全部售出。

3． 3．厂商都是理性的，即面对既定的情况都做出决策使自己利益最大化。

4． 4．信息是完全的，每个厂商都知道其他厂商时理性的，且每个厂商知道别人是理性的

这一事实为所有参与者的共识。

（二）博弈模型的求解与讨论

为了简单起见，我们从一家企业的情况做起：

只有一家企业时，目标收益函数u=Q（a-bQ）

针对max u 的解为Q0=a/2b，u0=a2/4b

当有两家企业时，设产量分别为Q1，Q2，则

p=a-b（Q1+Q2）

u1（Q1，Q2）=pQ1=Q[a-b（Q1+Q2）]

u2（Q1，Q2）=pQ2=Q[a-b（Q1+Q2）]

纳什均衡点Q1，Q2为方程组

u1/ Q1 =0 （1）

2/2=0 （2）的解。

整理，得到

2bQ1+bQ2=a （3）

bQ1+2bQ2=a （4）

解得 Q1=Q2=a/3b，对应的u1=u2=a2/9b

纳什均衡点是一个极值点，一旦达到该点时双方都没有率先改变的动机。

下面我们讨论纳什均衡点的孤立性，即在对方初始决策不在纳什均衡时，双方能否通过理性的利益最大化策略使博弈形势变化至纳什均衡点。

(1)式表示厂商1的最优函数，在给定对方产量Q时它根据（1）来使自己收益最大，由

(3)式, 厂商最优函数为Q1=（a-bQ2）/2b同样（2）时表示厂商（2）的最优函数，由（4）式，厂商2的最优函数为Q2=（a-bQ1）/2b

这是两条直线，如图，交点E为纳什均衡点。

AB为厂商1的最优函数，CD为厂商2的最优函数，

当双方的初始选择点为A，即Q1=0，Q2=a/b，A在厂商1最优函数上，故厂商1不会改变，但厂商2针对Q1=0的最有点为C，于是双方的决策点转移到C，在C点厂商1会调整自己的产量时双方决策点到F，然厂商2又会调整策略到CD上，以此类推，最后将到达E点，在第一象限的任何初始选择点，按以上分析双方都能经过一系列调整到达E点。

在完全信息的假设下，上面这一系列的调整过程在任何一方决策之前就能被预测到，任何一个厂商都回绝的任何一个异于E点的决策都不是在给定条件下最好的选择，于是双方会不约而同的按E点做出产量决策。但是当

Q1=Q2=1/2 a/2b （5）时双方才能获得最大收益。

Q1=Q2=1/2 a2/4b （6）

这一方面说明纳什均衡点并不是一个最好的决策点，另一方面也说明与独家垄断比起来两家厂商的竞争提高了社会效应，社会总产量从a/2b增加到了2/3

a/b=2a/3b。

当厂商数增加至n家时，模型变为

n p=a-b∑i=1Qi （7）

ui=pQi，i=1，2，……n (8)

i/ i =0 I=1,2……n (9)

由归纳法可证明（9）可化为方程组（以矩阵形式表示） uQ

1121:111121:::12

1Q11Q21::::Qn= a/b 1 (1)

由线性代数分析可知，该方程组有唯一非零解

Q1=Q2=…Qn=a/(n+1)b,

ui=a2/(n+1)2b

社会总产量为na/（n+1）b。

这说明h厂商垄断竞争也必有纳什均衡点，同样方法可证明纳什均衡点不是孤立的，于是理智的各方均会按均衡点做产量决策。

另外n越大，竞争越彻底，社会总产量越高。当n很大时，总产量趋于a/b，此时价格p为0，这时价格p为0，此时这个模型不适用。因为在n较小，（一般小于5）时垄断厂商才有能力通过自己的产量来控制价格。

厂商们的整体最好选择是Q1=Q2=……Qn==a/2nb,

分别能获得收益，a2/4nb。显然n越大，厂商们理性博弈的结果和他们的最好选择点间的差距越大。

（三）多阶段博弈与共谋

以上可以看出，作为博弈者的厂商很有必要共谋限制产量，但最好的选择点是不稳定的，率先违约的一方都能获取额外利润，因此需要一些条件来约束双方的行为。另外共谋只有在长期过程中才有效益，双方需要不断检查是否已经违约，并决定自己是否要违约，每次这样的过程就是上文的单阶段博弈。

这里的信息条件为每企业在n阶段可以观察的前n-1阶段博弈结果。规则为一旦对方违约，自己就违约，且永不守约，这为双方所共识。

我们新引入一个时间贴现因子v，0<v<1,用来计算以后阶段收益的现值，如已知下一阶段收益为R，则折合到当阶段相当于收益为vR。一开始双方约定共同生产a/4b，每阶段收益为a2/8b，一直守约，双方的收益为

a2（1+v+v2+……）/8b=a2/[8（1-v）b] （10）

对先违约的一方，根据对方a2/4b的产量，由（3）和（4），它的最优产量为3a/8b，该阶段收益为

[a-b（3/8+1/4）a/b]3/8a/b=9a2/64b （11）

此后双方都明白共谋破裂，均按a/3b的均衡产量生产。设一方在N阶段违约，则收益2为a（1+v+v2+……vN-1）/8b+9vN/64a2/b+vN+1a2/[（1-v）ab]

（12）

（12）-（10），得 [vN/64-vN+1/72（1-v）]a2/b

解得当v<0529时，先违约方有利，且违约越早，额外利润最高。此时共谋很难达成。

（四）共谋与监督问题的深入

长期博弈中，人们需要一套更为复杂的机制来维持一种非纳什均衡，以维持利益的最大化。和之前的那个模型不同，在每一次作单阶段博弈时，人们不仅仅通过前一次的结果，而是通过一种长期的经验来对对手做出判断。这里涉及一个信誉问题，他是一个标证不确定因素的概率，这样的模型使得我们可以根据对手不同的策略作出最有利于自己的决断。合作的结果一般出现在离博弈结束较远的阶段，而在最后几个阶段的博弈中博弈者往往只注重当前的利益。

我们提出的维护声誉的策略是“投桃报李”，即下一次作的决策与对手上一次的决策相同，

将上文中的垄断竞争模型修改如下：

1． 1．理性博弈者B知道博弈者A有P的概率选择投桃报李的策略，有（1-P）的概率选

择其他策略（此时A即成为一个理性的人）。A也知道B时理性的。

2． 2．在每个阶段N, 双方都同时作决策，都知道前N-1次彼此的决策结果。一旦A未使

用“投桃报李”的原则而理性地做出利益最大化决策，则B就把A当作理性的，这一点也成为AB双方的共识。此后的博弈退化到上文讨论的一般完全信息理性博弈，得到的解为纳什均衡点。

单阶段博弈

对于单阶段博弈，由上文中（5）式的讨论，合作意味着厂商生产a/4b的产量，否则厂商将按利润最大化原则生产。首先违约的厂商将生产3a/8b，获利9a2/64b，而后所有厂商均会按a/3b生产，获利a2/9b。（为了描述方便，这里将常系数a2/b略去，下同）双方面对的策略-收益矩阵为

A \ B 合作不合作

合作（1/8，1/8）（5/48，5/36）

不合作（5/36，5/48）（1/9，1/9）

两阶段博弈

在两阶段博弈中，理性的B在第二阶段将选择不合作。在第一阶段开始时他要推测A的情况，A有P的概率为投桃报李类型的，于是，若B在第一阶段选择合作，则B对第一阶段预期收益为

P1/8+(1-P)5/48 （12）

B对第二阶段的预期收益为P5/36+(1-P)1/9 （13）

（因为若A不是投桃报李型的，在第一阶段结束时B就会知道这一事实，双方在第二回合便选择纳什均衡点。）

若B在第一阶段选择不合作，则B生产a/3b，（这里不合作并非生产3a/8b，因为此时B不知道A是否为理性的博弈者，经验算我们发现a/3b的产量决策比3a/8b的决策有更高的期望受益）。

于是B对第一阶段的期望收益为 5P/36+(1-P)/9 ; （14）

B对第二阶段的期望收益为 1/9 ；（15）（此事无论A是否理性，双方都不会合作）。

当P≥52%时，讨论式（12）+（13） ―[（14）+（15）] ≥0

所以在两阶段博弈中，只要估计A会有52%的可能投桃报李，B就会选择合作。

考虑模型中信息假设，A也完全明白B以上的想法，于是A也至少有装扮“投桃报李”的动机。

三阶段博弈

现在扩展成三阶段的情况，只要B在第一阶段合作，后来的两个阶段又退化至两阶段博弈的结果。由上文的分析, B对三个阶段的期望收益为

u1= P/8+5/48(1-P)

u2=P/8+(1-P)/9

u3=5P/36+(1-P)/9

总期望收益u1+ u2+ u3= 47/144 + P/16 (16)

如果B在第一阶段不合作，则无论A是否为投桃报李型的在第二阶段都不会合作。而理性的B在第三阶段肯定会不合作。

如果此时B在第二阶段继续选择不合作，则B从这种背离中获得的各阶段期望收益为 u1=5P/36+(1-P)/9 u2=1/9 u3=1/9

总期望收益 u1+ u2+ u3= 1/3+P/36 (17)

比较（16），（17），得，当P≥20%时，式(17)> 式 (16) , B就没有动机在第一阶段背离。

如果B在第一阶段不合作，在第二阶段合作，第三阶段不合作，则他的各阶段期望收益为

u1= 5P/36+(1-P)/9 u2=5/48 u3=5P/36+(1-P)/9

总期望收益为P/18+47/144 恒小于（16）式，此时B也没有动机在第一阶段背离。

综上，只要A有20%的可能为投桃报李型的，B在前两阶段就没有背离合作的动机。

对于A，一旦他在第一阶段就背离合作，那么自第二阶段起A为理性的就成为博弈双方的共识，此时他的期望收益为5/36+1/9+1/9=13/36

而A如果始终合作，其均衡收益为1/8+1/8+1/9=13/36

所以在三阶段时A是否要背离合作无所谓，不过这只是由于本问题数据特殊性的巧合。

多阶段的扩展

从上面的三个阶段扩展就可以看出，随着阶段数的增多，每个博弈者更多的会考虑长久的收益情况，而非眼前。这意味着之需要一个很小的信誉概率P，就有可能约束对方不发生背叛的行为。

当共有T阶段博弈时,我们可以用归纳法证明理性的双方在从1到T-2阶段选择合作，而在T-1和T阶段按照上文讨论的两回合博弈行动。假设任何t(t<T)博弈中上述假设均成立。

如果A在t<T-1的任意阶段不合作，则他是理性的便在以后的阶段成为共识，他在t期的收益为5/36，以后均为1/9，总收益为（t-1）/8 + 5/36

+ (T-t)/9

而A的均衡收益为从1到T-2阶段每一阶段均为1/8，T-1的收益为5/36，最后一期为1/9。显然提前违约的收益小于均衡收益。

对于B, 由两阶段博弈可知, B没有在前T-2阶段合作，T-1阶段不合作的动机，B只可能再t≤T-3的阶段背离合作。一旦B在t阶段背离合作,

则无论投桃报李的还是理性的A都将在t+1阶段不合作,

于是在前t+1阶段B无法确认A是否为理性，从t+2阶段起双方的博弈等同于一个T-(t+1)阶段的博弈。

由归纳假设，这后一部分博弈中双方会合作到T-2阶段，然后按照上文的两阶段博弈进行。B的总收益为

u= 1/8 (t-1) + 5/36 + 5/48+[T-2-(t+2)+1]1/8 + [P/8 +(1-P)5/48 +5P/36 +

(1-P)/9] 这小于B从1到T的均衡收益（T-2）/8+ [P/8+ 5(1-P)/48 + 5P/48 + (1-P)/9]

所以B也没有只背离一次的动机。

更为一般的情况是在前（T-3）次博弈中B有多次的背离与合作，则按以上方法多次使用归纳法，可以发现获得的期望收益更少。其根本原因是率先背约者无法判断对方的真正类型，所以无法保证自己的利益能够最大化，而一旦约定破裂后修复的成本很高，使得背信弃义的额外收益比双方合作来的少。

（ 5/36+5/48）<21/8 ) 这样的模型就使得共谋更有约束力。

小结与进一步的研究

本文主要为静态博弈问题建立了数学模型，并用他分析了一个实例：垄断市场上的古诺竞争和共谋。在静态博弈中，数学上的极大值就是博弈的均衡解。理性决策迫使人们的行为向利益极大值点移动，而信息问题是理性决策最重要的前提条件，可以说不同的信息条件可以推导出不同的理性决策。本文讨论的是最完美的信息假设：完全信息。它不仅指双方彼此了解对方的情况，而且彼此知道对方了解自己情况这一事实，以此类推，等等，最后形成了一个无穷的递归链。最后讨论的投桃报李模型不是完全信息的，但是它也有一套为双方所共知的评判标准来约束双方的决策。总之，本文讨论的模型是双方都知道规则的情况下进行的博弈，这是一个对实际博弈相当理想化的简化。在这样的简化下，如何妥善的处理无穷信息递归链，是个有待进一步研究的问题。而就垄断这个经济问题本身而言，本模型最大的理想化就是价格与供给量成一次函数关系，进一步可将这个函数关系拟合得更符合实际，由此还可推导出不同的收益函数和多个纳什均衡点，做出进一步分析。

参考文献

罗伯特吉本斯: 《博弈论基础, A PRIMER IN GAME THEORY》

约瑟夫斯蒂格利茨: 《经济学》

张涛方城等, 基于累积期望差异评价策略的重复博弈仿真研究《系统工程》2002,20(3)-87-91

霍沛军双寡头的经济捕鱼策略《数学的实践与认识》2002,32(2)-201-205

薛伟贤, 冯宗宪, 陈爱娟寡头市场的博弈分析《系统工程理论与实践》, 2002 Vol22 No11

扩展式博弈和策略式博弈是博弈模型的两种形式，博弈论也只有这两种形式

1、策略式博弈

2、扩展式转化为策略式

3、策略式转化为扩展式

4、共同知识

5、博弈模型的三点说明

策略式博弈构成

1、做决策的参与者是谁？——参与者集

2、做决策的可选方案是什么？——参与者的策略集

3、参与者如何评估不同决策？——参与者的支付函数（收益）

策略式优势

1、为求解纳什均衡提供方便

2、简单明了

3、便于表示与书写

策略式劣势

1、不能描述参与者行动顺序

2、不能描述参与者在各个决策节点时掌握的信息

3、不能适用于动态博弈模型的表述

如何把扩展式转化为策略式

任何一个博弈都可以用扩展式表示出来

1、找出每个参与者的策略集合，并分别列出（一个按行列出，一个按列列出）

2、在扩展式中找出每个策略组合所对应的行动路径（行动组合）

3、将终端节点旁的支付情况填入相应的策略组合所对应的位置

欢迎分享，转载请注明来源：表白网

原文地址:https://h5.hunlipic.com/biaobai/2945202.html

博弈论——纳什均衡

发表评论

评论列表（0条）