更好地学会做策略选择:博弈生存-第3章
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
因此,无论其他人采取的是什么策略,我采取“增负”策略都是最好的。当每个学生都这样想的时候,全社会便进入了应试教育这样一个囚徒困境之中。
如果我国现有的考试制度没有改变,现在假设所有的学生都选择“减负”策略,即除了做少量的巩固性的作业外,不补课、不做其他的练习题,情况会是什么样子?
假设这种状态会出现,我们说,这种状态会很快消失,而立即会出现所有学生都进入“增负”的这样一个状态之中。可以说,均选择“减负”策略的状态是不稳定的,而“增负”的状态是稳定的均衡即纳什均衡。原因就是,目前的教育的博弈结构规定了各种行动或行为的收益或好处:获得高分的会进入好的初中、高中,进入好的初中、高中的学生可以考高分进入好的大学。在这个博弈中,对于教师来说,学生的升学率高意味着其成绩大、奖金高,对自己的学生采取“增负”策略,对于自己而言是占优策略。书 包 网 txt小说上传分享
博弈案例(2)
我国基础教育的博弈与囚徒困境有共同的结构,大家均选择“增负”策略构成基础教育博弈的纳什均衡。这是一个稳定的博弈结果。这也是为什么我国目前的应试教育难以改变的原因。
2.斗鸡博弈与古巴的导弹危机
试想有两只公鸡遇到一起,每只公鸡有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这只公鸡则很丢面子;如果对方也退下来,双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败;如果两只公鸡都前进,那么则两败俱伤。因此,对每只公鸡来说,最好的结果是,对方退下来,而自己不退。支付矩阵如下:
鸡乙
鸡甲
前进
后退
前进
…2,…2
1,…1
后退
…1,1
…1,…1 上表中的数字的意思是:两者如果均选择“前进”,结果是两败俱伤,两者均获得…2的支付;如果一方“前进”,另外一方“后退”,“前进”的公鸡获得1的支付,即赢得了面子,而后退的公鸡获得…1的支付,即输掉了面子,但没有两者均“前进”受到的损失大;两者均“后退”,两者均输掉了面子,获得…1的支付。当然表中的数字只具有相对的意义。
这个博弈有两个纳什均衡:一方前进,另一方后退。但关键是谁进谁退?一个博弈,如果有惟一的纳什均衡点,那么这个博弈是可预测的,即这个纳什均衡点就是博弈参与人事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点,则任何人无法预测博弈的结果是什么。因此,我们无法预测斗鸡博弈的结果,即我们不能预先知道谁“前进”谁“后退”。
用这个博弈模型来解释20世纪60年代初发生在美苏两个超级大国之间的一场导弹危机,是最合适不过的了。
二战结束后,形成了对峙的两个超级大国,美国和苏联。这两个超级大国是两个核心,在其周围有各自的盟友,它们一起组成了两大敌对的阵营。1962年赫鲁晓夫偷偷地将导弹运送到加勒比海上的岛国古巴,卡斯特罗政权是苏联这个超级大国的盟友,是美国的敌人。苏联的目的是将导弹部署在美国的眼皮底下,以对付美国。然而苏联的行动被美国的U…2飞机侦察到了,美国发现古巴建立了导弹发射场。此事震动美国,肯尼迪总统指责苏联,并发出严重警告,而苏联方面矢口否认。美国决定对古巴进行军事封锁,派遣了舰艇、空军及航空母舰,并集结了登陆部队。美国进入戒备状态,美苏之间的战争一触即发。
面对美国的反应,苏联面临着是将导弹撤回国还是坚持部署在古巴的选择;而对于美国,则面临着是挑起战争还是容忍苏联的挑衅行为的选择。也就是说,这两只“大公鸡”均在考虑采取进的策略还是退的策略。战争的结果当然是两败俱伤,而任何一方退下来(而对方不退)则是不光彩的事。结果是苏联将导弹从古巴撤了下来,做了丢面子的“撤退的鸡”。美国坚持了自己的策略,做了“前进的鸡”。当然,为了给苏联一点面子,同时也担心苏联坚持不退而发生美苏战争——这是美国不愿意看到的,美国象征性地从土耳其撤离了一些导弹。古巴导弹危机是冷战期间美苏两霸之间发生的最严重的一次危机。这就是美国与苏联在古巴导弹上的博弈结果。对于苏联来说,退下来的结果是丢了面子,但总比战争要好;对美国而言,既保全了面子,又没有发生战争。这就是这两只“大公鸡”博弈的最终结果。。 最好的txt下载网
博弈案例(3)
3.骑虎难下博弈与美苏武器竞赛
我们经常碰到的一类博弈是,行动者进也不是,退也不是。笔者将这样的博弈称为骑虎难下博弈。
有一个拍卖,其规则是:两个参与人轮流出价,谁出得最高,谁就将得到该物品,但是出价少的人不仅得不到该物品,并且要按他所叫的价付给拍卖方。
假定有两人竞价争夺价值100元的物品,只要双方开始叫价,在这个博弈中双方就进入了骑虎难下的状态。因为,每个人都这样想,如果我退出,我将失去我出的钱,若不退出,我将有可能得到这价值100元的物品,但是,随着出价的增加,他可能的损失也越大。每个人面临着两难:是继续叫价还是退出?
这个博弈为耶鲁大学的舒比克教授构造出来的。
你会说,这个拍卖的规则不合理,纯粹是博弈论专家的构想,在实际中这样的拍卖不会出现。然而,它尽管只是一个模型,在实际中我们经常会看到此模型的博弈案例。3
在冷战期间,美苏为争夺霸权拼命发展武器,无论是原子弹、氢弹等核武器的研制,还是如隐形战斗机这样的常规武器的研制,双方均不甘落后。20世纪80年代,里根在位时准备启动“星球大战”计划,此举意味着两个超级大国的武器竞赛将进一步升级。美苏之间的武器竞赛就相当于这个骑虎难下博弈中双方轮番出价,双方均不断出更高的价,如果一方没有出最高的价钱,退了下来,即没有继续竞赛下去,那么意味着它在军备上的前期投入没有效果,打了水漂,而对方将赢得整个局面。但如果继续竞赛下去,一旦支撑不住,损失也就更大。
1991年苏联的垮台在一定程度上是军备竞赛的结果。苏联将整个力量放在军备竞赛上,而民用建设无法跟上,国力不济,最终退下阵来。里根的“星球大战”计划其目的就是要拖垮苏联。一旦进入骑虎难下的博弈,及早退出是明智之举,然而当局者往往做不到,这就是所谓当局者迷。这种骑虎难下的博弈经常出现在国家之间,也出现在企业或组织之间,当然个人之间也经常碰到。20世纪60年代,美国介入越南就是一个骑虎难下博弈。赌红了眼的赌徒输了钱还要继续赌下去以希望返本,也是骑虎难下博弈,其实,赌徒进入赌场开始赌博时,他已经进入了骑虎难下的状态,因为,赌场从概率上讲必定赢。4
博弈论专家将这里的骑虎难下博弈称为协和谬误。20世纪60年代,英国和法国政府联合投资开发大型超音速客机,即协和飞机。该种飞机机身大、设计豪华并且速度快。但是,英法政府发现:若继续投资开发这样的机型,花费会急剧增加,并且还不清楚这样的设计定位能否适应市场;而若停止研制,以前的投资将付诸东流。随着研制工作的深入,他们更是无法作出停止研制工作的决定。协和飞机最终研制成功,但因飞机的缺陷(如耗油大、噪音大、污染严重等等),它不适合市场,最终被市场淘汰,英法政府为此蒙受很大的损失。在这个研制过程中,如果英法政府能及早放弃飞机的开发工作,会使损失减少,但他们没能做到。
4.警察与小偷的故事——混合策略问题
纳什在《n人博弈的均衡点》这篇论文中,给出了均衡存在的简单证明,纳什说,在n个人的博弈中至少存在一个均衡,在这点上双方均不愿意先改变策略。这里的均衡点有可能是混合策略点。人们称它为纳什定理。
什么是混合策略?
我们来看一个混合策略的例子。警察部门负责一城市中某一区的治安。警察要对该区的A、B两地进行巡逻。假定该区有一群小偷,要实施偷盗。警察要防止这些小偷的偷盗,但因为设备有限,只有一部警车,警察只能一次在一个地方巡逻。而对于小偷而言,他们也只能去一个地方。假定A地需要保护的财产价值为2万元,B地的财产价值为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,因警察在场,小偷无法偷盗该地的财物;若警察没有去某地巡逻而小偷选择了去该地,则小偷偷盗成功。警察怎么巡逻才能使效果最好?
一个明显的做法是,警察对A地进行巡逻,小偷去B地,这样,警察可以保住2万元的财产不被偷窃,而小偷的稳定收益为1万元。但是这种做法是警察的最好做法吗?警察有没有比这种策略更好的策略?
我们可以将警察与小偷之间的这个支付写成如下的支付矩阵。警察巡逻某地,偷盗者在该地无法实施偷盗,假定此时小偷的得益为0(没有收益),此时警察的得益为3(保住3万元)。
这个博弈也是常和博弈,它没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与人的最优(混合)策略选择。
小偷(1)
警察
袭击A地
袭击B地
巡逻A地
3,0
2,1
巡逻B地
1,2
3,0 对于这个例子,警察的一个更好的策略是,警察用掷骰子的方法决定去A地还是B地。假定警察规定掷到1—4点去A地,掷到5、6两点去B地,这样警察有2/3的机会去A地进行巡逻,1/3的机会去B地。
而小偷的最优选择是:以同样掷骰子的办法决定去A地还是去B地偷盗,如掷到1—4点去B地,掷到5、6两点去A地,那么,小偷有1/3的机会去A地,2/3的机会去B地。
此时警察与小偷所采取的便是混合策略。
假如按这种策略,我们看一下双方的收益。警察的期望得益是:7/3万大于2。警察按此办法比只巡逻A地的收益更高。
一旦警察采取混合策略,小偷也采取混合策略,其最优混合策略下的收益为2/3万元。小偷的收益比警察只巡逻A地的收益要低。
因为:当警察去A地巡逻时,小偷有1/3的机会去A地,2/3的机会去B地,此时警察去A地的得益为:万元;当警察去B地时,同样,小偷有1/3的机会去A地,2/3的机会去B地,此时警察A地的得益为:万元。
警察总的得益为:万元。
同理,我们可得小偷的总的得益为2/3万元。
这里我们“让”警察和小偷掷骰子以确定去A地还是去B地,目的是要去A地和去B地之间确定一个概率分布,他们当然可用其他方式来确定这个概率分布。
宰割博弈中警察与小偷所用的混合策略,如同小孩子之间玩“剪刀—石头—布”的游戏时所用的策略。在“剪刀—石头—布”这样的游戏中,不存在纯策略均衡,对每个小孩来说,自己采取出“剪刀”、“布”还是“石头”的策略应当是随机的,不能让对方知道自己的策略,哪怕是倾向性的策略。如果对方知道你出其中一个策略的可能性大,那么你在游戏中输的可能性就大。因此,每个小孩的最优混合策略是采取每个策略的可能性是1/3。在这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。
由此可见:纯策略是参与人一次性选取的,并且坚持他选取的策略;而混合策略是参与人在各种备选策略中采取随机选取的。在博弈中,参与人可以改变他的策略,而使得他的策略选取满足一定的概率分布。
若博弈是零和博弈,即若博弈参与人为两人,一方所得是另外一方的所失,或者若博弈是常和博弈,即若博弈参与人为两人,一方所得的增加等于另外一方的损失,此时,对于任何一个参与人而言,都不可能有纯策略的占优策略。博弈参与人采取混合策略是合适的,均衡为混合策略均衡。如在当前的“反恐”博弈中,由于力量的有限,反恐方往往“更多地”将力量放在重点区域,如人口密集的大城市,“一定程度地”关注不太危险的区域,如人口稀疏的农村。这就是混合策略。而恐怖分子同样在玩混合策略:对攻击对象的选择是随机的,对攻击方式的选择也是随机的。
在竞争性的博弈中,该采取混合策略而不采取混合策略将会带来失败。田忌赛马是人人熟悉的