更好地学会做策略选择:博弈生存-第3章

小说：更好地学会做策略选择:博弈生存字数：每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

　　因此，无论其他人采取的是什么策略，我采取“增负”策略都是最好的。当每个学生都这样想的时候，全社会便进入了应试教育这样一个囚徒困境之中。
　　如果我国现有的考试制度没有改变，现在假设所有的学生都选择“减负”策略，即除了做少量的巩固性的作业外，不补课、不做其他的练习题，情况会是什么样子？
　　假设这种状态会出现，我们说，这种状态会很快消失，而立即会出现所有学生都进入“增负”的这样一个状态之中。可以说，均选择“减负”策略的状态是不稳定的，而“增负”的状态是稳定的均衡即纳什均衡。原因就是，目前的教育的博弈结构规定了各种行动或行为的收益或好处：获得高分的会进入好的初中、高中，进入好的初中、高中的学生可以考高分进入好的大学。在这个博弈中，对于教师来说，学生的升学率高意味着其成绩大、奖金高，对自己的学生采取“增负”策略，对于自己而言是占优策略。书　包　网　txt小说上传分享

博弈案例（2）
我国基础教育的博弈与囚徒困境有共同的结构，大家均选择“增负”策略构成基础教育博弈的纳什均衡。这是一个稳定的博弈结果。这也是为什么我国目前的应试教育难以改变的原因。
　　2．斗鸡博弈与古巴的导弹危机
　　试想有两只公鸡遇到一起，每只公鸡有两个行动选择：一是退下来，一是进攻。如果一方退下来，而对方没有退下来，对方获得胜利，这只公鸡则很丢面子；如果对方也退下来，双方则打个平手；如果自己没退下来，而对方退下来，自己则胜利，对方则失败；如果两只公鸡都前进，那么则两败俱伤。因此，对每只公鸡来说，最好的结果是，对方退下来，而自己不退。支付矩阵如下：
　　鸡乙
　　鸡甲
前进
后退
前进
…2，…2
1，…1
后退
…1，1
…1，…1　　上表中的数字的意思是：两者如果均选择“前进”，结果是两败俱伤，两者均获得…2的支付；如果一方“前进”，另外一方“后退”，“前进”的公鸡获得1的支付，即赢得了面子，而后退的公鸡获得…1的支付，即输掉了面子，但没有两者均“前进”受到的损失大；两者均“后退”，两者均输掉了面子，获得…1的支付。当然表中的数字只具有相对的意义。
　　这个博弈有两个纳什均衡：一方前进，另一方后退。但关键是谁进谁退？一个博弈，如果有惟一的纳什均衡点，那么这个博弈是可预测的，即这个纳什均衡点就是博弈参与人事先知道的惟一的博弈结果。但是如果一博弈有两个或两个以上的纳什均衡点，则任何人无法预测博弈的结果是什么。因此，我们无法预测斗鸡博弈的结果，即我们不能预先知道谁“前进”谁“后退”。
　　用这个博弈模型来解释20世纪60年代初发生在美苏两个超级大国之间的一场导弹危机，是最合适不过的了。
　　二战结束后，形成了对峙的两个超级大国，美国和苏联。这两个超级大国是两个核心，在其周围有各自的盟友，它们一起组成了两大敌对的阵营。1962年赫鲁晓夫偷偷地将导弹运送到加勒比海上的岛国古巴，卡斯特罗政权是苏联这个超级大国的盟友，是美国的敌人。苏联的目的是将导弹部署在美国的眼皮底下，以对付美国。然而苏联的行动被美国的U…2飞机侦察到了，美国发现古巴建立了导弹发射场。此事震动美国，肯尼迪总统指责苏联，并发出严重警告，而苏联方面矢口否认。美国决定对古巴进行军事封锁，派遣了舰艇、空军及航空母舰，并集结了登陆部队。美国进入戒备状态，美苏之间的战争一触即发。
　　面对美国的反应，苏联面临着是将导弹撤回国还是坚持部署在古巴的选择；而对于美国，则面临着是挑起战争还是容忍苏联的挑衅行为的选择。也就是说，这两只“大公鸡”均在考虑采取进的策略还是退的策略。战争的结果当然是两败俱伤，而任何一方退下来（而对方不退）则是不光彩的事。结果是苏联将导弹从古巴撤了下来，做了丢面子的“撤退的鸡”。美国坚持了自己的策略，做了“前进的鸡”。当然，为了给苏联一点面子，同时也担心苏联坚持不退而发生美苏战争——这是美国不愿意看到的，美国象征性地从土耳其撤离了一些导弹。古巴导弹危机是冷战期间美苏两霸之间发生的最严重的一次危机。这就是美国与苏联在古巴导弹上的博弈结果。对于苏联来说，退下来的结果是丢了面子，但总比战争要好；对美国而言，既保全了面子，又没有发生战争。这就是这两只“大公鸡”博弈的最终结果。。　最好的txt下载网

博弈案例（3）

　　3．骑虎难下博弈与美苏武器竞赛
　　我们经常碰到的一类博弈是，行动者进也不是，退也不是。笔者将这样的博弈称为骑虎难下博弈。
　　有一个拍卖，其规则是：两个参与人轮流出价，谁出得最高，谁就将得到该物品，但是出价少的人不仅得不到该物品，并且要按他所叫的价付给拍卖方。
　　假定有两人竞价争夺价值100元的物品，只要双方开始叫价，在这个博弈中双方就进入了骑虎难下的状态。因为，每个人都这样想，如果我退出，我将失去我出的钱，若不退出，我将有可能得到这价值100元的物品，但是，随着出价的增加，他可能的损失也越大。每个人面临着两难：是继续叫价还是退出？
　　这个博弈为耶鲁大学的舒比克教授构造出来的。
　　你会说，这个拍卖的规则不合理，纯粹是博弈论专家的构想，在实际中这样的拍卖不会出现。然而，它尽管只是一个模型，在实际中我们经常会看到此模型的博弈案例。3
　　在冷战期间，美苏为争夺霸权拼命发展武器，无论是原子弹、氢弹等核武器的研制，还是如隐形战斗机这样的常规武器的研制，双方均不甘落后。20世纪80年代，里根在位时准备启动“星球大战”计划，此举意味着两个超级大国的武器竞赛将进一步升级。美苏之间的武器竞赛就相当于这个骑虎难下博弈中双方轮番出价，双方均不断出更高的价，如果一方没有出最高的价钱，退了下来，即没有继续竞赛下去，那么意味着它在军备上的前期投入没有效果，打了水漂，而对方将赢得整个局面。但如果继续竞赛下去，一旦支撑不住，损失也就更大。
　　1991年苏联的垮台在一定程度上是军备竞赛的结果。苏联将整个力量放在军备竞赛上，而民用建设无法跟上，国力不济，最终退下阵来。里根的“星球大战”计划其目的就是要拖垮苏联。一旦进入骑虎难下的博弈，及早退出是明智之举，然而当局者往往做不到，这就是所谓当局者迷。这种骑虎难下的博弈经常出现在国家之间，也出现在企业或组织之间，当然个人之间也经常碰到。20世纪60年代，美国介入越南就是一个骑虎难下博弈。赌红了眼的赌徒输了钱还要继续赌下去以希望返本，也是骑虎难下博弈，其实，赌徒进入赌场开始赌博时，他已经进入了骑虎难下的状态，因为，赌场从概率上讲必定赢。4
　　博弈论专家将这里的骑虎难下博弈称为协和谬误。20世纪60年代，英国和法国政府联合投资开发大型超音速客机，即协和飞机。该种飞机机身大、设计豪华并且速度快。但是，英法政府发现：若继续投资开发这样的机型，花费会急剧增加，并且还不清楚这样的设计定位能否适应市场；而若停止研制，以前的投资将付诸东流。随着研制工作的深入，他们更是无法作出停止研制工作的决定。协和飞机最终研制成功，但因飞机的缺陷（如耗油大、噪音大、污染严重等等），它不适合市场，最终被市场淘汰，英法政府为此蒙受很大的损失。在这个研制过程中，如果英法政府能及早放弃飞机的开发工作，会使损失减少，但他们没能做到。
　　4．警察与小偷的故事——混合策略问题
　　纳什在《n人博弈的均衡点》这篇论文中，给出了均衡存在的简单证明，纳什说，在n个人的博弈中至少存在一个均衡，在这点上双方均不愿意先改变策略。这里的均衡点有可能是混合策略点。人们称它为纳什定理。
　　什么是混合策略？
　　我们来看一个混合策略的例子。警察部门负责一城市中某一区的治安。警察要对该区的A、B两地进行巡逻。假定该区有一群小偷，要实施偷盗。警察要防止这些小偷的偷盗，但因为设备有限，只有一部警车，警察只能一次在一个地方巡逻。而对于小偷而言，他们也只能去一个地方。假定A地需要保护的财产价值为2万元，B地的财产价值为1万元。若警察在某地进行巡逻，而小偷也选择了去该地，因警察在场，小偷无法偷盗该地的财物；若警察没有去某地巡逻而小偷选择了去该地，则小偷偷盗成功。警察怎么巡逻才能使效果最好？
　　一个明显的做法是，警察对A地进行巡逻，小偷去B地，这样，警察可以保住2万元的财产不被偷窃，而小偷的稳定收益为1万元。但是这种做法是警察的最好做法吗？警察有没有比这种策略更好的策略？
　　我们可以将警察与小偷之间的这个支付写成如下的支付矩阵。警察巡逻某地，偷盗者在该地无法实施偷盗，假定此时小偷的得益为0（没有收益），此时警察的得益为3（保住3万元）。
　　这个博弈也是常和博弈，它没有纯策略纳什均衡点，而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与人的最优（混合）策略选择。
　　

小偷（1）
警察
袭击A地
袭击B地
巡逻A地
3，0
2，1
巡逻B地
1，2
3，0　　对于这个例子，警察的一个更好的策略是，警察用掷骰子的方法决定去A地还是B地。假定警察规定掷到1—4点去A地，掷到5、6两点去B地，这样警察有2/3的机会去A地进行巡逻，1/3的机会去B地。
　　而小偷的最优选择是：以同样掷骰子的办法决定去A地还是去B地偷盗，如掷到1—4点去B地，掷到5、6两点去A地，那么，小偷有1/3的机会去A地，2/3的机会去B地。
　　此时警察与小偷所采取的便是混合策略。
　　假如按这种策略，我们看一下双方的收益。警察的期望得益是：7/3万大于2。警察按此办法比只巡逻A地的收益更高。
　　一旦警察采取混合策略，小偷也采取混合策略，其最优混合策略下的收益为2/3万元。小偷的收益比警察只巡逻A地的收益要低。
　　因为：当警察去A地巡逻时，小偷有1/3的机会去A地，2/3的机会去B地，此时警察去A地的得益为：万元；当警察去B地时，同样，小偷有1/3的机会去A地，2/3的机会去B地，此时警察A地的得益为：万元。
　　警察总的得益为：万元。
　　同理，我们可得小偷的总的得益为2/3万元。
　　这里我们“让”警察和小偷掷骰子以确定去A地还是去B地，目的是要去A地和去B地之间确定一个概率分布，他们当然可用其他方式来确定这个概率分布。
　　宰割博弈中警察与小偷所用的混合策略，如同小孩子之间玩“剪刀—石头—布”的游戏时所用的策略。在“剪刀—石头—布”这样的游戏中，不存在纯策略均衡，对每个小孩来说，自己采取出“剪刀”、“布”还是“石头”的策略应当是随机的，不能让对方知道自己的策略，哪怕是倾向性的策略。如果对方知道你出其中一个策略的可能性大，那么你在游戏中输的可能性就大。因此，每个小孩的最优混合策略是采取每个策略的可能性是1/3。在这样的博弈中，每个小孩各取三个策略的1/3是纳什均衡。
　　由此可见：纯策略是参与人一次性选取的，并且坚持他选取的策略；而混合策略是参与人在各种备选策略中采取随机选取的。在博弈中，参与人可以改变他的策略，而使得他的策略选取满足一定的概率分布。
　　若博弈是零和博弈，即若博弈参与人为两人，一方所得是另外一方的所失，或者若博弈是常和博弈，即若博弈参与人为两人，一方所得的增加等于另外一方的损失，此时，对于任何一个参与人而言，都不可能有纯策略的占优策略。博弈参与人采取混合策略是合适的，均衡为混合策略均衡。如在当前的“反恐”博弈中，由于力量的有限，反恐方往往“更多地”将力量放在重点区域，如人口密集的大城市，“一定程度地”关注不太危险的区域，如人口稀疏的农村。这就是混合策略。而恐怖分子同样在玩混合策略：对攻击对象的选择是随机的，对攻击方式的选择也是随机的。
　　在竞争性的博弈中，该采取混合策略而不采取混合策略将会带来失败。田忌赛马是人人熟悉的

返回目录上一页下一页回到顶部赞（0）踩（0）

第3章

更好地学会做策略选择:博弈生存-第3章

你可能喜欢的