阿克塞罗德是密歇根大学政治系教授。其全书的论点都是以下面这个试验为基础的:他邀请了不同学科的学者参加一个竞赛,参赛者需要与他人玩一个多次博弈的游戏,每一个参赛者在每次博弈时可选择与对方合作或者不合作。在二人博弈的情况下,每一次游戏结果的得失矩阵与图1 基本相同。不同的是在这个例子中,图1 中的囚徒A 和囚徒B 需改成参赛者A 和B ,不坦白须改成合作,坦白须改成背叛。由于阿克塞罗德把哈丁的n 人一次性模型改成了一个2 人m 次模型,所以参赛者可以根据自己不同的知识背景来设计整个博弈过程的行为策略。有人可能在m 次博弈中每次都选择合作,有人可能会每次都选择背叛,有人甚至会让计算机帮他(她) 随机选择策略,不一而足。阿克塞罗德想知道比赛结束后,采取哪一类策略的人总得分最高。结果是,当博弈次数很大(或者说博弈链很长) 时,总得分最高的策略并不是我以上所列举的那些策略,而是一种被称为“一报还一报”(tit-for-tat) 的策略。这种策略很简单,就是第一次总是采取合作,以后就跟着对方的上一次策略走。如果对方上一次采取的是合作,那么我这一次仍然采取合作;如果对方上一次采取的是不合作,那么我这一次就采取不合作。可以看出, “一报还一报”的策略与做一个有原则的好人的原则差不多,即做人首先要与人为善,如果对方对你做了坏事你绝不能姑息养奸;但对方一旦承认错误,你就应该原谅他。
得到这一结果后,阿克塞罗德把它公布了出来,并邀请各学科的学者再次参加同样一个比赛。不同的是,这一次大家都知道“一报还一报”的策略在上一次比赛中获得了第一名,于是专门针对这种策略去设计策略,就像打擂台一样,想办法打败它。尽管如此,第二次比赛的结果还是“一报还一报”策略的总得分最高。于是阿克塞罗德就下了这样一个结论:由于“一报还一报”这一策略显然是一个最优策略,因此,当博弈次数很大时,只要博弈的一方有理性学习能力,或者说虽然博弈的一方没有理性学习能力,但其“总得分”的高低能够转化成某种进化压力,迫使其行为产生“突变”的话,那么,在多次博弈过程中,博弈各方的行为就会趋同,即逐渐在博弈中采取合作这一策略。由于人类社会的基础就是各类合作性的集体行动,因此阿克塞罗德认为,他的这个实验揭示了人类合作行为得以形成和发展的基本动力。阿克塞罗德认为,只要博弈的次数足够多,即使是敌对的双方也会走向合作。一个比较典型的例子是第一次世界大战时欧洲战场上的壕沟战。那时壕沟挖得比较浅,在壕沟中走路时如果不小心把头抬起来就会遭到敌方士兵的冷枪。战争开始时,法、德两国的士兵互相用这一方法打死了对方许多人。但是到战争后期,双方士兵的行为都起了变化:如果一方的士兵头抬得太高,对方就朝他头的上方打一枪警告一下,而不是把他打死。其中的逻辑是,这次如果我把人家打死了,下次我不经意间把头露出战壕时,人家也会把我打死。按照这一逻辑,双方士兵在敌对的场合下达成了实际的合作。阿克塞罗德强调,他的模拟结果不但能够用来解释人类社会中合作现象的产生,而且能够用于解释生物的合作性行为的产生。的确,生物学中有一个重要现象,即协同进化。其中一种协同进化现象是,生物之间的捕食与被捕食关系在进化过程中可能发生如下演变:从捕食与被捕食关系(A 消灭了B) ,逐渐转变为寄生与被寄生关系(A 仍然容许B 的存活) ,并最后转化为共生关系(A 和B 互相为对方提供增进存活的条件) 。
与奥尔森的搭便车困境理论一样,阿克塞罗德的理论对我们理解现实生活中的许多现象很有启迪。比如,假冒伪劣、抄袭剽窃等机会主义行为目前在中国学术、生活和商业等许多领域非常盛行。这些问题的一个重要根源正是中国社会变迁太快,各种社会规则或者正在失去效力,或者尚未确立,或者时刻在变,现在大家遵守的某一规则,两年后可能就必须遵守另外一种规则。从阿克塞罗德理论的角度看,中国社会目前的迅速变化造成了人与人之间的博弈链非常短(或者说博弈次数m 非常小) ,这使机会主义行为成了事实上的最优选择,尽管这种行为给社会的稳定和发展造成了非常大的危害。机会主义行为在多变环境中是优势行为这一理论在生物学中也可以找到例子。在生物与环境的互动关系中,当环境多变时(相当于博弈链很短) ,许多物种就会采取机会主义的r 策略;当环境稳定时(相当于博弈链较长) ,许多物种就会采取k 策略。采取r 策略的物种,寿命较短,个体较小,大规模生殖,对后代却不照管,其生存行为可类比为不合作行为;采取k 策略的物种,其生存策略正好与采取r 策略的物种相反,其生存行为可类比为合作行为。上述例子表明了人类交往过程中规则稳定的重要性。
