第166章:囚徒困境的综合博弈(2)
作者:魔鬼同学      更新:2022-12-30 17:18      字数:2169
,则坦白的囚徒将会因为提供有利证据而直接释放,另一个人则会因为拒不合作而导致判刑十年。”安不知老老实实地问答道。

  车爷点头称是,“没错,这个博弈中最黑暗的地方就在于人们明明知道合作带来的团队利益是最高的,但一旦把他们分开进行决策,他们就会选择所谓的最优策略以达到所谓的纳什均衡。”

  “因为他们会分别做如此推理:如果对手选择是坦白,那么我也坦白获刑是八年,而如果我沉默则要获刑十年;如果对手选择是沉默,那么我也沉默获刑是一年,而如果我坦白则无罪释放。则对手无论选择是什么,我的最优选择都应该是坦白。这个著名的理论充分说明了在一个‘完全以自我利益最大化’为基础的社会中,反而得到的是一个对群体来说‘利益最小化’的结果。”

  “这是基础,然后我要告诉你的是一个更精妙的扩展,用它可以解读整个浓缩的社会。几个世纪前罗伯特·阿克塞尔罗德在其著作《合作的进化》中提出了一个名为重复的囚徒困境的综合博弈。”

  “这个博弈中,每个玩家将提出一种策略方案,其内容是玩十次囚徒博弈,但每个策略必须一开始就用程序设计好这十次囚徒博弈中所要采取的行动,然后按其程序严格执行。”

  “比如你可以将其设计为永远沉默,那么这个策略可以被称为‘老好人’,也可以将其设计为在10次中随机有3-4次会突然地‘坦白’,那么这个采取突袭的偷分策略便可以被称为‘下流胚’。所有设计出的策略方案,将全部在双循环赛中,分别与所有玩家的策略一一交手,最后总分最高的策略,将成为最优策略。”

  确定所有的一切安不知都听明白以后,车爷贪婪地吸进一口烟,再缓缓吐出,好整以暇地问道:“你能想象一下,在这个‘重复的囚徒困境’中,罗伯特·阿克塞尔罗德所提出的最强策略是什么吗?”

  “这?这种综合博弈我都是第一次听说,怎么可能马上就想出来答案!”安不知老实地说道。

  车爷便呵呵地笑着,一副“我就知道”的表情,满意地给出了答案:“以牙还牙!这一套策略的方案非常简单。它在一开始采取‘沉默’行动,而在以后的每一轮行动里,他所采取的都将是对手在上一轮中所采取的行动。简单来说,对手合作,那么它也一直合作下去;而对手背叛,它必以背叛反击之。”

  在片刻的沉默中,安不知静静地消化着这个所谓“最强策略”的内涵!</dd>