首页 手机数码内容详情

博弈是什么意思(经典博弈教学)

2022-03-29 862 zadmin
博弈是什么意思(经典博弈教学)

站点名称:博弈是什么意思(经典博弈教学)

所属分类:手机数码

官方网址:

SEO查询: 爱站网 站长工具

进入网站

站点介绍

生活处处皆博弈,囚徒困境带给我们的启示

关于博弈,很多的人都了解也听说过。生活中处处有博弈。那么到底什么是博弈呢?

博弈原意是指下棋,引申义则对比丰盛多样:在一定的外在条件下,参加项目的人们齐心全力遵守相同规则,选择并实施各自不一样的行为或策略,并获取相应结果的过程。一些时候,博弈也作为一个动词,表示一种动态的过程。

往往一般,一个完美的博弈会包括五个要素:

第一,参加者,它合适是博弈过程中独立决定并承担后果的个体或者团队;

第二,博弈消息,只是参加博弈者学会的对策略有帮助的外界消息资料;

第三,策略集合;

第四,博弈次序,只是博弈参加者做策略选择的先后顺序;

第五,博弈收获,只是博弈方做出策略选择后的得与失。

此外,如果从博弈的详细应用来划分的话,还可将博弈分为静态博弈和动态博弈。

所谓静态博弈,只是指在博弈中,两个参加者同一时间做出选择,或者两人做选择的时间或者秩序不一样。而且靠后的动作者,不了解先动作者会采取什么样的详细动作。

也只是说,在同一件事件的争论和推进中,参加双方都容易造成行为上的重组重复。

动态博弈则是指在博弈中,两个参加人的动作是有先后顺序的,而且,靠后的动作者合适研究到最先动作者所选择的是哪种动作和策略。

博弈在我们的生活中无处不在,而在博弈理论中有一个古典的举例,那么是“囚徒困境”。

【囚徒困境博弈论】

一个富翁被发现死在家中,一部分财物也被盗走。警方经历过侦讯逮捕了强盗A和强盗B,但两人都矢口否认杀死过富翁,只承认入室盗窃偷东西的罪名。案件陷入困境,于是警方将两人隔离关押,由地方检察官分别与两个体进行一对一的谈话。

检察官对A说:“偷盗罪证据确凿,所以365天刑期是肯定会一些。但是,我这里有一个交易,如果你承认杀人罪行,我就只判你三个月监禁,但你的同伙就要被判刑十年;现在如果你拒不坦白认罪而被你的同伙检举你的杀人罪行,你就会被判刑十年,而他则只判监禁三个月。另外,如果你们俩同一时间承认了杀人罪行,那么,你们就同一时间被判刑5年。”

这只是著名的“囚徒困境”。

那么强盗A和强盗B该怎么样选择呢?

显然,他们只有两种选择:承认杀人或否认杀人。

旁观者清,貌似对于2个体最好的选择策略是各位都不承认杀人罪行,之后都被判1年。但是,我们不要忘记,两人被分别关押,并且缺乏相信和了解,所以不会了解对面会做出什么样的选择。

根据经济学家亚当斯密的理论,所有人思考策略都是从利己的角度去做选择的。所以,从对个体最为有利的角度讲,选择承认杀人才是个体的最好策略。因为承认杀人后,只会被监禁3个月。很显然,这要比自己不承认杀人而坐10年牢好得多。

可是,这种策略能够实现的前提是,另一方抵赖。所以,承认自己杀人这种策略,其实是个损人利己的策略。

不仅如此,承认自己的杀人罪行还有很多的好处。例如,如果对面坦白而自己抵赖,那自己就得坐牢10年。因此,在双方被隔离不合适互通消息的状态下,最好的策略其实是两人同一时间坦白,这样两人至多分别只被判5年,总体也比被判10年好。

强盗A和强盗B最为适合的选择,是同一时间向检察官承认杀人罪行,这种两人都选择承认杀人罪行的策略,以及同一时间被判5年。

这样的博弈结果,我们称之为“纳什均衡”,而它的正式学术名称叫做“非合作均衡”。

这一囚徒困境选择,有着广泛而深刻的辐射意义。因为,当个体在选择策略时,如果没有“共谋”或者窜供,每一个体都会选择对自己最有利的策略,肯定不会思考社会福祉,或很多的对手的利益。

这就说明着,个体与集体之间即便有冲突,但是个体追求利己行为,最终会导致的结局是一个“纳什均衡”,也是对全部人都有利的结局。

从“纳什均衡”中我们还合适悟出一个道理:合作,才是超级有利的“利己策略”。但是,合作一定符合一个黄金律:一定是双方都根据一样的方法行事才行。

男人、博弈、权力

了解了囚徒困境之后,我们再来说说男人与博弈,而男人博弈的核心只是权力。

在电影《教父》中,有一句台词是这样说的:“女人和幼儿能够粗心大意,但是男人不行。”

90后新生代估计对“男人的圣经”《教父》不是很了解。但很多70后、80后都是它的忠诚老实拥趸,因为它讲述的只是一个男人权力与实力的剧本,堪称博弈古典。

权力与博弈,历来被看作男人的魅力与实力的最好表现。

在《教父》这部电影中,呈现最多的只是“合作”与“背叛”。使用最多的也是博弈思维,并且影片还向全部人传达出一个最为有利的理论,那么是根据囚徒困境演绎而来的一个道理:永远不要与背叛过你的人合作。

在《博弈论》中,这也是一个著名的模型——重复囚徒博弈。

重复囚徒博弈规则是,在每一次单独博弈中,参加双方都只有两个选择:合作或者背叛。我们将AB双方的选择配合排列如下:

合作+合作

合作+背叛

背叛+合作

背叛+背叛

在博弈中,如果A和B双方合作,就合适各拿3分;如果一方选择合作而另一方背叛,则背叛方将能拿到5分,选择合作的一方就只能拿0分;如果双方都选择背叛,则各拿1分。

综上所述,AB双方的积分表排列如下:

1.A:合作得3分,B:合作得3分;

2.A:合作得0分,B:背叛得5分;

3.A:背叛得5分,B:合作得0分;

4.A:背叛得1分,B:背叛得1分;

在此基础上,我们再来分析怎么选择背叛的人会一直得益。

用A来分析这种实际,如果A一直选择策略“背叛”,那么A必然会接触以下两种状态:

① B合作,A背叛,A得5分。

② B背叛,A背叛,A拿1分。

合适看出两次分数中,选择背叛的A,每次都能拿3分。假设把A的策略变成“合作”,则A会遇见以下状态:

① B合作,A合作,A会获取3分。

② B背叛,A合作,A会获取0分。

两次分数统计中,A每次就只能得1.5分。相比于A选择背叛策略时,他的分数显然减少。

所以如果一直这样比对下去,你会发现,如果人们一直选择“背叛”策略,那么人们会一直不吃亏。从这种理论上讲,平时选打破规则的人,的确会比往往一般人获取再多。而这种人,往往一般都是会背叛别人的人。

所以说,只要你看清楚某个体的个体信誉有问题,就一定不要与他有所有合作,千万不要指望这种体会善心大发,或者回头是岸。

人性使然他绝无可能变化,选择背叛策略的人,只会一直背叛他人,让自己获益。

这样的人,也肯定不值得你给他第二次机遇!