› 博弈论模拟器返回

数理科学

博弈论模拟器

操作囚徒困境、鹿猎、鸡肉博弈的利得矩阵求纳什均衡，通过空间进化博弈实时可视化展示合作与竞争的动态。

博弈预设

利得矩阵（行：参与者1，列：参与者2）

	参与者2：合作 (C)	参与者2：背弃 (D)
参与者1：合作 (C)	/	/
参与者1：背弃 (D)	/	/

进化博弈设置

网格大小

突变率

更新规则

初始策略

计算结果

—

合作率

代数

—

平均利得

—

帕累托最优

合作 (C)

背弃 (D)

以牙还牙

胜利坚守

博弈

利得

理论与主要公式

对于任意参与者 $i$ 和策略 $s_i'$:
$u_i(s_i^* , s_{-i}^*) \geq u_i(s_i', s_{-i}^*)$

复制方程:
$\dot{x}_i = x_i(f_i - \bar{f})$

博弈论模拟器简介

🙋

用这个模拟器怎样找"纳什均衡"？只需要改动利得矩阵的数字就可以吗？

🎓

总的来说，均衡是指没人愿意单方面改变策略的状态。工具中，首先选择"囚徒困境"等预设，然后直接点击并修改利得矩阵的数字。例如，如果增大"合作"的报酬，你会看到均衡"跳"到"合作"。实务中，价格竞争模型通过调整这些数字来预测均衡价格。

🙋

但这是静态分析嘛。下面"空间进化博弈"里的网格在动，那是在看什么？

🎓

很好的问题。底部网格模拟纳什均衡无法解释的"策略传播与进化"。试试用滑块改变"更新规则"或"突变率"。例如，改为"从邻居模仿高利得策略"，然后观察合作如何扩散或衰退。这种技术用于研究种群行为和社会规范的传播。

🙋

我把"初始策略"从"随机"改成"几乎全是合作"，但马上就变成了背弃……这就是"囚徒困境"的可怕之处吗？

🎓

完全同意！你亲眼看到了个人理性行为导致集体非最优结果的悖论。现在试试切换到"鹿猎博弈"并用同样参数运行。你会看到合作被维持住。这说明博弈的结构（利得矩阵）决定了种群命运。这在汽车行业技术标准竞争（如VHS对Betamax）的分析中很常见。

常见问题

某些博弈（如鸡肉博弈的混合策略均衡）没有纯策略均衡。此时需要手动计算混合策略均衡，或调整数值使纯策略均衡存在。

通过屏幕上的滑块或数值输入设置0-100%。低比例时竞争策略易扩散，高比例时合作易维持。建议按10%步长变化观察动态。

横轴是时间步长，纵轴是策略比例。观察合作（蓝）和竞争（红）是否收敛。线条稳定表示均衡，持续振荡表示可能存在混合均衡。

纳什均衡取决于利得的大小关系，而非绝对值。囚徒困境中，只要背弃利得>合作利得，均衡就不变。修改后务必按"更新"按钮。

实际应用

经济学与商业战略：企业价格竞争和广告战通过纳什均衡模型预测市场价格。新进入者策略或卡特尔行为如何扰乱均衡是研究重点。

生物学与生态：动物行为（领地争夺、食物分配、繁殖策略）用"进化稳定策略(ESS)"研究。例如鸽派-鹰派策略如何在种群中共存。

政治学与国际关系：军备竞争、国际谈判、环境条约遵守可建模为囚徒困境或鸡肉博弈，分析互不信任如何导致非合作均衡及制度设计。

计算机科学与网络设计：互联网数据传输、用户行为建模为博弈。各节点自我优化导致网络拥塞的"拥塞博弈"分析。

常见误区与注意事项

首先，舍弃"纳什均衡是唯一正解"的想法。例如鹿猎博弈有两个纳什均衡："全合作"和"全背弃"。改变初始条件会导致收敛到不同均衡，反映现实中初始条件和历史路径对结果的影响。

其次要避免"进化博弈参数设置陷阱"。"最优应答"规则会导致网格策略变化极快甚至混乱，这表明模型过度简化了现实的学习与模仿。应用时务必核实所模拟系统的实际学习机制。

最后，理解"利得矩阵数值的绝对值不重要，大小关系才是本质"。囚徒困境中，只要满足：诱惑利得T > 报酬R > 惩罚P > 悲剧S，裏切就是优势策略。修改数字时要关注这些不等关系的变化。

使用指南

在利得矩阵四个格子中输入数值：m00r（合作-合作）、m01r（合作-背弃）、m10r（背弃-合作）、m11r（背弃-背弃），分别表示各参与者的报酬
设置初始合作比例0～100%，世代数50～500
点击"开始"按钮启动空间进化博弈（网格配置）的实时可视化，追踪各世代合作率变化
纳什均衡达到时自动计算平均利得和帕累托最优判定

具体计算示例

囚徒困境标准形式：合作-合作(3,3)、合作-背弃(0,5)、背弃-合作(5,0)、背弃-背弃(1,1)。初始合作率60%，运行200代。第50代时合作率下降至32%，第120代达到均衡，平均利得1.85。引入以牙还牙(TfT)策略后，合作率稳定在75%，平均利得升至2.94。

实务应用注意事项

以金钱单位（万元、万美元）设置利得时，需在长期利得中反映折扣率：长期利得=∑(利得×折扣率^代数)
100×100网格下局部相互作用改变进化速度，30及以下网格会快速收敛，不利于实务战略验证
多均衡（混合策略）情况下依赖初始配置，企业协作分析应进行10次以上不同初值模拟
无法达到帕累托最优的利得结构需引入协力诱导机制（合同、声誉）