谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-05
期卷“V型”翻红!焦煤涨超2%!钢价能否止跌企稳? 大连洁净能源集团原董事长邵阳被查秒懂 强力新材:光敏性聚酰亚胺仍处于客户验证阶段 德翔海运上半年纯利升逾2.2倍!股价高开低走,业绩隐忧渐现?记者时时跟进 生意社:8月4日恒力石化ABS装置动态最新进展 茅台酒糟“重生记”:变废为宝,反哺生态农业 盘点名酒的标志性酒具,听花酒的“听花堆雪壶”亮了!后续会怎么发展 券商CFO盘点:长江证券财务总监陈水元56岁硕士学历年薪109万,比本科学历的东北证券CFO王天文薪酬低30万 上半年江苏A股上市公司增量位居全国第一太强大了 “稳增长”与“防风险”并重 央行明确下半年七方面工作重点 一款烧了几十亿的神药,撑起泰诺麦博IPO后续会怎么发展 “稳增长”与“防风险”并重 央行明确下半年七方面工作重点这么做真的好么? 欧股集体高开 欧洲斯托克600指数开盘上涨0.1%记者时时跟进 券商CFO盘点:南京证券财务总监刘宁薪酬92万元,比行业平均低30万后续来了 消息称旗舰新机评估 OV50X 国产一英寸主摄,单帧动态范围最高 110dB 期卷“V型”翻红!焦煤涨超2%!钢价能否止跌企稳?后续反转 助贷整改倒计时2个月,“24%+公证”新玩法能否走通? 广发证券获易方达基金增持347.1万股 每股作价约17.75港元学习了 三生制药完成发行3114.25万股认购股份最新报道 鼎益丰控股:梁炜泰获委任为公司秘书官方处理结果 信义能源将于10月10日派发中期股息每股0.029港元 郑州银行获弘康人寿保险增持1495万股 每股作价约1.33港元是真的吗? 阳光保险拟申请H股全流通官方通报 亚洲金融:股价及成交量不寻常变动 业务营运维持正常太强大了 娃哈哈宗氏家族财产纠纷受关注,宗庆后临终前委托的“信托”到底是啥?后续来了 广发证券获易方达基金增持347.1万股 每股作价约17.75港元后续反转 晶合集成筹划赴港IPO 引入华勤技术24亿元战略投资后续会怎么发展 【兴证策略张启尧团队】坚定多头思维,布局低位成长 日销过万毫升!青岛啤酒节老城会场这款啤酒最受欢迎又一个里程碑 奔驰女司机冒用丈夫执法证如何处理?二级消防士是什么等级?实测是真的 此起彼伏的烧舱试验背后,是储能企业的集体安全焦虑……记者时时跟进 突发,688230,重大资产重组!关于A股市场,信息量大这么做真的好么? 地质灾害气象风险预警:甘肃青海等地部分地区发生地质灾害风险很高 招商策略:8月中下旬A股可能继续创新高 300264,筹划控制权变更!停牌! 关税令客户不安,华尔街银行在欧洲失势 金种子酒等白酒股周跌超3%,白酒指数未能实现周线7连阳官方处理结果

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章