摘要:试试就试试。快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类知识。只用4个GPU,短短几天的训练时间,快手布局斗地主游戏 快手布局斗地主怎么弄

尝试就尝试。</p>n<p>快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类姿势。</p>n<p>只用4个GPU,短短几天的训练时刻,就在Botzone排行榜上的344个斗地主AI中排行第一。</p>n<p>而且还有在线试玩(链接在文章最后),手机也能运行。</p>n<p>在线试玩中示范的是三人斗地主,玩家可以选择扮演地主、地主的上家或下家。</p>n<p>选择当地主来玩玩看,可以打开显示AI手牌功能,更容易观察AI决策经过。另外可以配置AI思考时刻,默认是3秒。</p>n<p>在AI的回合,会显示面临的决策和每种打法的预测胜率。</p>n<p>有时可以看到AI并不是简单地选择当前胜率顶尖的打法,而是有更全局的思考。</p>n<p>斗地主对AI来说,很难</p>n<p>从博弈论的角度看,斗地主是“不完全信息博弈”。</p>n<p>围棋是全部棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。</p>n<p>而斗地主每个玩家都看差点其他人的手牌,对于AI来说更有挑战性。</p>n<p>在棋牌类游戏中,虽然斗地主的信息集的大致和数量不如麻将,但行动空间有10^4,和德州扑克等于,而大多数强化进修模型只能处理很小的行动空间。</p>n<p style=\"text-align:center;\"></p>n<p>斗地主的全部牌型总共有27472种也许。</p>n<p>像下图的手牌就有391种打法。</p>n<p>且斗地主的行动不要易被抽象化,使搜索的计算成本很高,像Deep Q-Learning和A3C等强化进修模型都只有差点20%的胜率。</p>n<p>另外作为不对称游戏,多少农民要在沟通手段有限的情况下合作并和地主对抗。</p>n<p>像扑克游戏中最流行的“反事实后悔最小化”(Counterfactual Regret Minimization)算法,就不擅长对这种竞争和合作建模。</p>n<p>全局、农民和地主网络并行进修</p>n<p>首先将手牌情形编码成4x15的独热(one-hot)矩阵,也就是15种牌每种最多能拿到4张。</p>n<p>DouZero是在Deep Q-Learning的基础上进行改进。</p>n<p>运用LSTM(长短期记忆神经网络)编码历史出牌,独热矩阵编码预测的牌局和当前手牌,最终用6层,隐藏层维度为512的MLP(多层感知机)算出Q值,得出打法。</p>n<p>除了“进修者”全局网络以外,还用3个“人物”网络分别作为地主、地主的上家和下家进行并行进修。全局和本地网络之间通过共享缓冲区定期通信。</p>n<p>△进修者和人物的算法</p>n<p>DouZero在48个内核和4个1080Ti的一台服务器上训练10天击败了之前的冠军,成为绝顶斗地主AI。</p>n<p>下一步,加强AI间的协作</p>n<p style=\"text-align:center;\"></p>n<p>对于之后的职业,DouZero团队提出了多少路线:</p>n<p>一是尝试用ResNet等CNN网络来代替LSTM。</p>n<p>以及在强化进修中尝试Off-Policy进修,将目标策略和行为策略分开以进步训练效率。</p>n<p>最后还要明确地对农民间合作进行建模。好家伙,以后AI也会给队友倒卡布奇诺了。</p>n<p>柯洁在围棋被AlphaGO击败以后,2024年参与了斗地主锦标赛获取了冠军。</p>n<p>不了解会不会有AI“追杀”过来继续挑战他。</p>n<p>在线试玩:https://www.douzero.org</p>n<p>GitHub项目地址:https://github.com/kwai/DouZero</p>n<p>论文地址:https://arxiv.org/pdf/2106.06135.pdf</p>n<p>参考链接:[1]https://www.sohu.com/a/285835432_498635</p>n<p>— 完 —</p>n<p>量子位 QbitAI · 头条号签约</p>n<p>关注大家,第一时刻获知前沿科技动态