凯发娱乐城

注册游戏账号

新葡京娱乐城

进入游戏大厅

博天堂娱乐城

真人棋牌游戏开户

您现在的位置:网投乐园>博彩技巧>其他游戏技巧> 正文

动手写一个 DQN 的棋牌 AI

来源:http://www.wangtouleyuan.com 作者:其他游戏技巧

真人棋牌游戏

博天堂

  ─其他游戏技巧深度强化学习是学术界研制游戏 AI 的主流算法。

  这篇文章我们将用深度强化学习早期代表算法 DQN 算法探索棋牌 AI。

  机器学习分为三个部分:表示、目标和优化。

  深度学习 (Deep Learning, DL) 属于表示范畴,能够自动抽取事物的特征,将之表达成计算机能理解数据。

  强化学习 (Reinforcement Learning, RL) 则属于目标范畴,能够用设定奖励函数和自动探索将模型训练到期望的目标。

  深度强化学习 (Deep Reinforcement Learning,DRL) 是将深度学习与强化学习结合起来的算法,利用深度学习强大的特征抽取表示能力,利用强化学习的目标能力,从而实现更通用的人工智能。

  Deep Q Network (DQN) 是深度学习和传统强化学习算法 Q-Learning 的方法,是深度强化学习早期代表算法之一。

  Q-Learning 算法其实是状态-动作价值版本的时差学习 (Temporal Difference, TD) 算法。

  Q-Learning 利用马尔科夫性质,只利用了下一步信息。

  Q-Learning 让系统按照策略指引进行探索,在探索每一步都进行状态价值的更新,更新公式如下所示。

  s 为当前状态,a 是当前采取的动作,s’ 为下一步状态,a’ 是下一个状态采取的动作,r 是系统获得的奖励,αα 是学习率,γγ 是衰减因子。

  在深度学习时代,深度学习和 Q-Learning 的结合,再加上 replay-memory、doubble-network 的技巧,便诞生了 DQN。

  棋牌游戏是棋类游戏和牌类游戏的统称。

  棋类游戏和牌类游戏不同,它们有各自鲜明的特点。

  棋类游戏是明牌,专业说法是完全信息游戏,典型的棋类游戏有中国象棋、国际象棋和围棋等。

  牌类游戏是暗牌,专业说法是非完全信息游戏,典型的牌类游戏有斗地主、七鬼五二三、桥牌和德州扑克等。

  这次我们要用的游戏是七鬼五二三。

  在中国各地的七鬼五二三有不同的版本,我们在非完美信息游戏 AI 环境 ——RoomAI实现的七鬼五二三游戏采用了一位同事(哈大王)家乡的版本:多人使用一副或者多副扑克,一开始随机每人五张牌,牌的大小排列——7、大王、小王、5、2、3、A、K、Q、J─其他游戏技巧、10、9、8、6、4;游戏分为两个阶段,准备阶段和出牌阶段;在准备阶段,玩家出了几张牌补回几张牌.(手上确认一直都是5张牌);在出牌阶段,先打完手上牌的玩家获胜。

  RoomAI是非完美信息游戏 AI 环境。

  在 RoomAI 中,选手获得游戏环境给出的信息,当前选手选择合适的动作,游戏环境根据该动作推进游戏逻辑;重复上述过程,直到分出胜负;整个过程如下所示。

  近年来,人工智能在棋牌游戏 AI 领域进步神速。

  1997 年,国际象棋首先被计算机系统深蓝攻陷 2016 年 3 月,棋类游戏的巅峰围棋被计算机系统 AlphaGo 攻破;不想不满一年,2017 年 1 月,计算机系统 Libratus 攻克了德州扑克。

  连围棋都被攻克了,完全信息的棋类游戏没有什么学术价值了,但非完全信息的牌类游戏还有一些问题值得我们探究。

  虽然 Libratus 在德州扑克中超越了人类,但只是两位选手对局情况。

  如果是多人对局的德州,我们就没有办法使用 CRM 了,需要设计不同的算法框架。

  按照 Tuomas Sandholm 教授本人的观点,那就是一个 “totally different story”。

  更进一步的情况,某些牌类游戏不仅允许多人对局,还允许或者要求某些选手之间合作。

  比如,斗地主有三位选手,两位农民对战一位地主。

  再比如桥牌和四国军棋,两位选手组成一队,两队进行对局。

  这些情况也是现有没有考虑过的问题。

  我们在非完美信息游戏 AI 环境 ——RoomAI提供的三个玩家的七鬼五二三游戏上开发 DQN 算法,进行实验。

  为了简单起见,我们只在三个玩家的七鬼五二三开发我们的 AI, 得到的模型不适用于其他个数的七鬼五二三游戏。

  在 RoomAI 上实现 DQN 时,有两点需要特别注意。

  1) DQN 算法接收的数据为 s,a,r,s’,其中 s’ 为 s 的下一个状态。

  但是因为要支持非完美信息游戏,当前玩家出了一个动作之后,当前玩家不知道下一个玩家面对的信息。

  因此 s’ 只能是当前玩家下一次面对的信息。

  中间其他玩家的反应可以认为是系统的组成部分。

  2) DQN 算法接收的数据为 s,a,r,s’,在动作空间固定的情况下,就可以根据公式 1 更新模型。

  但是在 RoomAI 中,当前玩家的可选动作空间不是固定的。

  因此需要接受数据 s,a,r,s’,A’,其中 A’ 表示当前玩家可选动作空间,由 RoomAI 的 API 提供。

  实现一个七鬼五二三的 AI 需要三步。

  动手写一个棋牌 AI 的第一步就是确定网络结构。

  我们实现的 DQN 如下所示:当前状态 s 和可选动作 a, 分别经过 CNN 网络转换成向量,然后将两个向量拼接起来,最后通过 DNN 得到一个实数值 Q(s,a)。

  第二步是确定特征。

  我们需要抽取状态和动作的特征。

  状态特征是 15 * 5 大小的 8 层图片,15 * 5 中每行对应一个点数和每列代表一个花色,花色一共有 4 个正常花色和大小王的虚拟花色。

  8 层中其中有 4 层是准备阶段启用,另外 4 层是出牌阶段启用。

  4 层分别是当前的手牌,玩家历史中打出去的牌,上家历史中打出去的牌,下家历史中打出去的牌。

  动作特征则是 15 * 5 大小的 2 层图片,其中 1 层准备阶段启用,另外 1 层是出牌阶段启用,每层都是牌─其他游戏技巧。

  第三步是确定奖励函数。

  这里我们使用了一个很简单的奖励函数:游戏没有结束,奖励等于 -1; 游戏结束了,按照游戏给出的评分计算奖励;RoomAI 给三人的七鬼五二三游戏的评分是,唯一的胜利者 2 分,另外两个失败者得 -1 分。

  为了进行实验,我们简单设置了两个基线)随机出牌方法。

  简单规则方法比随机出牌的方法好一些。

  根据我们的实验,两人对局的情况下,简单规则方法赢得随机出牌方法的比例是 91.3 %。

  训练时,三方都是我们的模型,同时进行训练。

  评价时,一方是我们的模型,另外两方是基线方法。

  下图就是实验的结果,其中横坐标表示迭代次数(迭代一次相当于跑了 10 局),纵坐标是我们模型胜率。

  在三个能力相当的模型随机模拟,每个玩家的胜率应该是 33.33..%。

  即超过 33.33…%,就比相应的基线方法要好。

  从上图的结果来看,DQN 的方法能够学习到比随机出牌和简单规则好的 AI。

  但这些 AI 并没有太强,毕竟这两个基线不是很强。

  因为我们只是用了最简单的 DQN,网络结构也没有经过优化,特征也没有精细地挑选。

  如果要进一步加强 AI 的能力,需要更多的工作。

  这个工作就是验证下 RoomAI 框架能不能支持 AI 的开发,后续就不继续这方面的工作,而是转向其他算法框架解决棋牌 AI 问题。

  总体结论:DQN 能学习到一个相对比较好的 AI,但要得到一个比较强大的 AI 还需要更多特征、网络结构和训练目标的优化。

  深度强化学习是学术界研制游戏 AI 的主流算法。

  这篇文章我们将用深度强化学习早期代表算法 DQN 算法探索棋牌 AI。

  我们利用非完美信息游戏环境 RoomAI 提供的七鬼五二三游戏上,用 DQN 开发 AI。

  实验表明,DQN 能够取得一定的效果。

  本文相关代码可以在Github上找到,欢迎喜欢的同学们 star。

   泰国开网上赌场 地下赌场凤凰网 京城地下赌场新京报 新葡京赌场p654.com 网上赌场如何套利 澳门赌场895959.com 007皇家赌场幕后组织 结局大破皇家赌场 007皇家赌场22央视 皇家赌场007下药女郎 007皇家赌场高清种子 皇家赌场007怎么中毒的

  • 原文标题:动手写一个 DQN 的棋牌 AI
  • xpj

    9you娱乐城

    特别推荐

    
  • 谷歌搜索留痕推广
  • 谷歌搜索留痕排名技术
  • 谷歌快速排名
  • 留痕方法
  • 谷歌搜索快速方法
  • google搜索留痕程序
  • 谷歌快速排名
  • 澳门太阳城
  • 最大博彩公司
  • 谷歌搜索关键词排名
  • 搜索留痕程序
  • 谷歌排名出售
  • 谷歌蜘蛛池排名
  • 搜索留痕软件
  • 缅甸果敢赌场
  • 电子游艺规则
  • 谷歌留痕推广
  • google引流程序
  • 谷歌快速排名
  • google引流程序
  • 留痕推广
  • 大西洋城赌场
  • 买球地址
  • 搜索留痕
  • 搜索留痕程序出售
  • 谷歌蜘蛛池排名技术
  • 留痕程序
  • 如何提高google搜索排名
  • 数字币博彩
  • 洗钱方法
  • Google留痕收录
  • 最新谷歌搜索留痕排名
  • 搜索留痕
  • Google留痕收录
  • google搜索留痕
  • 数字币博彩网站
  • 足球投注平台
  • 博彩推广话术
  • 推广引流方法
  • 引流方法
  • 博彩推广话术
  • 网上博彩推广引流
  • 数字币赌场
  • 皇冠现金网
  • 蜘蛛池排名
  • 谷歌蜘蛛池
  • 留痕程序出售
  • google搜索留痕程序
  • 比特币网上赌场
  • 洗钱平台
  • 搜索留痕
  • 博彩推广方式
  • 网上博彩推广
  • 快速排名
  • 搜索留痕程序
  • bbin平台大全
  • 体育博彩公司排名
  • 留痕排名技术
  • 最新谷歌关键词排名
  • 推广渠道
  • 谷歌快速排名
  • 博彩推广
  • 世界杯赌球地址
  • 皇冠博彩公司
  • 谷歌排名出售
  • 博彩引流渠道
  • 搜索留痕程序
  • google搜索留痕
  • 引流渠道
  • 果敢网上赌场
  • 世界杯赌球
  • 搜索留痕方法
  • 博彩搜索留痕
  • 博彩引流
  • 博彩引流
  • 搜索留痕
  • 缅甸网上赌场
  • 欧洲杯赌球
  • 谷歌搜索排名
  • 留痕程序
  • 网上博彩推广引流
  • 留痕技术
  • 搜索留痕技术出售
  • 澳门威尼斯人网上赌场
  • 外围博彩
  • 博彩网站推广
  • 推广引流
  • 留痕程序出售
  • 谷歌推广引流技术
  • 推广引流方法
  • 美国在线赌场
  • 沙巴体育投注平台
  • 最新谷歌搜索留痕
  • 谷歌蜘蛛池排名技术
  • 网站推广方法
  • 留痕程序出售
  • 博彩推广方法
  • 菠菜论坛
  • 买球平台
  • 谷歌搜索留痕
  • 蜘蛛池排名
  • 博彩公司推广渠道
  • 谷歌搜索留痕
  • 博彩公司推广渠道
  • 真钱游戏
  • 网上赌球地址
  • 赌球平台推荐
  • 赌球网址
  • 博彩包网
  • 买球app
  • 澳门博彩公司
  • 威尼斯人赌场
  • 博彩平台推荐
  • 美国博彩网站
  • 缅甸实体赌场
  • 柬埔寨网上赌场
  • 柬埔寨在线赌场
  • 韩国博彩
  • 支持人民币的博彩公司
  • 世界五大比特币交易所
  • 欧易是哪个国家的
  • 中币跑路
  • 亚洲博彩公司
  • 合法网上赌场
  • 马尼拉赌场
  • 支持人民币的博彩公司
  • 大陆博彩平台
  • 澳门新葡京娱乐城
  • 老挝赌场
  • 世界赌场排名
  • 网上博彩公司排行
  • 菠菜论坛
  • 东南亚赌博网站
  • 虚拟币博彩
  • 澳门百家乐网址
  • 网上博彩导航
  • 区块链百家乐游戏
  • 马来西亚博彩公司
  • 越南赌场
  • 区块链百家乐
  • 香港娱乐场
  • 澳大利亚赌博网站
  • 足球赔率
  • 菲律宾网上赌场
  • 数字币博彩网站
  • 足球投注网站
  • 百家乐论坛
  • 皇冠体育博彩公司
  • 网上赌博网站
  • 网上博彩推广话术
  • 谷歌搜索快速方法
  • 网上博彩推广话术
  • 数字币赌场
  • 皇冠博彩公司
  • 世界杯博彩公司
  • 英国博彩公司
  • 网上博彩合法化
  • 新加坡赌场
  • 比特币网上赌场
  • 怎么洗钱
  • 加密货币博彩平台
  • 世界杯赌球网址
  • 网上赌球地址
  • 博彩推广方式
  • 印度尼西亚博彩公司
  • 国际包网
  • bbin平台直营
  • 亚洲体育博彩平台
  • 越南博彩公司
  • 百家乐路单
  • 澳门博彩官网
  • 博彩网推荐
  • 澳门太阳城网址
  • 百家乐网址
  • 世界杯赌球网址
  • 皇冠博彩网址
  • 洗钱方法
  • 买球网站
  • 欧洲杯赌球平台
  • 皇冠现金网
  • 外围赌球平台
  • 果敢赌场
  • 买球技巧
  • 全球最大博彩公司
  • 电子游艺
  • 真人电子游戏
  • 骰宝游戏规则
  • 亚洲体育博彩平台
  • 澳门在线赌场
  • 缅甸赌场地址
  • 赌球平台
  • 赌场如何赢钱
  • 世界杯买球网站
  • 真人牌九游戏
  • 世界杯买球官网
  • 时时彩平台
  • 六合彩预测
  • 威尼斯人网上赌场
  • 外围赌球网站
  • 赌博网址
  • 彩票群
  • 微信赌博群
  • 韩国首尔赌场
  • 赌钱游戏
  • 美国网上赌场
  • bbin官网
  • 沙巴体育官网
  • 博彩平台推荐
  • 数字币博彩网站
  • 比特币网上赌场
  • 世界赌场名单
  • 美国赌场攻略
  • 菠菜论坛排名
  • 菠菜论坛排名
  • 缅甸网上赌场
  • 支持人民币的博彩公司