星期二

利用强化学习设计游戏中的智能AI

强化学习主要的原理是根据状态而采取行动,行动而获得报酬而在后来的行动中选择更高报酬的一方。

我们假设一个游戏有类似股票的交易市场,有打怪获得经验的副本,有种植而获得产品的养成玩法,亦有关系到角色的装备系统。

以上来看评价报酬的参数就不止一个了,有金钱、等级、角色的能力值等等。

对于交易市场的问题

在交易中并不是一个行为就可以获得金钱的提升的,通常要进行买入和卖出才能评价行为的报酬。对此我有以下的考虑:

* 对于将要交易的物品进行价格评估,而在购买和卖出的时候都能获取报酬的评价。缺点:在未卖出时机器可能会只专注于购入而忘记了真正的获利。

* 对时间的理解也加入到AI中以实现时机决策。这说上去虽然简单但实现起来也有不同的方向。
1,对于每次行为判定时机都对市场所有的物品进行持仓评价(状态观测),而对于评价再进行分析而行动。行动前的结果将对上一次行动进行评价(以价格相对的变化等)
2,在购买的时候同时决定卖出时机,把这行为包装为一次行动并进行评价。

对于整体的报酬评价

由于评价参数就不止一个,有金钱、等级、角色的能力值等等,所以每个智能AI都应配备一个转换表,用所有参数生成一个最终结果值,以此值来评价行动的结果。

没有评论:

发表评论

如何在Heroku上免费部署FastAPI应用

  介绍 Heroku是一个云平台即服务(PaaS),支持Ruby on Rails,Java,Node.js,Scala,Clojure,Python,PHP和Go。 Heroku的免费版本每月提供550–1000 dyno小时。 如果没有人使用您的应用程序,则您的应用程序会在...