建立强化学习的马尔可夫决策过程环境
马尔可夫决策过程是一种离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机和部分在决策者控制下的情况下建模决策。mdp对于研究使用强化学习解决的优化问题是有用的。使用rlMDPEnv
在MATLAB中创建一个用于强化学习的马尔可夫决策过程环境®.
getActionInfo |
从强化学习环境或代理获取动作数据规范 |
getObservationInfo |
从强化学习环境或agent获取观测数据规范 |
sim卡 |
在指定的环境中模拟训练过的强化学习代理 |
火车 |
在指定的环境中训练强化学习代理 |
validateEnvironment |
验证自定义强化学习环境 |