rlMDPEnv
描述
马尔可夫决策过程(MDP)是一个离散时间随机控制的过程。它提供了一个数学建模框架决策结果的情况下部分随机,部分的控制下决策者。mdp是有用的利用强化学习研究优化问题的解决。使用rlMDPEnv
创建一个马尔可夫决策过程强化学习在MATLAB环境®。
属性
对象的功能
getActionInfo |
从强化学习环境,获得行动数据规范代理或经验缓冲区 |
getObservationInfo |
从强化学习环境,获得观测数据规范代理或经验缓冲区 |
sim卡 |
模拟训练强化学习代理在指定的环境中 |
火车 |
强化学习培训代理在指定的环境中 |
validateEnvironment |
验证自定义强化学习环境 |
例子
版本历史
介绍了R2019a