rlMDPEnv
为强化学习创建马尔可夫决策过程环境
描述
马尔可夫决策过程(MDP)是一种离散时间随机控制过程。它为在结果部分是随机的,部分是在决策者控制下的情况下建模决策提供了一个数学框架。mdp对于研究使用强化学习解决的优化问题很有用。使用rlMDPEnv
在MATLAB中创建用于强化学习的马尔可夫决策过程环境®.
属性
对象的功能
getActionInfo |
从强化学习环境、智能体或经验缓冲区中获取动作数据规范 |
getObservationInfo |
从强化学习环境、agent或经验缓冲区中获取观测数据规范 |
sim卡 |
在指定的环境中模拟训练好的强化学习代理 |
火车 |
在指定的环境中训练强化学习代理 |
validateEnvironment |
验证自定义强化学习环境 |
例子
版本历史
在R2019a中引入