在加强学习场景中,环境模拟了代理交互的动态。环境:
从代理商接收行动
输出由环境模型的动态行为产生的观察
生成奖励测量的行动有助于实现任务的贡献
您可以在MATLAB中创建预定义和自定义环境。有关更多信息,请参阅创建MATLAB强化学习环境。
模型环境动态使用MATLAB对象与代理交互,以响应代理操作而生成奖励和观察。
导入自定义环境或创建预定义的环境。
创建奖励信号,以衡量代理人在实现目标方面的成功程度。
您可以在预定义的MATLAB控制系统环境中培训代理,用于该系统的行为,观察,奖励和动态。
您可以在预定义的MATLAB网格世界环境中培训代理,用于该环境,操作,观察和奖励已经定义。
您可以通过定义自己的大小,奖励和障碍来创建自定义MATLAB网格世界环境。
通过提供自定义动态功能来创建强化学习环境。
您可以通过创建和修改模板环境对象来定义自定义增强学习环境。