在加强学习场景中,环境模拟了代理交互的动态。环境:
从代理商接收行动
输出由环境模型的动态行为产生的观察
生成奖励测量的行动有助于实现任务的贡献
您可以使用Simulink模型创建预定义和自定义环境。金宝app有关更多信息,请参阅创建Simul金宝appink强化学习环境。
RL代理人 | 加固学习代理 |
模型环境动态使用Simulink模型与代理交互,以响应代理操作而生成奖金宝app励和观察。
导入自定义环境或创建预定义的环境。
创建奖励信号,以衡量代理人在实现目标方面的成功程度。
您可以在预定义的Simulink模型中培训代理程序,用于该模型的操作,观察,奖励和动态。金宝app
创建一个加强学习模拟环境,该环境包含RL代理块,代替坦克中的水位金宝app的控制器。