我怎么能提供约束行为的强化学习提供的代理商吗?
6视图(30天)
显示旧的评论
Janani苏尼尔
2021年4月12日
回答:
Emmanouil Tzorakoleftherakis
2021年4月13日
你好,
我有强化学习环境模型2的观察和5连续操作。金宝app我想添加约束行为。
例子:
行动行动行动(1)+(2)+(3)+(4)+行动行动(5)不应超过1。
我提供的上限和下限的行动。但是,有一个通用的方法来与所有5动作值与上述约束和发送模型的价值吗?金宝app
任何帮助在同一将非常感激!
提前谢谢!
0评论
接受的答案
Emmanouil Tzorakoleftherakis
2021年4月13日
硬约束通常不支持在培训期间RL。金宝app您可以指定限制/约束正如上面你提到的,但这只是以根据需要输出的政策和饱和,也就是说只有最初的行动被认为是当代理收集数据/培训、不饱和(影响收敛等)。