我怎么能提供约束行为的强化学习提供的代理商吗?

6视图(30天)
你好,
我有强化学习环境模型2的观察和5连续操作。金宝app我想添加约束行为。
例子:
行动行动行动(1)+(2)+(3)+(4)+行动行动(5)不应超过1。
我提供的上限和下限的行动。但是,有一个通用的方法来与所有5动作值与上述约束和发送模型的价值吗?金宝app
任何帮助在同一将非常感激!
提前谢谢!

接受的答案

Emmanouil Tzorakoleftherakis
Emmanouil Tzorakoleftherakis 2021年4月13日
硬约束通常不支持在培训期间RL。金宝app您可以指定限制/约束正如上面你提到的,但这只是以根据需要输出的政策和饱和,也就是说只有最初的行动被认为是当代理收集数据/培训、不饱和(影响收敛等)。
添加一个方法 约束是通过添加惩罚奖励的信号。它仍然不能保证这将是受人尊敬的,但至少这是考虑在训练时直接改变奖励。看到 例如示例。

更多的答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!