强化学习工具箱阶跃函数

21日视图(30天)
问候每一个人,我希望你有一个美好的时光。在强化学习工具箱functin命名为“步骤”(env、动作),我想知道什么是输入“行动”的角色在这个函数吗?
(观察、奖励、结束,LoggedSignals) =一步(env、动作)

接受的答案

斯蒂芬
斯蒂芬 2020年9月7日
编辑:斯蒂芬 2020年9月7日
代理人的行动选择在最后一步中,通常有一个对环境的影响。让阶跃函数知道行动选择的步骤之前,你必须把最后的动作到下一个阶跃函数的调用,然后,根据这些信息计算出下一个观察,奖励和结束标志。
看这个例子:
上面例子的链接的行动是一种指导力量应用到系统在以下步骤来计算当前步骤的新观察。
基于阶跃函数可以计算奖励,如果结束值是正确的。使用这些信息代理从环境中获得的新信息,这是选择下一步行动的基础。
3评论
Kamalova阿宾娜
Kamalova阿宾娜 2022年2月21日
结束标志意味着集是否完成。它应该有一个条件逻辑。例如,让我们说你饿了,你决定吃什么。在阶跃函数,你不断地吃,而这么做选择的炸土豆和西红柿(可能)。如何知道你已经完成和充分吗? !结束这个标志显示你应该停止吃

登录置评。

更多的答案(0)

标签

下载188bet金宝搏


释放

R2019b

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!