强化学习工具箱阶跃函数

21日视图(30天)

显示旧的评论

Mostafa Nazmi 2020年9月7日

评论道: Kamalova阿宾娜2022年2月21日

答:接受斯蒂芬

问候每一个人,我希望你有一个美好的时光。在强化学习工具箱functin命名为“步骤”(env、动作),我想知道什么是输入“行动”的角色在这个函数吗?

(观察、奖励、结束,LoggedSignals) =一步(env、动作)

斯蒂芬 2020年9月7日

编辑:斯蒂芬 2020年9月7日

代理人的行动选择在最后一步中,通常有一个对环境的影响。让阶跃函数知道行动选择的步骤之前,你必须把最后的动作到下一个阶跃函数的调用,然后,根据这些信息计算出下一个观察,奖励和结束标志。

看这个例子:

上面例子的链接的行动是一种指导力量应用到系统在以下步骤来计算当前步骤的新观察。

基于阶跃函数可以计算奖励,如果结束值是正确的。使用这些信息代理从环境中获得的新信息,这是选择下一步行动的基础。

Kamalova阿宾娜 2022年2月21日

结束标志意味着集是否完成。它应该有一个条件逻辑。例如,让我们说你饿了,你决定吃什么。在阶跃函数,你不断地吃,而这么做选择的炸土豆和西红柿(可能)。如何知道你已经完成和充分吗? !结束这个标志显示你应该停止吃

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

R2019b

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!