行动价值超过最后一层的境界活化因数的演员

6视图(30天)

显示旧的评论

awcii 2023年6月17日

评论道: awcii2023年6月19日

你好,

我使用DDPG代理RL应用Matlab 2022版本。

我想采取行动在0和1之间的值。为此,我使用SigmoidLayer函数在最后一层的行动。然而,它超过0 - 1境界。我也尝试着使用双曲正切

scalingLayer(规模= 0.5,偏见= 0.5);

再次,但它超出边界。如何可能?

与此同时,我也试图利用

actInfo = rlNumericSpec ([1], LowerLimit = 0, UpperLimit = 1);

限制行动,是的,这限制了行动价值但不规模。它只是作为一个饱和块(如把一块饱和模型的操作输出)。金宝app所以,用这种方式,RL错误的工作。

如何达到0和1之间采取行动?

awcii 2023年6月19日

然而,deacreasing噪声方差的原因缺乏探索在训练。所以,在完全的,我需要一个新的解决方案。

人工智能,数据科学和统计数据深度学习工具箱应用程序自主和控制系统强化学习

找到更多的在强化学习在帮助中心和文件交换

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!