行动价值超过最后一层的境界活化因数的演员

6视图(30天)
你好,
我使用DDPG代理RL应用Matlab 2022版本。
我想采取行动在0和1之间的值。为此,我使用SigmoidLayer函数在最后一层的行动。然而,它超过0 - 1境界。我也尝试着使用双曲正切
scalingLayer(规模= 0.5,偏见= 0.5);
再次,但它超出边界。如何可能?
与此同时,我也试图利用
actInfo = rlNumericSpec ([1], LowerLimit = 0, UpperLimit = 1);
限制行动,是的,这限制了行动价值但不规模。它只是作为一个饱和块(如把一块饱和模型的操作输出)。金宝app所以,用这种方式,RL错误的工作。
如何达到0和1之间采取行动?
3评论
awcii
awcii 2023年6月19日
然而,deacreasing噪声方差的原因缺乏探索在训练。所以,在完全的,我需要一个新的解决方案。

登录置评。

答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!