接受不同的培训结果在运行相同的代码

10视图(30天)
我跑的训练RL模型但是忘了保存所以我想再次运行相同的脚本
但是我稍微改变了反应?
我不应该得到相同的训练结果吗?
也什么关系b / w不同采样时间的演员和代理。
2的评论
Sourabh
Sourabh 约1小时前
好,这意味着更高的样品时间我的经纪人更好的控制或什么?
也在训练中如果麦克斯步骤是100这意味着100秒/集的仿真运行吗?

登录置评。

答案(1)

史蒂文的主
史蒂文的主 约2小时前
随机数参与创建或训练你的RL的过程模型?(我猜是最有可能是的。)一种方法来检查这是随机数发生器的状态设置为一个已知的,使用固定的值 rng 然后运行您的代码。重置的发电机相同,固定值并再次运行代码。
rng (0,“旋风”);
x =兰德(1、5)
x = 1×5
0.8147 0.9058 0.1270 0.9134 0.6324
y =兰德(1、5)%不一样的x
y = 1×5
0.0975 0.2785 0.5469 0.9575 0.9649
isequal (x, y)
ans =逻辑
0
rng (0,“旋风”);
y =兰德(1、5)% x是一样的
y = 1×5
0.8147 0.9058 0.1270 0.9134 0.6324
isequal (x, y)
ans =逻辑
1

下载188bet金宝搏


释放

R2023a

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!