为什么我得到一个不同的操作结果每一个新的时间与相同的样本观察后部署训练RL政策?
10视图(30天)
显示旧的评论
负载(“agent0218_300016_40000.mat”,“经纪人”);
obsInfo = getObservationInfo(代理);
actInfo = getActionInfo(代理);
ResetHandle = @ () myResetFunction (test_sss);
LoggedSignals StepHandle = @(行动)myStepFunction(行动,LoggedSignals, test_sss);
envT = rlFunctionEnv (obsInfo actInfo、StepHandle ResetHandle);
simOpts = rlSimulationOptions (MaxSteps,大小(test_sss, 1));
经验= sim (envT代理simOpts);
ac3 =挤压(experience.Action.bs.Data);
% * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
% * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
generatePolicyFunction(代理);
% * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
% * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
3 = 1:尺寸(ac3, 1)
observation1 = test_sss{三世:};
action1(三世,1)= evaluatePolicy (observation1);
结束
总和(abs (ac3-action1))
0评论
接受的答案
Emmanouil Tzorakoleftherakis
2021年2月23日
你用的哪个代理?有些代理随机,也就是说,输出是基于概率分布采样通过建设他们不会给你相同的结果。
另一个可能的原因是复位功能。看来你再次模拟数据保存和运行推理,但是每次你叫‘卡’,首先重置函数被调用。如果有任何组件,随机初始条件/参数,然后你不与相同的数据进行比较。