PPO不使用体验缓冲所以你应该没事的加载保存剂恢复训练。不过,如果您使用的是优势正常化之前的信息不会转移到新的训练。
简历培训PPO代理
15的观点(30天)
显示旧的评论
我试图运行的PPO代理环境本质上是一个文本文件包含从机器人动态获取的数据写入模拟器(Webots)。这个工作但是有随机的CPU峰值导致它崩溃因为机器人模拟器和MATLAB运行simulatneously(尽管它将typicallly做几千集至少之前崩溃)。
我用以下链接保存剂后每一集,然后重新加载代理和重新运行:
https://uk.mathworks.com/matlabcentral/answers/495436-how-to-train-further-a-previously-trained-agent
use_previous_agent = true;
如果use_previous_agent
%负载从pre-trained代理经验
负载(“Filepath……”,“saved_agent”);
代理= saved_agent;
其他的
%创建一个新的代理
代理= rlPPOAgent(演员、评论家、agentOpts);
agent.AgentOptions.CriticOptimizerOptions。LearnRate = 3 e - 3;
agent.AgentOptions.ActorOptimizerOptions。LearnRate = 3 e - 3;
结束
trainOpts = rlTrainingOptions (…
MaxEpisodes = 100000,…
MaxStepsPerEpisode = 600000,…
情节=“训练进步”,…
StopTrainingCriteria =“AverageReward”,…
StopTrainingValue = 4300,…
ScoreAveragingWindowLength = 100,…
SaveAgentCriteria =“EpisodeCount”,…
SaveAgentValue = 10,…
SaveAgentDirectory = pwd +“\ run1 \代理”);
trainingStats =火车(代理,env, trainOpts);
我不确定这是正确的,因为上面的链接谈到专门为DDPG有重置缓冲等的经验。我想知道如果任何人有经验与PPO的代理会知道这是一个可行的过程?
谢谢提前