简历培训PPO代理

15的观点(30天)
哈利邓恩
哈利邓恩 2023年4月8日
我试图运行的PPO代理环境本质上是一个文本文件包含从机器人动态获取的数据写入模拟器(Webots)。这个工作但是有随机的CPU峰值导致它崩溃因为机器人模拟器和MATLAB运行simulatneously(尽管它将typicallly做几千集至少之前崩溃)。
我用以下链接保存剂后每一集,然后重新加载代理和重新运行: https://uk.mathworks.com/matlabcentral/answers/495436-how-to-train-further-a-previously-trained-agent
use_previous_agent = true;
如果use_previous_agent
%负载从pre-trained代理经验
负载(“Filepath……”,“saved_agent”);
代理= saved_agent;
其他的
%创建一个新的代理
代理= rlPPOAgent(演员、评论家、agentOpts);
agent.AgentOptions.CriticOptimizerOptions。LearnRate = 3 e - 3;
agent.AgentOptions.ActorOptimizerOptions。LearnRate = 3 e - 3;
结束
trainOpts = rlTrainingOptions (
MaxEpisodes = 100000,
MaxStepsPerEpisode = 600000,
情节=“训练进步”,
StopTrainingCriteria =“AverageReward”,
StopTrainingValue = 4300,
ScoreAveragingWindowLength = 100,
SaveAgentCriteria =“EpisodeCount”,
SaveAgentValue = 10,
SaveAgentDirectory = pwd +“\ run1 \代理”);
trainingStats =火车(代理,env, trainOpts);
我不确定这是正确的,因为上面的链接谈到专门为DDPG有重置缓冲等的经验。我想知道如果任何人有经验与PPO的代理会知道这是一个可行的过程?
谢谢提前

接受的答案

Emmanouil Tzorakoleftherakis
Emmanouil Tzorakoleftherakis 2023年4月10日
PPO不使用体验缓冲所以你应该没事的加载保存剂恢复训练。不过,如果您使用的是优势正常化之前的信息不会转移到新的训练。

更多的答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!