简历培训PPO代理

15的观点(30天)

显示旧的评论

哈利邓恩 2023年4月8日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/1943714-resume-training-for-ppo-agent

回答: Emmanouil Tzorakoleftherakis 2023年4月10日

答:接受 Emmanouil Tzorakoleftherakis

我试图运行的PPO代理环境本质上是一个文本文件包含从机器人动态获取的数据写入模拟器(Webots)。这个工作但是有随机的CPU峰值导致它崩溃因为机器人模拟器和MATLAB运行simulatneously(尽管它将typicallly做几千集至少之前崩溃)。

我用以下链接保存剂后每一集,然后重新加载代理和重新运行: https://uk.mathworks.com/matlabcentral/answers/495436-how-to-train-further-a-previously-trained-agent

                          use_previous_agent = true;
                         
                          如果use_previous_agent
                         
                          %负载从pre-trained代理经验
                         
                          负载(“Filepath……”,“saved_agent”);
                         
                          代理= saved_agent;
                         
                          其他的
                         
                          %创建一个新的代理
                         
                          代理= rlPPOAgent(演员、评论家、agentOpts);
                         
                          agent.AgentOptions.CriticOptimizerOptions。LearnRate = 3 e - 3;
                         
                          agent.AgentOptions.ActorOptimizerOptions。LearnRate = 3 e - 3;
                         
                          结束
                         
                          trainOpts = rlTrainingOptions (…
                         
                          MaxEpisodes = 100000,…
                         
                          MaxStepsPerEpisode = 600000,…
                         
                          情节=“训练进步”,…
                         
                          StopTrainingCriteria =“AverageReward”,…
                         
                          StopTrainingValue = 4300,…
                         
                          ScoreAveragingWindowLength = 100,…
                         
                          SaveAgentCriteria =“EpisodeCount”,…
                         
                          SaveAgentValue = 10,…
                         
                          SaveAgentDirectory = pwd +“\ run1 \代理”);
                         
                          trainingStats =火车(代理,env, trainOpts);