强化学习DDPG代理半主动控制问题

16个视图(30天)

显示旧的评论

v0rtex 2021年3月27日

0
链接

这个问题直接联系

//www.tatmou.com/matlabcentral/answers/785506-reinforcement-learning-ddpg-agent-semi-active-control-issue

评论道: 摩诃Mosalam2021年12月1日

答:接受 Emmanouil Tzorakoleftherakis

亲爱的Matlab社区,

我实现了一个强化学习代理(DDPG)控制的半主动悬架系统模型为我的硕士论文。金宝app仿真软件金宝app模型是半车模型有两个轮胎连接到底盘的身体和代理人应当控制可变阻尼器前后的轴。但是每个学习与大量的会话集DDPG代理只学习一个次优控制策略。主要结果尽可能低的阻尼比为轴,最大轴前面只有微小的控制调整(示例图)。

模型的描述:

13日连续观察
2连续操作
奖励函数负二次底盘和俯仰加速度
Resetfunction加载一个伪随机道路每集概要文件
阻尼比从900年到4300年Ns / m
每集最后10秒

我试过所有这些变化,结果大多是相同的:

NumHiddenUnit 25和256
学习速率的演员= 1 e - 3和1的军医
有和没有并行计算
300年、1500年和2000年

我的问题:

有什么问题我的经纪人,他只会让小控制措施?
有没有可能,我DDPG代理doenst探索足够了吗?

抱歉我的坏英语和我感谢你所有的帮助。

                         % %代理创建
                        
                         % Actionspace
                        
                         2 actInfo = rlNumericSpec ([1],…
                        
                         “LowerLimit”hfmParam.dA.value (1)…
                        
                         “UpperLimit”hfmParam.dA.value (2));
                        
                         % Observationspace
                        
                         obsInfo = rlNumericSpec (13 [1],…
                        
                         “LowerLimit”,(负负负负负负负负负负负负0]”,…
                        
                         “UpperLimit”,正正正正正正正正正正正正40]”);
                        
                         % %环境
                        
                         env = rl金宝appSimulinkEnv (mdl agentBlock、obsInfo actInfo);
                        
                         env。ResetFcn = @(在)localResetFcn(的);
                        
                         %代理选项
                        
                         agentOpts = rlDDPGAgentOptions (“SampleTime”、tS);
                        
                         knnOpts = rlAgentInitializationOptions (“NumHiddenUnit”obsInfo.Dimension (1) * 2 - 1);
                        
                         %的代理
                        
                         代理= rlDDPGAgent (obsInfo actInfo、knnOpts agentOpts);
                        
                         评论家= getCritic(代理);
                        
                         critic.Options。LearnRate = 1 e - 3;
                        
                         代理= setCritic(代理、批评);
                        
                         演员= getActor(代理);
                        
                         actor.Options。LearnRate = 1的军医;
                        
                         代理= setActor(代理、演员);