强化学习DDPG代理半主动控制问题
16个视图(30天)
显示旧的评论
亲爱的Matlab社区,
我实现了一个强化学习代理(DDPG)控制的半主动悬架系统模型为我的硕士论文。金宝app仿真软件金宝app模型是半车模型有两个轮胎连接到底盘的身体和代理人应当控制可变阻尼器前后的轴。但是每个学习与大量的会话集DDPG代理只学习一个次优控制策略。主要结果尽可能低的阻尼比为轴,最大轴前面只有微小的控制调整(示例图)。
模型的描述:
- 13日连续观察
- 2连续操作
- 奖励函数负二次底盘和俯仰加速度
- Resetfunction加载一个伪随机道路每集概要文件
- 阻尼比从900年到4300年Ns / m
- 每集最后10秒
我试过所有这些变化,结果大多是相同的:
- NumHiddenUnit 25和256
- 学习速率的演员= 1 e - 3和1的军医
- 有和没有并行计算
- 300年、1500年和2000年
我的问题:
- 有什么问题我的经纪人,他只会让小控制措施?
- 有没有可能,我DDPG代理doenst探索足够了吗?
抱歉我的坏英语和我感谢你所有的帮助。
% %代理创建
% Actionspace
2 actInfo = rlNumericSpec ([1],…
“LowerLimit”hfmParam.dA.value (1)…
“UpperLimit”hfmParam.dA.value (2));
% Observationspace
obsInfo = rlNumericSpec (13 [1],…
“LowerLimit”,(负负负负负负负负负负负负0]”,…
“UpperLimit”,正正正正正正正正正正正正40]”);
% %环境
env = rl金宝appSimulinkEnv (mdl agentBlock、obsInfo actInfo);
env。ResetFcn = @(在)localResetFcn(的);
%代理选项
agentOpts = rlDDPGAgentOptions (“SampleTime”、tS);
knnOpts = rlAgentInitializationOptions (“NumHiddenUnit”obsInfo.Dimension (1) * 2 - 1);
%的代理
代理= rlDDPGAgent (obsInfo actInfo、knnOpts agentOpts);
评论家= getCritic(代理);
critic.Options。LearnRate = 1 e - 3;
代理= setCritic(代理、批评);
演员= getActor(代理);
actor.Options。LearnRate = 1的军医;
代理= setActor(代理、演员);