如何修改行动强化学习培训期间的经历吗

21日视图(30天)
嗨专家
我正在做一个强化学习项目使用强化学习。制定问题有一组巨大的离散动作。所以不要用深问学习离散行动,我转向DDPG连续行动空间。我想做的是,在每次我收到一封来自演员的行动网络,我离散化最有效的离散动作。然后我想商店的经验不是原始连续行动,但最近的离散的行动。DDPG训练在Matlab存储原始动作演员网络生成的默认加噪声。有没有办法修改操作存储在内存缓冲区的经验之前推?谢谢!

答案(1)

Emmanouil Tzorakoleftherakis
Emmanouil Tzorakoleftherakis 2022年7月29日
如果你工作在仿真软件中,您可以使用“最后行动金宝app”端口 RL代理块 显示是什么行动,实际上是应用于环境。
如果您的环境是在MATLAB中,您可以将其移动到仿真软件MATLAB Fcn块和遵循上面的,或者你可以编写自己的自定义训金宝app练循环。
7评论
跑
2022年8月11日
我已经创建了一个模型草稿如下所示。金宝app
我创建一个功能块离散化行动实际应用环境。环境是另一个块右边输出端口包括NextObs,奖励和结束。右上角的“延迟”块是让环境得到下一个观察基于先前的观察。请帮助检查是否草案有意义吗?
专,我混淆了两个问题:
1)当RL需要获得下一状态基于当前状态,当前的状态是如何存储在环境块?
2)我试图重置初始状态通过这样做
函数在= localResetFcn N_UAV)
%初始状态:所有完全控E_Cap,所有从地面开始,人力资源
%
状态= (2 * 1 (1,N_UAV), 0 (1, N_UAV), 4] ';% / E_Cap * 2,因为输入正常化
黑色= sprintf (“Env_UAVChg /环境/ NextObs”);
在= setBlockParameter(黑色,“InitialCondition”num2str(状态));
结束
但是我得到了一个错误:外港块没有参数命名为“InitialCondition”。请建议如何重置每集的状态吗?谢谢

登录置评。

下载188bet金宝搏


释放

R2021b

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!