强化学习——多个离散的动作

27日视图(30天)

显示旧的评论

恩里科密欧 2019年5月23日

0
链接

这个问题直接联系

https://it.mathworks.com/matlabcentral/answers/463693-reinforcement-learning-multiple-discrete-actions

回答: kqha1025 kqha10252022年6月23日

答:接受 Emmanouil Tzorakoleftherakis

我想使用DQN代理有多个连续状态(或观察)和两个动作信号,每个都有三种可能的值的组合。例如,参见下一行,明白我的意思:

                         一个= (2 0 2);
                        
                         b = (3 0 3);
                        
                         [A, B] = meshgrid (A, B);
                        
                         行动=重塑(猫(2,' B '), [], 2);

如果我想创建离散的动作,我需要把矩阵转换成一个细胞并运行命令:

                         actionInfo = rlFiniteSetSpec (num2cell(行动,2));
                        
                         actionInfo。Name =“行动”;

此外,在DQN,评论家,包括深层神经网络。我已经创建了评论家如下:

                         %为评论家:创建一个款
                        
                         hiddenLayerSize = 48;
                        
                         observationPath = [
                        
                         imageInputLayer ([numObs 1 1],“归一化”,“没有”,…
                        
                         “名字”,“观察”)
                        
                         fullyConnectedLayer (hiddenLayerSize“名字”,“CriticStateFC1”)
                        
                         reluLayer (“名字”,“CriticReLu1”)
                        
                         fullyConnectedLayer (hiddenLayerSize“名字”,“CriticStateFC2”)
                        
                         additionLayer (2“名字”,“添加”)
                        
                         reluLayer (“名字”,“CriticCommonReLu1”)
                        
                         fullyConnectedLayer (hiddenLayerSize“名字”,“CriticCommonFC1”)
                        
                         reluLayer (“名字”,“CriticCommonReLu2”)
                        
                         fullyConnectedLayer (1,“名字”,“CriticOutput”));
                        
                         actionPath = [
                        
                         imageInputLayer([1]价值,“归一化”,“没有”,“名字”,“行动”)
                        
                         fullyConnectedLayer (hiddenLayerSize“名字”,“CriticActionFC1”));
                        
                         %创建layerGraph:
                        
                         criticNetwork = layerGraph (observationPath);
                        
                         criticNetwork = addLayers (criticNetwork actionPath);
                        
                         %连接actionPath obervationPath:
                        
                         criticNetwork = connectLayers (criticNetwork,“CriticActionFC1”,“添加/ in2”);
                        
                         %为评论家表示指定选项:
                        
                         criticOpts = rlRepresentationOptions (“LearnRate”1 e 03…
                        
                         “GradientThreshold”,1“UseDevice”,“图形”);
                        
                         %创建评论家表示使用指定款和选项:
                        
                         评论家= rlRepresentation (criticNetwork observationInfo actionInfo,…
                        
                         “观察”,{“观察”},“行动”,{“行动”},criticOpts);
                        
                         %为代理设置所需的选项:
                        
                         agentOptions = rlDQNAgentOptions (…
                        
                         “SampleTime”,dt,…
                        
                         “UseDoubleDQN”,真的,…
                        
                         “TargetSmoothFactor”1 e - 3,…
                        
                         “DiscountFactor”,0.99,…
                        
                         “ExperienceBufferLength”1 e7,…
                        
                         “MiniBatchSize”,128);

我的问题是第一个图像输入层到行动路径 imageInputLayer([值1 1],“正常化”,“没有”,“名字”,“行动” )。我曾经尝试过的值1、2、9和18 价值 ,但所有的结果在一个错误当我运行

代理= rlDQNAgent(评论家,agentOptions);

这是因为actionInfo 9元素的一个细胞,每一个都有双向量的维度[1,2],而 imageInputLayer 预计尺寸 (价值,1,1) 。

所以,我怎么能在MATLAB建立DQN代理有两个主要的离散动作信号,每个都有三个可能的值?

提前感谢你的帮助!

2的评论
显示1年长的评论藏1年长的评论

克莱门斯Fricke 2019年7月11日

PG.m

嘿,

我不确定我是否应该打开一个新线程,但因为它是非常接近这个问题我会先问一下这里。

我试图用PG代理与多个离散的动作和我不知道我最后的行动网络。

我有[62]行动(62离散参数与每个状态)和输出层只接受一个是整数,而不是向量。我试过2参数的数量和124的数量可能的行动。都给我同样的错误:

                               错误使用分类(第337行)
                              
                               可以没有找到独特的价值观VALUESET使用独特的功能。
                              
                               错误在rl.util。rlLayerRepresentation / buildNetwork(第719行)
                              
                               分类(ActionValues ActionValues);
                              
                               错误在rl.util。rlLayerRepresentation / setLoss(第175行)
                              
                               这= buildNetwork(这个);
                              
                               错误在rl.agent。rlPGAgent / setActorRepresentation(第339行)
                              
                               演员= setLoss(演员,cte的,“EntropyLossWeight”,opt.EntropyLossWeight);
                              
                               错误在rl.agent。rlPGAgent(47)行
                              
                               这= setActorRepresentation(演员,这选择);
                              
                               错误在rlPGAgent(第21行)
                              
                               代理= rl.agent.rlPGAgent(变长度输入宗量{:});
                              
                               错误在DQN(第67行)
                              
                               代理= rlPGAgent(演员、基线、agentOpts);
                              
                               引起的由:
                              
                               错误使用cell /独特(第85行)
                              
                               细胞输入必须是一个数组单元阵列的特征向量。

我有附加的文件发表评论。

恩里科密欧 2019年8月30日

对不起,我刚刚见过。

你有62个国家和2的行为?或2,62行动?或124的行为?

我不建议大量的行动,因为它会导致学习的问题。

登录置评。

在回答这个问题。

接受的答案

Emmanouil Tzorakoleftherakis 2019年5月30日

1
链接

直接链接到这个答案

https://it.mathworks.com/matlabcentral/answers/463693-reinforcement-learning-multiple-discrete-actions answer_377244

嗨,恩里科,

试一试

                             actionPath = [
                            
                             imageInputLayer ((1 2)“归一化”,“没有”,“名字”,“行动”)
                            
                             fullyConnectedLayer (hiddenLayerSize“名字”,“CriticActionFC1”));