文件帮助中心文件
numstepstolookahead.
AC代理选择
用A.rlACAgentOptions对象指定创建演员 - 评论家(AC)代理的选项。创建演员 - 批评者,使用rlacagent.
rlACAgentOptions
rlacagent.
有关更多信息,请参阅演员批评者。
有关不同类型的强化学习代理商的更多信息,请参阅加固学习代理人。
选择= rlacagentoptions.
opt = rlacagentoptions(名称,值)
选择= rlacagentoptions.为AC代理创建一个默认选项。您可以使用点表示法修改对象属性。
选择
例子
选择= rlACAgentOptions (名称,价值)设置选项属性使用名称值对。例如,RLDQNAGENTOPTIONS('贴花因子',0.95)创建折扣系数为的选项集0.95。您可以指定多个名称值对。将每个属性名称括在引号中。
选择= rlACAgentOptions (名称,价值)
名称,价值
RLDQNAGENTOPTIONS('贴花因子',0.95)
0.95
展开全部
32.
代理在从环境中学习经验之前与环境交互的步骤数,指定为一个正整数。当agent使用递归神经网络时,numstepstolookahead.为训练轨迹长度。
Entropylossweight.
0.
1
熵损失重量,指定为标量值0.和1。较高的损失重量值通过对太肯定采取的行动施加罚款来促进代理商探索。这样做可以帮助代理人迁出当地的Optima。
集步骤T.,熵丢失函数,被添加到演员更新的丢失函数,是:
H T. = E. σ. K. = 1 m μ K. ( S. T. | θ μ ) LN. μ K. ( S. T. | θ μ )
这里:
E.是熵损失的重量。
m是可能的行动的数量。
μK.(S.T.|θμ)是采取行动的可能性一种K.在状态时S.T.遵循现行政策。
当在训练期间计算梯度时,计算额外的梯度分量以最小化该损失函数。
Usedeterministicexploitation.
错误的
真正的
选项,以指定为逻辑值的方式返回模拟和策略生成的最大可能性操作。什么时候Usedeterministicexploitation.被设置为真正的,可能性最大的动作总是用在SIM和生成policyfunction.,使代理的行为具有确定性。
SIM
生成policyfunction.
什么时候Usedeterministicexploitation.被设置为错误的,代理示例了从概率分布的动作,这导致代理随机行事。
采样时间
试剂的采样时间,以正标量表示。
在Simulink金宝app中®环境,代理商每次执行采样时间模拟时间秒。
在MATLAB®环境,每当环境进步时,代理就会执行。然而,采样时间输出经验中连续元素之间的时间间隔是否由SIM或火车。
火车
贴纸物
0.99
在培训期间应用于未来奖励的折扣因素,指定为小于或等于1的正标量。
全部收缩
创建AC代理选项对象,指定折扣系数。
opt = rlacagentoptions('贴花因子',0.95)
opt =具有属性的rlacagentoptions:numstepstolookahead:32 entropylosswight:0 udedeterministicexploitation:0 Sampletime:1折扣摩擦:0.9500
您可以使用点表示法修改选项。例如,将代理采样时间设置为0.5。
0.5
opt.SampleTime = 0.5;
未来发布的行为变化
对于大多数环境,此属性的值应优于1优于1。如果您找到了Matlab R2020B或更高版本,并且您想要重现如何rlacagent.在R2020B之前的版本上表现,将此值设置为1。
您有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,以便在可用的地方进行翻译的内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。
联系您当地的办公室