rlQAgentOptions

q学习代理的选项

展开全部页面

描述

使用一个rlQAgentOptions对象指定创建q学习代理的选项。要创建q学习代理，请使用rlQAgent

有关q学习代理的更多信息，请参见q学习的代理．

有关不同类型的强化学习代理的更多信息，请参见强化学习代理．

创建

语法

opt = rlQAgentOptions

opt = rlQAgentOptions(名称，值)

描述

选择= rlQAgentOptions创建一个rlQAgentOptions对象，用于在使用所有默认设置创建Q-learning代理时作为参数。可以使用点表示法修改对象属性。

选择= rlQAgentOptions (名称,值）设置选项属性使用名称-值对。例如,rlQAgentOptions (DiscountFactor, 0.95)创建贴现因子为的选项集0.95．可以指定多个名称-值对。将每个属性名用引号括起来。

属性

全部展开

`EpsilonGreedyExploration`- - - - - -贪婪的探索选项
`EpsilonGreedyExploration`对象

贪婪的探索选项，指定为EpsilonGreedyExploration具有以下属性的对象。

财产	描述	默认值
`ε`	概率阈值，要么随机选择一个动作，要么选择使状态-动作值函数最大化的动作。更大的值`ε`意味着代理以更高的速率随机探索操作空间。	`1`
`EpsilonMin`	最小值`ε`	`0.01`
`EpsilonDecay`	衰减率	`0.0050`

在每个训练时间步骤结束时，如果ε大于EpsilonMin，然后使用以下公式进行更新。

= *(1-EpsilonDecay)

如果您的代理收敛到局部最优值太快，您可以通过增加ε．

控件后使用点表示法指定浏览选项rlQAgentOptions对象选择．例如，将epsilon值设置为0.9．

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

评论家优化器选项，指定为rlOptimizerOptions对象。它允许您指定临界逼近器的训练参数，如学习率，梯度阈值，以及优化器算法及其参数。有关更多信息，请参见rlOptimizerOptions而且rlOptimizer．

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

试剂的取样时间，指定为正标量或－1．将此参数设置为－1允许基于事件的模拟。

在Simulink金宝app中^®环境中,RL代理块，在其中指定代理执行每个SampleTime秒模拟时间。如果SampleTime是－1，块从它的父子系统继承采样时间。

在MATLAB中^®环境时，每当环境前进时执行代理。在这种情况下，SampleTime输出经验中连续元素之间的时间间隔是否由返回sim卡或火车．如果SampleTime是－1，返回的输出体验中连续元素之间的时间间隔反映了触发代理执行的事件的时间。

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

折扣因子应用于培训期间的未来奖励，指定为小于或等于1的正标量。

对象的功能

rlQAgent Q-learning强化学习代理

例子

全部折叠

创建Q-Learning代理选项对象

打开实时脚本

本示例展示如何为Q-Learning代理创建一个选项对象。

创建一个rlQAgentOptions对象，该对象指定代理采样时间。

opt = rlQAgentOptions(“SampleTime”, 0.5)

opt = rlQAgentOptions with properties: EpsilonGreedyExploration: [1x1 rl.option。EpsilonGreedyExploration] CriticOptimizerOptions: [1x1 rl.option。rlOptimizerOptions] SampleTime: 0.5000 DiscountFactor: 0.9900 InfoToSave: [1x1 struct]

可以使用点表示法修改选项。例如，将代理折扣因子设置为0.95．

opt.DiscountFactor = 0.95;

rlQAgentOptions

描述

创建

语法

描述

属性

`EpsilonGreedyExploration`- - - - - -贪婪的探索选项
`EpsilonGreedyExploration`对象

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量

对象的功能

例子

创建Q-Learning代理选项对象

版本历史

另请参阅

主题

rlQAgentOptions

描述

创建

语法

描述

属性

EpsilonGreedyExploration- - - - - -贪婪的探索选项EpsilonGreedyExploration对象

CriticOptimizerOptions- - - - - -评论家优化选项rlOptimizerOptions对象

SampleTime- - - - - -药剂取样时间1(默认)|积极的标量|－1

DiscountFactor- - - - - -折现系数0.99(默认)|小于等于1的正标量

对象的功能

例子

创建Q-Learning代理选项对象

版本历史

另请参阅

主题

`EpsilonGreedyExploration`- - - - - -贪婪的探索选项
`EpsilonGreedyExploration`对象

`CriticOptimizerOptions`- - - - - -评论家优化选项
`rlOptimizerOptions`对象

`SampleTime`- - - - - -药剂取样时间
`1`(默认)|积极的标量|`－1`

`DiscountFactor`- - - - - -折现系数
`0.99`(默认)|小于等于1的正标量