文档帮助中心文档
建立马尔可夫决策过程模型
MDP = createMDP(状态,动作)
例子
MDP= createMDP (州,行动)用指定的状态和动作创建一个马尔可夫决策过程模型。
MDP= createMDP (州,行动)
MDP
州
行动
全部折叠
创建具有八个状态和两个可能操作的MDP模型。
MDP = createMDP(8,[《飞屋环游记》;“向下”]);
指定状态转换及其相关奖励。
状态1转换和奖励Mdp.t (1,2,1) = 1;Mdp.r (1,2,1) = 3;Mdp.t (1,3,2) = 1;Mdp.r (1,3,2) = 1;状态2转换和奖励Mdp.t (2,4,1) = 1;Mdp.r (2,4,1) = 2;Mdp.t (2,5,2) = 1;Mdp.r (2,5,2) = 1;状态3过渡和奖励Mdp.t (3,5,1) = 1;Mdp.r (3,5,1) = 2;Mdp.t (3,6,2) = 1;Mdp.r (3,6,2) = 4;状态4过渡和奖励Mdp.t (4,7,1) = 1;Mdp.r (4,7,1) = 3;Mdp.t (4,8,2) = 1;Mdp.r (4,8,2) = 2;状态5转换和奖励Mdp.t (5,7,1) = 1;Mdp.r (5,7,1) = 1;Mdp.t (5,8,2) = 1;Mdp.r (5,8,2) = 9;状态6过渡和奖励Mdp.t (6,7,1) = 1;Mdp.r (6,7,1) = 5;Mdp.t (6,8,2) = 1;Mdp.r (6,8,2) = 1;状态7过渡和奖励Mdp.t (7,7,1) = 1;Mdp.r (7,7,1) = 0;Mdp.t (7,7,2) = 1;Mdp.r (7,7,2) = 0;状态8过渡和奖励Mdp.t (8,8,1) = 1;Mdp.r (8,8,1) = 0;Mdp.t (8,8,2) = 1;Mdp.r (8,8,2) = 0;
指定模型的终端状态。
MDP。TerminalStates = [“s7”;“s8”];
模型状态,指定为以下之一:
正整数-指定模型状态的数量。在这种情况下,每个状态都有一个默认名称,例如“s1”对于第一种状态。
“s1”
String vector -指定状态名。在这种情况下,状态的总数等于向量的长度。
建模动作,指定为以下之一:
正整数-指定模型动作的数量。在这种情况下,每个操作都有一个默认名称,例如" a1 "第一个动作。
" a1 "
String vector -指定动作名称。在这种情况下,动作的总数等于向量的长度。
GenericMDP
MDP模型,返回为GenericMDP具有以下属性的对象。
现状后
当前状态的名称,以字符串形式指定。
状态名,指定为长度等于状态数的字符串向量。
动作名称,指定为长度等于动作数量的字符串向量。
T
状态转换矩阵,指定为三维数组,它决定了代理在环境中可能的运动。状态转移矩阵T是否有一个概率矩阵表示代理从当前状态移动的可能性年代到任何可能的下一个状态年代通过执行行动一个.T是一个年代——- - - - - -年代——- - - - - -一个数组,年代状态数和一个是动作的数量。它由:
年代
一个
T ( 年代 , 年代 ' , 一个 ) = p r o b 一个 b 我 l 我 t y ( 年代 ' | 年代 , 一个 ) .
从非终末态转移概率的总和年代一个给定动作的总和必须为1。因此,所有脱离给定状态的随机跃迁必须同时指定。
例如,表示处于状态1下面的行动4移动到状态的概率是相等的2或3.,使用以下方法:
1
4
2
3.
MDP。T(1,[2 3],4) = [0.5 0.5];
您还可以指定,在某个操作之后,有一定概率保持相同的状态。例如:
MDP。T(1,[1 2 3 4],1) = [0.25 0.25 0.25 0.25];
R
奖励转换矩阵,指定为一个3-D数组,它决定代理在环境中执行一个动作后获得多少奖励。R与状态转移矩阵的形状和大小相同T.离开这个州的奖励年代州年代通过执行行动一个由:
r = R ( 年代 , 年代 ' , 一个 ) .
TerminalStates
网格世界中的终端状态名称,指定为状态名称的字符串向量。
rlMDPEnv|createGridWorld
rlMDPEnv
createGridWorld
您有这个示例的修改版本。要使用编辑打开此示例吗?
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入该命令来运行该命令。Web浏览器不支持MATLAB命令。金宝app
选择一个网站,在可用的地方获得翻译的内容,并查看当地的活动和优惠。根据您所在的位置,我们建议您选择:.
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
联系当地办事处