为强化学习代理表示(批评者和参与者)设置的选项
rlValueRepresentation |
强化学习主体的价值函数批判表示 |
rlQValueRepresentation |
强化学习主体的q值函数批判表示 |
rlDeterministicActorRepresentation |
强化学习主体的确定性行为体表示 |
rlStochasticActorRepresentation |
强化学习智能体的随机角色表示 |