Kishen Mahadvan,Mathworks
使用加强学习和DDPG算法进行永磁同步电动机的面向现场控制。该演示用标准现场对照架构的内循环中的两个PI控制器取代了两个PI控制器,并展示了如何使用加强学习工作流程设置和培训代理。
在这个视频中,我们展示了泰卢加固学习如何对帕曼森特磁铁同步电动机的田间控制。
To showcase this, we start with an example that uses the typical field oriented control architecture, where the outer loop controller is responsible for speed control; whereas the inner loop PI controllers are responsible for controlling the d-axis and q-axis currents.
然后,我们创建和验证异端措施学习代理,替换此架构的内循环控制器。
当系统是非线性时,使用RL代理的使用是特别有益的,在这种情况下,我们可以在多个操作条件下培训单个RL代理而不是调谐PI控制器。
在该示例中,我们使用线性电机模型来展示使用加强学习的现场导向控制的工作流程,并且对于复杂的非线性电机而言,该工作流程也保持不变。
让我们看看实现现场面向控制架构的Si金宝appmulink模型。
该模型包含两个控制环:外速环和内部电流回路。
外环在“速度控制”子系统中实现,并且它包含PI控制器,该PI控制器负责为内循环产生参考电流。
内环在“当前控制”子系统中实现,并包含两个PI控制器以确定DQ帧中的参考电压。
然后使用参考电压来产生控制逆变器的半导体开关的适当的PWM信号,然后将永磁同步电动机驱动以实现所需的扭矩和磁通。
让我们继续运行Simulink模型。金宝app
We can see that the tracking performance of the controllers are good and are able to track the desired speed.
让我们保存此结果以便与加强学习控制器进行稍后比较。
现在,我们通过用加强学习代理块替换当前环路中的两个PI控制器来更新现有模型。
在此示例中,我们使用DDPG作为加强学习算法,它培训了演员和评论家同时学习最佳政策,以最大化长期奖励。
一旦使用钢筋学习块金宝app验证了Simulink模型,我们将遵循加强学习工作流程来设置,列车和模拟控制器。
加强学习工作流程如下:
第一步是创建一个环境。在此示例中,我们已经拥有一个模拟模型,其中包含使用电机控制块集和“工厂金宝app和逆变器”子系统内的Simscape电气建模的永磁同步电机。
然后,我们使用此Simulink模金宝app型来创建具有适当的观测和动作的强化学习环境界面。
这里,对加强学习块的观察是定子电流的“ID误差”和“IQ错误”和定子电流的“ID”和“IQ”中的错误。
操作是定子电压'Vd'和'Vq'。
接下来我们创建奖励信号,让加强学习代理知道在培训期间选择的操作有多好或坏,这是根据其与环境的互动。
在这里,我们根据二次奖励惩罚来塑造奖励,从目标和控制努力中惩罚距离。
然后我们继续创建网络架构。
在这里,我们根据DDPG算法以编程方式使用MATLAB函数来构建演员和批评网络,以用于层和表示。
无网络网络也可以使用深网络设计器应用程序构建,然后导入MATLAB。
在此示例中的批评网络接受了作为输入的观测和动作,并将估计的Q值作为输出提供。
另一方面,演员网络将观察视为输入,并将动作作为输出提供。
使用演员和批评者表示创建,我们可以创建一个DDPG代理。
根据控制回路的执行要求,配置DDPG代理的采样时间。
通常,具有较小采样时间的代理需要较长的时间才能训练,因为它涉及每个剧集的更大量的模拟步骤。
我们现在准备训练代理人。
首先,我们指定培训选项。
在这里,我们指定了我们希望在大多数2000次剧集中运行培训并停止培训,如果平均奖励超过提供的价值。
然后我们使用“火车”命令开始培训过程。
通常,最好的做法是在培训过程中将参考信号随机化到控制器中以获得更强大的策略。这可以通过编写环境的本地复位功能来完成。
在培训过程中,可以在剧集管理器中监控进度。
一旦培训完成,我们就可以模拟并验证培训的代理的控制策略。
通过使用培训的代理模拟模型,我们看到场导向控制的速度跟踪性能具有控制定子电流的钢筋学习剂。
通过先前保存的输出查看此性能,我们看到使用强化学习代理的现场导向控制的性能与其PI控制器对应物相当。
这是视频的结论。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。