基于强化学习的永磁同步电机磁场定向控制

Kishen马哈,MathWorks

采用强化学习和DDPG算法对永磁同步电机进行磁场定向控制。本演示在标准面向现场的控制体系结构的内环中将两个PI控制器替换为强化学习代理，并展示如何使用强化学习工作流设置和培训代理。

在这个 视频， 我们展示了如何 使用强化学习的领域定向控制 一个 永磁同步电机。

 为了展示这一点，我们从一个使用典型的面向领域的控制架构的例子开始，其中外环控制器负责速度控制;而内环 PI 控制器负责控制d轴和q轴电流。 

然后，我们创建并验证 强化学习代理 它取代了此体系结构的内环控制器。

当系统是非线性的时，使用RL代理尤其有益，在这种情况下，我们可以训练单个RL代理，而不是在多个操作条件下调整PI控制器。

在本例中，我们使用线性电机模型展示了使用强化学习的磁场定向控制工作流，对于复杂的非线性电机，该工作流也保持不变。

让我们看看实现面向现场控制体系结构的金宝appSimulink模型。  

该模型包含两个控制回路：外部速度回路和内部电流回路。

外环是在“速度控制”子系统中实现的，它包含一个PI控制器，负责为内环产生参考电流。

内环在“电流控制”子系统中实现，包含两个PI控制器，用于确定dq帧中的参考电压。

然后，参考电压用于生成适当的PWM信号，控制逆变器的半导体开关，然后驱动永磁同步电机以实现所需的转矩和磁通。

让我们继续运行Simulink模型。  金宝app

 我们可以看到，控制器的跟踪性能良好，能够跟踪期望的速度。

让我们保存此结果，以便稍后与强化学习控制器进行比较。

现在，我们更新现有模型，用强化学习代理块替换当前回路中的两个PI控制器。  

在这个例子中，我们使用DDPG作为强化学习算法，它同时训练一个演员和一个评论家来学习一个最优的策略，使长期回报最大化。

一旦用强化学习块更金宝app新了Simulink模型 ，我们就可以按照强化学习工作流来设置、训练和模拟控制器。

强化学习工作流程如下：

第一步是创建一个环境。在本例中，我们已经有了一个Simulink模型，其中包含使用“电厂和逆变器”子系统中的电机控制块集和Simscape Elect金宝apprical建模的永磁同步电机。

然后，我们使用此Simulink模金宝app型创建一个具有适当观察和操作的强化学习环境界面。

在这里，对强化学习块的观察是定子电流“id错误”和“iq错误”以及定子电流“id”和“iq”中的错误。

动作是定子电压“vd”和“vq”。

接下来，我们创建奖励信号，让强化学习代理根据其与环境的交互，知道其在训练期间选择的动作的好坏。

在这里，我们基于二次奖励惩罚(惩罚距离目标和控制努力的距离)来塑造奖励。

然后我们继续创建网络体系结构。

在这里，我们根据DDPG算法的要求，使用MATLAB函数对层和表示进行编程构造参与者和评论网络。

神经网络也可以使用Deep Network Designer应用程序构建，然后导入MATLAB。

本例中的批评家网络将观察值和动作作为输入，并给出估计的Q值作为输出。

另一方面，行动者网络将观察作为输入，并将行动作为输出。

创建演员和影评人表示后，我们可以创建DDPG代理。

DDPG代理的采样时间根据控制回路的执行要求进行配置。

一般来说，样本时间较小的代理需要更长的时间进行训练，因为它涉及到每个事件中更多的模拟步骤。

我们现在准备培训代理。

首先，我们指定培训选项。

这里我们指定我们希望最多运行2000集的培训，如果平均奖励超过提供的价值就停止培训。

然后我们使用' train '命令开始训练过程。

通常，最佳做法是在训练过程中将参考信号随机分配给控制器，以获得更稳健的策略。这可以通过为环境编写局部重置函数来实现。

在培训过程中，可以在事件管理器中监控进度。

一旦训练完成，我们就可以从训练的代理模拟和验证控制策略。

利用训练agent对模型进行仿真，发现强化学习agent控制定子电流时，磁场定向控制具有良好的速度跟踪性能。

通过查看这一性能与先前保存的输出，我们看到，具有强化学习代理的领域定向控制的性能与它的PI控制器对应部分相当。 

视频到此结束。

强化学习工具箱

下一个:

37:15

参数化和验证永磁同步电机。。。

基于强化学习的永磁同步电机磁场定向控制

相关产品下载188bet金宝搏

强化学习工具箱

下一个:

相关视频: