基于近端优化的永磁同步电机温度预测方法

汽车技术

【摘要】为了精准有效地实现永磁同步电机的温度预测，提出了一种基于近端策略优化（PPO ）算法和强化学习（RL ）网

络的永磁同步电机温度预测模型，即PPO-RL 模型，利用PPO 算法定义模型训练的损失目标函数，选择Nadam 算法作为模型优化器，通过强化学习的Actor-Critic 框架最小化损失目标函数，进而完成模型的迭代训练。采用Kaggle 公开的永磁同步电机测量数据集进行试验，结果表明，与指数加权移动平均法、循环神经网络和长短期记忆网络相比，PPO-RL 模型具有更高的预测精度和可靠性。

主题词：永磁同步电机温度预测近端策略优化算法强化学习

中图分类号：U469.72；TM351；TP183文献标识码：A

DOI:10.19620/jki.1000-3703.20200597

A Temperature Prediction Method of PMSM Based on Proximal

Optimization

Cen Gang 1,Zhang Chenguang 1,Cen Yuefeng 1,Ma Weifeng 1,Zhao Cheng 2

（1.Zhejiang University of Science and Technology,Hangzhou 310023;2.Zhejiang University of Technology,Hangzhou 310014）

【Abstract 】For accurate and effective temperature prediction of Permanent Magnet Synchronous Machines (PMSM),this paper proposes a temperature prediction model based on Proximal Policy Optimization (PPO)and Reinforcement Learning (RL)network,the so-called PPO-RL model.This model defines the loss objective function of model training by PPO algorithm,selects Nadam algorithm as an optimizer,and minimizes the objective function through the actor-critic framework of reinforcement learning to complete model iterative training.Experiments are conducted on the data set of

PMSM published by Kaggle,the results show that compared with the exponential weighted moving average method,Recurrent Neural Network (RNN)and Long Short Term Memory (LSTM),the PPO-RL model has higher prediction accuracy and reliability.

Key words:PMSM,Temperature prediction,Proximal policy optimization algorithm,

Reinforcement learning

岑岗1

张晨光1

岑跃峰1

张晨光马伟锋1

赵澄2

（1.浙江科技学院，杭州310023；2.浙江工业大学，杭州310014）

*基金项目：国家自然科学基金项目（61902349）；教育部规划基金项目（17YJA880004）；浙江省公益技术应用研究项目（LGF18F020011）。

基于近端优化的永磁同步电机温度预测方法*

汽车技术·Automobile Technology

1前言

永磁同步电机是电动汽车和混合动力汽车的核心部件之一，但其负载能力会受到温度等因素的影响[1-2]。为保证电机的安全、稳定运行，需要一种有效的温度预测方法帮助其提升在温度方面的抗风险能

力。

在最近的研究中，Li 等人[3]通过构建基于半实物的

温度等效模型实现了电机的温度预测，但该模型不能有效反映电机的真实运行环境。Kral 等人[4]构建了一种含有2个热节点的电机等效热传递模型，模型本身的温度估计失真却无法消除。Abdalla 等人[5]提出了一种永磁同步电机的集总参数热模型（Lumped Parameter Thermal Network ，LPTN ），该模型能够对电机的各部分温度进行计算。Wallscheid 等人[6]提出了一种永磁同步

【引用格式】岑岗，张晨光，岑跃峰，等.基于近端优化的永磁同步电机温度预测方法[J].汽车技术,2021(3):26-32.

CEN G,ZHANG C G,CEN Y F,et al.A Temperature Prediction Method of PMSM Based on Proximal Optimization[J].Automobile Technology,2021(3):26-32.

-26

2021年

第3期

电机温度动态测量方法，但该方法要求电机在中、高速条件下运转。兰志勇等人[7]利用LPTN 对永磁同步电机进行了温度场分析，但对于电机过热点的捕捉缺乏优化处理。Sciascera 等人[8]提出了一种LPTN 的变异热模型，相对于原始LPTN 的计算量更小、预测精度更高，但是模型设计的复杂度依然很高。刘平等人[9]利用信号注入方法实现了电机的温度监测，但未给出电机过载情况下的温度估计结果。Wallscheid 等人[10]利用磁链观测器实现了永磁同步电机的永磁体温度实时预测，使欧式范数最坏的情况小于10。杜爱民等人[11]利用有限元分析法建立了电机的电磁场有限元模型，得到了额定工况下电机各部件的温度分布。每个等效热模型都需要准确描述电机运转时的温度变化特性，这将导致经验丰富的设计人员需要在电机的热模型设计方面做出更多的努力。

人工智能技术在许多温度预测领域都得到了应用。Xu 等人[12]提出了一种基于新型深度学习的公共建筑室内温度预测方法，验证了深度学习在室温预测上的有效性。Liu 等人[13]提出了一种基于时间相关性的海洋温度预测方法，在预测性能上较支持向量回归（Support Vector Regression ，SVR ）和多层感知器回归（Multilayer Perceptron Regressor ，MLPR ）均具有更好的表现。Wallscheid 等人[14]将长短期记忆（Long Short Term Memory ，LSTM ）网络在电机温度预测领域进行了首次应用，但LSTM 记忆块的引入以构建更加复杂的拓扑关

系为代价。

针对上述预测模型或方法存在的问题，本文通过引入近端策略优化（Proximal Policy Optimization ，PPO ）算法[15]，并利用强化学习（Reinforcement learning ，RL ）网络完成模型构建，实现永磁同步电机的温度预测。

2基于PPO-RL 的温度预测模型

2.1

PPO 算法原理

PPO 最初应用于复杂智能体机器人的控制过程，其

优势体现在智能体训练的监督过程中能够很容易地实

现训练超参数的调节和梯度下降，在训练的每一步迭代中都会更新策略，尝试将训练目标的损失函数最小化，同时保证相邻2次迭代产生的策略不会产生较大的偏差。PPO 算法的目标函数L (θ)为：

L ()θ=E éëù

min ()

r t ()θA ,C ()t ()θ,1-ε,1+εA t （1）

式中，ε为算法的超参数；r t (θ)=πθ(a t |s t )/πθold (a t |s t )为新策略

与旧策略的比值；A t 为策略更新后相对于旧策略的优

势值，此处采用Crtic 网络的预测偏差表示；E 为平均

值计算函数；C 为截断函数，用来限制r t (θ)的更新范围；πθ(a t |s t )为更新后的策略；πθold (a t |s t )为旧策略；a t 、s t 分别为t 时刻的动作和状态值。

目标函数L (θ)中，第1部分是r t (θ)和A t 的乘积，第2

部分是将r t (θ)在区间[1-ε,1+ε]进行截断后与A t 的乘积，最终得到未截断目标和截断目标中的最小值。此处，选取Actor 网络的损失误差作为PPO 的目标函数，通过最小化该目标函数实现电机温度的准确预测。2.2

RL 网络

为了实现电动汽车永磁同步电机主要部件温度的准确预测，考虑将强化学习通用的Actor-Critic 学习框架[16]作为本文预测网络的基础。Actor-Critic 兼备了Actor-Only 和Critic-Only 的优点，能够在训练过程的梯度更新中获得更好的估计量，改善局部优化问题，图1

给出了该学习框架的一般结构。

图1Actor-Critic 框架

Actor 网络和Critic 网络是该框架的主要组成部分，

交互环境中的状态值来自永磁同步电机的记录数据集，动作值对状态值的动态选取是模型训练的基础。模型的预测结果由Actor 网络给出，同时Critic 网络给出预测结果优劣的判断，并将判断结果通过值函数反馈到Actor 网络进行梯度更新策略调整，因此Critic 网络在预测过程中对Actor 网络的反馈显得尤为重要。网络的梯

度优化由Nadam 算法实现，而迭代过程的奖励值在每一次策略更新时均会进行叠加，可进一步反映训练的优劣。2.3

PPO-RL 预测模型

电动汽车永磁同步电机温度预测模型如图2所示，Actor 网络和Critic 网络分别含有1层输入层和1层输出层，h i (i =1,2,…,5)为隐含层。图2中，θ和θold 分别为Critic 网络关于预测值和真实目标值的映射关系。

模型中各隐含层的定义方法为：

h 1=r (x t ·w 1+b 1)

（2）h i =r (h i -1·w i +b i ),i =2,3,4,5

（3）o t =r (h 5·w out +b out )

（4）

Nadam

优化

策略

Actor 网络

Critic 网络

反馈

值函数状态

Nadam

优化

奖励

动作

环境

-27

汽

车

技

术

式中，x t 为t 时刻的输入数据矩阵；w i 、b i 、h i (i =1,2,…,5)分别为网络各隐含层的权重、偏置和隐含层；w out 、b out 分别为网络输出层的权重和偏置；o t 为网络在t 时刻的最终输出；r 函数为relu 激活函数。

图2基于PPO-RL 的电机温度预测模型

设每次训练输入批次数量为N ，预测过程如下：a.

根据式（1）确定训练模型的损失目标函数，该

目标函数中的A t 和r t (θ)分别为：

A t =1N

∑()o t -y t 2

（5）r t ()θ=o t

y t

（6）

式中，y t 为真实目标值。

根据图2建立温度预测模型，其Actor 网络和

Critic 网络共享5层隐含层，且第1~5层网络神经元数量分别为512个、256个、128个、64个和32个，均使用relu 函数作为激活函数。设输出层神经元数量为1个。c.

取步长为5，依次选取5×N n （N n 为输入特征数量）的输入序列作为模型的输入数据，来预测下一时刻的目标值，通过选取步长为5，可以有效避免数据集中失真对预测精度的影响，降低预测误差，本文模型的输入特征数量为14个。在逐次迭代训练过程中，根据每一步更新得到的A t 和r t (θ)计算模型训练的目标L (θ)。

为了加速目标函数收敛，使梯度更快地达到全局极小值，利用Nadam 算法对训练的梯度进行优化更

新。该算法相比于Adam 算法引入了t 时刻梯度g t 的校

正量g t ，并引入一阶矩估计m t 的平均值m ˉt 替换其修正量m

t 用于计算更新后的梯度Δθt ：g t =g t

1-∏i -1t

u i

（7）Δθt =-η

（8）

式中，u i 为i 时刻的一阶矩估计的动量因子；η为Nadam

算法学习率；n t 为t 时刻梯度的二阶矩估计的校正量；ξ为接近于0但不为0的正数。

利用训练好的预测模型进行测试集的预测验

证，最终获得模型的预测输出值。

3评价指标

在预测试验中，选择合适的评价标准能够更直观地体现预测方法的性能表现。在许多经典的预测研究中，常采用均方根误差（Root Mean Square Error ，RMSE ）和平均绝对百分比误差（Mean Absolute Percentage Error ，

MAPE ）

[17]：

R =（9）M =100n ∑j =0n -1||

||||||

R j -P j

R j （10）

式中，R 、M 分别为均方根误差和平均绝对百分比误差；R j 为真实数据；P j 为预测的目标温度；n 为测试数据量。

为了全面评估不同方法的预测表现，仅使用上述评价指标是远远不够的。范数具有长度的概念，在矢量空间中被描述为一个从原点出发的带有箭头的有向线段，可用于衡量向量的大小。本文通过引入欧几里得2范数L 2和最坏情况无穷范数L ∞，可以讨论预测结果的逼近程度，进一步对不同方法的预测表现进行评估：

L 2=∑j =0

N -1()

R j

-P j

（11）L ∞

=max i

∑j =0

N -1|

|e ij （12）

式中，

||e ij 为第i 行所有误差元素绝对值之和。此外，采用拟合优度R 2来计算预测结果的精度：

R 2

=1-∑()T -P 2∑()T -P

ˉ2

（13）

式中，T 为真实数据；P 为预测值。

4试验分析

4.1

数据描述与处理

试验使用的基准数据来自Kaggle 数据科学竞赛平台，数据测量和收集工作由德国帕德博恩大学电力电子与电气传动系（LEA Department of Power Electronics and Electrical Drives ）完成，且基准数据已规范化处理。基准数据标签包括环境温度K a 、冷却液温度K c 、电压d 轴分量u d 、电压q 轴分量u q 、电流d 轴分量i d 、电流q 轴分量i q 、电机转速n mech 、扭矩T m 、永磁体温度K pm 、定子轭温度

K sy 、定子齿温度K st 、定子绕组温度K sw 和唯一ID 标识S id 。测试目标包括定子轭温度K sy 、定子齿温度K st 和定子绕组温度K sw 。基准数据共包含52个测量会话，每个测量会话可通过S id 加以区分，所有测量记录均以2Hz 的采样频率在安装三相永磁同步电机的测试台上完成。

基准数据中的测量序列基本涵盖了永磁同步电机电热变化的完整过程。但为节约计算成本，同时覆盖电

Actor 网络

PPO-RL

特征学习

数据集

Critic 网络

1×1卷积

运算

sqrt ()

θ,θ取平均值

优势函数

利用截断函数运算

取平均值

1×1卷积

运算

预测输出

h h h h h -

-28

热变化全部范围，本文按照基准数据中每个测试会话的数据量平均分配30000条测试样本进行采样，并选取300条样本作为测试数据集，剩余样本作为训练数据集。

在上述数据集基础上，考虑部分额外特征量，包括以d-q坐标系为基准的电压分量的合成电压u s、以d-q 坐标系为基准的电流分量的合成电流i s和电机功率S el：

u s=u2d+u2q（14）

i s=i2d+i2q（15）

S el=u s·i s（16）本文实际输入的特征需要除去S id和拟合目标，因此实际的输入为1个含有14个特征

量的张量。

4.2试验环境及参数定义

使用64位Windows10操作系统，计算机配置为3.4GHz Intel Core i5处理器，16GB内存。编译环境为Spyder3.3.4，Tensorflow1.13.1框架。

表1列出了试验过程中考虑的一些超参数，包括循环神经网络（Recurrent Neural Network，RNN）、LSTM、PPO-RL和指数移动加权平均（Exponentially Weighted Moving Averages，EWMA）4种预测方法。

表1超参数

除表1中能够自我解释的参数类型外，未具体提及的超参数应当被解释如下：预测网络在进行权重初始化时，最简单的方法是将权重的值随机分配到[-1,1]区间。当然，一些更为复杂有效的权重初始化方法也可以考虑，如单位正态分布或均匀分布。

4.3试验结果与分析

利用测试样本进行测试，比较EWMA网络、RNN、LSTM网络和本文预测方法对K sy、K st以及K sw的拟合性能。

为了验证本文所提出的预测方法的可行性，分别采用上述4种方法进行30次训练迭代试验，得出各预测网络的预测精度、训练时间和预测时间如表2所示。从表2可以看出，PPO-RL网络的训练时长较长，其预测时间较LSTM增加了0.27min，这是由于其网络深度较深造成的，而且该网络的神经元节点数量最高达到了512个，这也表明PPO-RL网络具有较高的时间复杂度。

表2定子轭温度预测精度和训练时间对比

定子轭温度迭代损失变化情况如图3所示，由图3可以看出，在迭代周期为10次时，定子轭温度迭代的损失曲线趋于水平，说明模型能够实现稳定的拟合。

图3定子轭温度迭代损失变化曲线

图4给出了4种预测方法对K sy的拟合曲线。由图4可知，在几种预测方法中，LSTM网络拟合的曲线存在较大波动，与真实目标值偏差较大，而使用PPO-RL模型得到的预测曲线能较好地符合目标曲线的走势。

图4定子轭温度拟合曲线对比

4种预测方法对定子齿温度预测的精度和训练时间如表3所示，迭代损失变化情况如图5所示。由表3可知，虽然PPO-RL训练花费了较长的时间，但是在迭代训练30次后，PPO-RL的预测精度仍能保持在90

%以上，并且由图5可以看出，在迭代次数达到5次时，定子齿温度即可实现较好的拟合效果。

图6给出了4种预测方法关于定子齿温度K st的拟合曲线。由图6可知，EWMA方法给出的预测目标曲线

预测方法隐藏层数量/个每层神经元数

量/个

权重

优化器

学习率

高斯噪声

超参数εRNN

40、20

normal

Adam

0.01

1.10-3

LSTM

100、50、1

normal

RMSProp

0.01

1.10-3

1.10-6

PPO-RL

512、256、128、64、32

normal

Nadam

[2.10-5,1.10-5]

1.10-3

0.02

EWMA

1.10-3

参数

预测精度/%

训练时间/min

预测时间/min

EWMA

90.20

0.43

RNN

84.79

22.25

0.43

LSTM

84.89

37.21

0.06

PPO-RL

94.00

172.26

0.33

51015202530

训练轮次

0.30

0.25

0.20

0.15

0.10

0.05

损

失

值

训练集

测试集

050100150200250300

时间/min

-2

归

一

化

温

度真实值

EWMA

真实值

RNN

真实值

LSTM

真实值

PPO-RL

-2

归

一

化

温

度

-2

归

一

化

温

度

-2

归

一

化

温

度

-29

2021年第3期

汽

车

技

术

虽然在走势上与真实值曲线大致相同，但由于其自身伴随有较大的时延特性，因此难以为实时的永磁同步电机温度预测提供合适的观测点，PPO-RL 模型在几种对比方法中依然具有较好的预测性能。

表3

定子齿温度预测精度和训练时间对比

图5

定子齿温度迭代损失变化曲线

图6定子齿拟合曲线对比

表4所示为4种预测网络对定子绕组温度的预测精度、训练时间以及预测时间对比结果。由表4可知，PPO-RL 的预测时间达到了0.30min ，其预测精度为92.05%，并且该精度较LSTM 和RNN 的预测精度分别高出4.63百分点和8.43百分点。同时，其迭代的损失变化曲线如图7所示，由图7可以看出，PPO-RL 在迭代30次后，能够得到较好的拟合性能。

图8所示为4种预测方法对定子绕组温度K sw 的预

测曲线。由图6和图8可知，在预测目标K st 和K sw 的拟合曲线上，LSTM 网络和RNN 在预测开始时能够基本符

合真实的目标曲线趋势，但结束时却存在较大的偏差。而在针对本文试验的3个预测目标进行测试的过程中，PPO-RL 拟合的目标温度曲线均表现出了较小的偏差。

表4定子绕组温度预测精度和训练时间对比

图7

定子绕组温度迭代损失变化曲线

图8定子绕组拟合曲线对比

为了进一步对比不同预测网络的温度预测性能，表5、表6和表7分别给出了针对K sy 、K sw 以及K st 的定量评价指标，其中包括R 、M 、2范数和无穷范数。

表5定子轭温度预测误差对比

表5结果表明，PPO-RL 在4种定量分析指标中均处于最低值。在相同的条件下，LSTM 在K sy 的温度预测

参数预测精度/%训练时间/min 预测时间/min

EWMA 86.060.38

RNN 83.6223.480.42

LSTM 87.4254.600.02

PPO-RL 92.05

263.180.30预测网络RNN

LSTM PPO-RL EWMA

R 0.15210.15110.06000.0980

M /%0.40970.69070.28000.3136

L 2

2.63062.61281.03721.6950

L ∞

26.992136.259914.032321.38525

1520

训练轮次

0.80.60.40.20

损失值训练集测试集

050100

150200250300

时间/min

-2归一化温度

真实值EWMA

真实值RNN

真实值LSTM

真实值PPO-RL

20-2归一化温度

1520

训练轮次

0.80.60.40.20

损失值训练集测试集

050100

150200250300

时间/min

-2归一化温度

真实值EWMA

真实值RNN

真实值LSTM

真实值PPO-RL

20-2归一化温度

参数预测精度/%训练时间/min 预测时间/min

EWMA 88.830.42

RNN 88.1921.520.42

LSTM 92.9742.090.01

PPO-RL 95.63

180.950.34-

-30

基于近端优化的永磁同步电机温度预测方法

发布评论取消回复

最近发表

热门文章

标签列表