一种基于自适应动态规划的输入受限微分对策制导方法技术领域
本发明涉及飞行器制导技术领域,特别是一种基于自适应动态规划的输入受限微
分对策制导方法。
背景技术
现代及未来作战环境的日益多样化,使得导弹制导律的设计越来越凸显出其不可
替代的作用。随着航空航天技术的高速发展,各种强机动、智能化、灵巧化目标(如战术弹道
导弹、智能无人机、智能巡航导弹等)不断涌现。这给拦截弹的制导与控制技术带来严重的
挑战。传统的制导律(比例制导)由于其结构简单、易于实现的优点,已经被广泛应用于实际
作战系统中。然而,面对各类新型机动智能目标,传统制导律的制导精度将明显下降,已经
不能满足未来作战的要求。微分对策理论将对策论与最优控制理论相结合,是一种描述双
方或多方连续动态冲突、竞争和合作问题的一种数学工具。与控制理论相比,具有更强的竞
争性、对抗性和实用性。微分对策制导律的设计问题具体可描述为“追逃问题”,而这正好是
微分对策理论所阐述的二人零和微分对策理论。因此,近年来,利用微分对策理论设计制导
律的方法受到很多学者的关注。
然而,现有的微分对策制导律设计方法大部分基于线性系统,即通过对导弹-目标
动力学系统线性化,得到其线性系统模型,在此基础上,利用微分对策理论设计制导律。但
在实际应用中,导弹-目标的“追逃问题”通常表现为非线性,强耦合系统。因此,发展导弹-
目标的非线性微分对策制导律设计方法尤为重要。设计非线性微分对策制导律的前提是求
解其相关的非线性Hamilton-Jacobi-Isaacs(HJI)方程。然而由于HJI方程本质上属于非线
性偏微分方程,很难求出其解析解。因此,如何高效地求解HJI方程成为设计非线性微分对
策制导律的关键问题。自适应动态规划技术是利用函数近似结构来估计代价函数,用于按
时间正向求解动态规划问题。近年来,被广泛应用于非线性最优控制问题,具有很好的应用
前景。此外,在制导过程中,输入受限问题可能导致制导过程失败。因此,在设计制导律的过
程中,考虑输入受限问题至关重要,这更加符合实际应用的要求。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种基于自适应动态
规划的输入受限微分对策制导方法,旨在解决非线性微分对策问题中的HJI方程求解问题
以及输入饱和问题。该方法利用自适应动态规划技术实现非线性微分对策的输入受限求解
问题,结合神经网络和Lyapunov方法得到制导控制量。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种基于自适应动态规划的输入受限微分对策制导方法,包括
以下步骤:
步骤1、设导弹与目标的运动为质点运动,且其速度大小恒定,定义M和T分别表示
导弹和目标,VM表示导弹的速度,VT表示目标的速度;α表示导弹的航向角,β表示目标的航向
角,表示α对时间的一阶导数,表示β对时间的一阶导数;θ为视线角;视线角速率表示为
σ;导弹与目标之间的相对距离为r,表示r对时间的一阶导数;Vr表示导弹与目标之间的视
线角相对速度;uM表示导弹垂直于速度向量的加速度控制量,vT表示目标垂直于速度向量的
加速度控制量;建立二维平面导弹-目标的相对运动方程:
考虑导弹与目标均表现为一阶自动驾驶仪,定义(xM,yM)为拦截弹在二维平面的坐
标位置,且表示xM对时间的一阶导数,表示yM对时间的一阶导数;aM表示导弹侧向加速
度,表示aM对时间的一阶导数;τM为拦截弹自动驾驶仪时间常数;拦截弹自动驾驶仪如公
式(2)所示:
定义(xT,yT)是目标在二维平面的坐标位置,且为xT对时间的一阶导数,为yT对
时间的一阶导数;aT表示目标侧向加速度,表示aT对时间的一阶导数;τT为目标自动驾驶
仪时间常数;目标自动驾驶仪如公式(3)所示:
步骤2、基于平行接近法,在制导末时刻,通过保证导弹与目标之间的视线角速率
等于零,即σ=0,从而保证导弹与目标之间的距离最小,实现成功拦截;对式(1)进行简化,
并定义为σ对时间的一阶导数;获得关于视线角速率σ的微分方程
步骤3、设计新的独立变量t=ln(r(0))-ln(r(t)),其中,r(0)表示导弹与目标之
间的初始距离;r(t)表示在t时刻导弹与目标之间的距离;符号ln(·)表示对数运算;定义
剩余时间tgo=-r/Vr;基于独立变量定义状态变量x1和x2,x1=θ,x2=σtgo,并将x1和x2表示
为向量形式,即状态变量x=[x1,x2]T=[θ,σtgo]T,上标T表示转置;基于独立变量t,对式(4)
进行变换,得到新模型如下:
式(5)中,导弹和目标新的控制量u和v分别表示为
对公式(5)和(6)整理得到微分对策模型为:
x′=f(x)+g(x)u+k(x)v (7)
式(7)中,x′表示状态变量x对独立变量求导,即,
导弹新的控制量u考虑输入受限问题,表述为|u|≤λ,λ表示控制输入饱和界限;
步骤4、根据二人零和微分对策方法,分别定义导弹和目标的反馈控制量为u(x)和
v(x),得到输入受限微分对策制导律如下:
其中,上标*表示变量的最优值,R2>0为预先设计的正定对称矩
阵,上标-1表示求逆运算,R1为预先设定的正定对称矩阵,Vx表示性能指标函数V(x)对状态x
求偏导数,即,tanh(·)表示双曲正切函数;Q(x)≥0表示与状态相关的半正定函
数,满足如下HJI方程:
步骤5、执行微分对策制导律;具体如下:
根据神经网络逼近方法,设计评价网络近似最优代价函数,V*(x)的近似形式表示
为
式(9)中,为评价网络近似权值向量,σc(x)是评价网络激活函数向量;
利用式(9),得到近似的输入受限微分对策制导律,定义导弹的近似反馈控制量为
目标的近似反馈控制量为表示为
其中,表示激活函数σc(x)对状态x的偏导数,即,
设计更新律如下:
式(11)中,表示对时间的一阶导数,ec为评价网络的输出误差,
Jx表示连续可微的径向无界Lyapunov函数J(x)对状态变量x求
偏导数;sgn(·)表示符号函数;α1
>0表示权值学习率;Y1和Y2表示设计参数;定义为如下表达式:
表示函数J(x)对时间t求导;
通过设计更新律,输入受限微分对策制导律能够在线执行,完成对机动目标的
拦截。
作为本发明所述的一种基于自适应动态规划的输入受限微分对策制导方法进一
步优化方案,所述步骤4中构建HJI方程、输入受限微分对策制导律的具体过程如下:
定义性能指标函数为:
式(12)中,Q(x)≥0表示与状态相关的半正定函数,U(u)是与输入饱和信息相关的
非二次型函数,定义如下:
式(13)中,tanh(·)表示双曲正切函数,上标-1表示求逆运算,υ表示积分变量;
定义Hamilton函数为:
其中,Vx表示性能指标函数V(x)对状态变量x求偏导数,即,
根据二人零和微分对策理论,推导得到输入受限微分对策制导律如下:
将式(15)中的u*(x)表达式带入式(13),并作运算,得如下表达式:
进而可得耦合HJI方程为:
作为本发明所述的一种基于自适应动态规划的输入受限微分对策制导方法进一
步优化方案,τM=0.1s。
作为本发明所述的一种基于自适应动态规划的输入受限微分对策制导方法进一
步优化方案,τT=0.1s。
作为本发明所述的一种基于自适应动态规划的输入受限微分对策制导方法进一
步优化方案,
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明利用自适应动态规划技术研究微分对策制导问题,有效解决了耦合HJI
方程的求解问题,使得非线性微分对策制导律设计成为可能,避免了非线性微分对策问题
离线计算的缺点。
(2)本发明通过在设计制导律的过程中,考虑了输入饱和受限问题,使得所设计的
微分对策制导律更加合理,在飞行器制导技术领域实现了自主化、智能化等要求;
(3)本发明通过构造评价网络,设计权值更新律,近似估计最优代价函数,实现了
微分对策制导律的在线学习能力;同时,保证了学习过程中系统的稳定性。
附图说明
图1是本发明的导弹-目标的二维平面相对运动示意图。
图2为本发明方法的制导控制流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为了使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明的
设计过程作详细说明。其中,自始至终相同或类似的符号表示相同或类似功能。
图2为本发明方法的制导控制流程图。
步骤1,建立二维平面导弹-目标的相对运动方程。
如图1所示,假设导弹与目标的运动为质点运动,且其速度大小恒定。定义M和T分
别表示导弹和目标,VM和VT分别表示导弹和目标的速度;α和β分别表示导弹与目标的航向
角,且分别表示航向角α,β对时间的一阶导数;θ为视线角;视线角速率表示为σ;导弹
与目标之间的相对距离为r,表示r对时间的一阶导数;Vr表示导弹与目标之间的视线角相
对速度;uM和vT分别表示导弹和目标垂直于速度向量的加速度控制量;则,导弹-目标的二维
平面相对运动可表示为如下运动方程:
本发明考虑导弹与目标均表现为一阶自动驾驶仪。
定义(xM,yM)为拦截弹在二维平面的坐标位置,且表示xM对时间的一阶导数,
表示yM对时间的一阶导数;aM表示导弹侧向加速度,表示aM对时间的一阶导数;τM为拦截
弹自动驾驶仪时间常数,在本发明中设定为τM=0.1s。则,拦截弹自动驾驶仪为:
定义(xT,yT)是目标在二维平面的坐标位置,且为xT对时间的一阶导数,为yT
对时间的一阶导数;aT表示目标侧向加速度,表示aT对时间的一阶导数;τT为目标自动驾
驶仪时间常数,在本发明中设定为τT=0.1s。则,目标自动驾驶仪为:
步骤2,基于平行接近法,在制导末时刻,通过保证导弹与目标之间的视线角速率
等于零,即σ=0,从而保证导弹与目标之间的距离最小,实现成功拦截。通过对式(18)进行
简化,并定义为σ对时间的一阶导数,可获得关于视线角速率σ的微分方程
式(21)中,随着导弹与目标之间的距离不断减小,将趋于无穷大,因此,系统函
数不满足Lipschitz条件。
步骤3,设计新的独立变量其中r(0)表示导弹与目标之间的初始
距离;r(t)表示在t时刻导弹与目标之间的距离;符号ln(·)表示对数运算。定义剩余时间
tgo=-r/Vr;则,状态变量x对独立变量的导数可表示为:
基于独立变量以及式(22),定义状态变量x1=θ,x2=σtgo,将其表示为向量形式,
即x=[x1,x2]T=[θ,σtgo]T,得到导弹-目标拦截系统新模型如下:
式(23)中,导弹和目标新的控制量u和v分别表示为
对式(23)和(24)整理可得到微分对策模型为:
x′=f(x)+g(x)u+k(x)v (25)
式(25)中,x′表示状态变量x对独立变量求导,即,
导弹新的控制量u考虑输入受限问题,可表述为|u|≤λ,λ表示控制输入饱和界限。
此时,系统函数f(x)是局部Lipschitz连续的,且输入函数g(x)和k(x)均有界。同
时,我们可以看到,当r(t)→0时,即,导弹与目标之间的有限时间动态博弈被转化为
无限时间动态博弈。因此,通过转化,导弹-目标拦截制导律的设计问题,可以转化为对非线
性系统(25)的控制问题,这使得利用微分对策理论设计制导律成为可能。
步骤4,推导输入受限微分对策闭环解形式
定义性能指标函数为:
式(26)中,Q(x)≥0是与状态相关的半正定函数,R2>0为预先设计的正定对称矩
阵;U(u)是与输入饱和信息相关的非二次型函数,本发明中,定义如下:
式(27)中,R1为预先设定的正定对称矩阵,上标T表示转置运算(下同),tanh(·)
表示双曲正切函数,上标-1表示求逆运算(下同),υ表示积分变量。
定义Hamilton函数为:
其中,Vx表示性能指标函数V(x)对状态变量x求偏导数,即,
根据二人零和微分对策理论,分别定义导弹与目标的反馈控制量为u(x)和v(x),
推导得到输入受限微分对策制导律如下:
式(29)中,上标*表示变量的最优值(下同);
将式(29)中的u*(x)表达式带入式(27),并作简单运算,可得如下表达式:
结合式(28),(29)和(30),可得耦合HJI方程为:
因此,只要能够求解耦合HJI方程(31),输入受限微分对策制导律即可获得。但考
虑到该HJI方程本质上属于非线性偏微分方程,很难获得其解析解。因此,本发明将采用自
适应动态规划技术近似求解该HJI方程。
步骤5,执行微分对策制导律。
根据神经网络的全局逼近方法,本发明构造评价网络近似代价函数。其理想近似
可表示为
式(32)中,Wc为评价网络理想权值向量,σc(x)为评价网络激活函数,ε(x)表示近似
逼近误差。
由于理想近似中,理想权值Wc往往未知,不能直接用来执行微分对策制导律,故采
用实际近似方式表达。
实际近似可表示为
其中,分别表示其理想值V(x)和Wc的近似值。则评价网络权值误差为
利用式(33),我们可以得到近似的输入受限微分对策制导律,在此,定义导弹的近
似反馈控制量为目标的近似反馈控制量为表示为
其中,表示激活函数σc(x)对状态x的偏导数,即,
结合式(31)和(34),可以得到评价网络的输出误差如下:
其中,
因此,我们需要设计评价网络权值更新律,使得如下误差函数最小化。换言之,评
价网络权值误差趋近于,即,
另外,为了保证闭环系统在学习过程中的有界性,本发明设计一个连续可微的径
向无界Lyapunov函数,表示为J(x),使得其能够满足如下条件:
其中表示函数J(x)对时间t求导,Jx表示函数J(x)对
状态x求偏导数,即,
基于梯度下降方法,综合考虑闭环系统的稳定性,设计如下评价网络更新律:
式(37)中,表示对时间的一阶导数,ec为评价网络的输出误差,
sgn(·)表示符号函数;α1>0表示
权值学习率。Y1和Y2表示设计参数;定义为如下表达式:
基于以上评价网络更新律,输入受限微分对策制导律(34)可以在线实时获得,使
得导弹-目标相对运动关系中的视线角速率σ趋近于零,从而保证拦截成功。
以上所述,仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人
员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进应视为本发明的保
护范围。