线性最优跟踪控制:一种自适应动态规划方法外文翻译资料

 2022-12-07 05:12

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


线性最优跟踪控制:一种自适应动态规划方法

摘要:本文研究未知动态线性系统的最优输出控制问题。外部信号由线性连续时间的外部系统生成。首先,提出了一个线性最优输出调节问题(LOORP)。然后通过求解代数Riccati方程和校正器方程,给出LOORP的仿射解,设计出一种最优静态状态反馈伺服控制器。我们没有直接利用状态,输入以及在线采集的外部信号求解这两个方程,而是采用一种近似/自适应动态规划(ADP)技术,在线逼近上述两个方程,同时得到了近似的最优伺服调节器。严格的稳定性分析表明,闭环线性系统是指数稳定的。此外,系统输出渐近跟踪给定的参考信号。仿真结果表明所提出方法的有效性。

一:引言

最优跟踪控制在控制理论的研究中是一个重要的研究课题。目前的主要目标有关此主题的研究是通过最小化设计跟踪器预定义的成本,让系统跟踪外部输出基准信号,参见[1]。然而,在传统的设计中,最优跟踪控制被设计为离线并基于模型的,传统的最优跟踪器被设计离线并基于模型的,它要求动态系统的知识或涉及参数估算。

近似/自适应动态规划(ADP)是非基于模型的方法,实现了在线逼近成本函数,参见[2]。在过去的几年中,整合ADP和稳定性理论已经得到广泛关注。文献 [3],[4]的作者,已经开发了ADP-基于状态的反馈机制,以稳定的线性未知动态系统。使用网上输入/输出信息,输出反馈ADP稳定方法已在[5],[6]中提出。以前的一些不确定性系统研究结果的扩展在[7]中能偶找到,它采用神经网络和博弈论来解决系统中的不确定性和非线性问题。通过ADP和ISS小增益理论[8]的结合,我们建立了在鲁棒自适应的动态规划(RADP)来解决线性和非线性系统中存在的动态不确定性问题。

通过ADP求解最优跟踪控制问题也吸引了研究人员的关注。文献[11]的作者针对未知的动态连续时间线性系统设计了一个基于ADP-在线最优跟踪器,但基准信号是由一个渐近稳定的外部系统生成,为了放宽假设,文献[12]提出了一个加强型的Q学习方法来设计一个离散线性系统的最优跟踪器。但它不足以保证实际跟踪误差渐近收敛到0, 文献[13],[14]也是通过ADP设计最优跟踪器。通过动态反转得到前馈控制器,这需要输入矩阵的可逆性和系统动力学的知识。因此,寻求一个能够渐进跟踪参考信号并抵抗不确定系统的干扰的最优跟踪器就成为一个迫在眉睫要解决的问题。

本文旨在采用强化学习技术设计自适应优化跟踪器,可以用在连续时间线性系统中,并能够渐进跟踪和抵抗干扰。我们将这个问题作为线性最优输出调节问题(LOORP);参见[15],[16]。该LOORP认为系统的瞬时性能是一般化的线性输出调节问题(LORP)[17] - [19],在近期有关数据驱动,自适应优化稳定的文献以及文献[2],[3],[9]中,都被广泛引用。(

为了解决LOORP的系统动力学问题,我们提出了一种基于ADP方法来设计的一个线性最优伺服稳压器[20],它依靠状态,输入和外界信号的在线信息,指数稳定性,输出调节来达到闭环连续时间线性最佳伺服调节系统的最优状态。

本文安排如下。在第二节中,我们规划LORP和LOORP,并用离线方法求解LOORP。然后,我们回顾线性二次调节器(LQR)理论以及求解代数Riccati方程迭代技术的一个方法(ARE)。此外,我们提出了一个计算方法解决调节方程。在第3节,我们设计了一个在线自适应最优方法来解决LOORP,然后分析基于闭环系统的稳定性属性李雅普诺夫理论。仿真结果在给定的第5节。最后,结论在第6部分。

符号定义:纵观本文,(resp,)表示该组真实的(resp. complex)数字。(resp.)代表闭右半(resp,开放左半)复合物平面。是一组非负整数的。 表示向量的欧几里得范数和的诱导范数矩阵。对于一个矩,ImA是它的图像,kerA是它的核心,当时,Tr A是A的轨迹,是它的复杂频谱。表示张量积产生,其中,对于每个,是的第列,对于对称矩阵,。对于任意矢量 ,。

二:问题描述及预备知识

在本节中,我们首先制定LOORP。然后,回顾基本LQR理论和运用迭代技术解决ARE的方法。最后,给定用于解决调节器的方法的方程。

A:问题描述

本文考虑的连续时间的调节通过以下方程来模拟线性系统

(1)

(2)

(3)

其中,是状态向量,是控制输入,和是未知向量的系统矩阵,,,和为已知常数矩阵,(2)描述了一种与相连的外系统,是系统干扰,代表系统与的输出基准信号进行跟踪。表示跟踪错误。

如果一个伺服调节器被设计为

(4)

使得该闭环系统具有的指数稳定性,以及输出调节属性,我们称这个问题为LORP。此外,对于预计的成本来说,如果设计伺服调节器是最佳的,我们把它叫做LOORP。本文旨在解决LORP和LOORP问题,几个假设将在系统(1)—(3)上进行。

假设2.1 :。

假设2.2:是稳定的。

假设2.3:

(5)

定理2.1 :[18]。在假定2.1与2.2中,选择一个,使得,然后,LORP可以由静态状态反馈伺服调节器(4)得到,如果存在以下的调解方案,的一下调节公式:

, (6)

与前馈控制增益定义为:

(7)

备注 2.1 :事实上,如果解决了LORP。那么

备注2.2:假设2.3保证等式(6)可解矩阵D和F,见[20]。因此,该LORP可以由静态状态反馈伺服调节器得到.(4)根据假设2.1,2.2,以及2.3。

在本文中,LOORP是制定同时考虑跟踪误差和线性系统的瞬态响应。对于这一点,我们找到一个调节方程(6)最优解和一个动态优化问题以找到最佳的反馈控制增益K;见[15] 解决了静态优化问题。

构造如下:

问题1:[15]

(8)

其中,当使用观察时。

如果初始状态是关子空间,我们的控制目标是不仅驱动状态到子空间,而且要提供一种具有良好的线性系统瞬态性能。以这种方式,我们发现了一个线性最优反馈控制器除以最小化线性二次成本。

问题2:

其中,。显然,如果我们找到一个伺服调节器,那么

1)由解决问题(2)后获得,

2),其中,是问题1的极小化。

然后LOORP就被解决了。

B.基本LQR理论

线性系统(1)-(3)可以被改写为

(9)

, (10)

这意味着问题2是一个标准的LQR问题,设计一个最佳的反馈控制器.该最优反馈增益是

(11)

是以下的解决方案。

(12)

迭代算法是在[21]中提出,并在下面被提到。

论点2.1:[21].让为任何稳定控制增益,是李亚普诺夫的方程的解决方案。

(13)

其中,迭代是通过以下定义的

(14)

然后,有以下的属性:

1),

2),

3),

C.求解调节方程

为了解决调节公式,我们选择一个 如下.选择对于 使得所有 形成 的基础,其中 对于 是无效的。

由以下定义线性映射

(15)

引理2.2:一对 是公式(6)的稳压器解决方案,当且仅当存在 有:

(16)

(17)

证明。(必要性)设 是(6)的一个解决方法。 然后,我们有

,

这保证 可以写成当 时的一个线性组合,此外,通过(6)和(15),我们有(16)。

(充分性)假设(16)和(17)确实成立,我们发现

,

这意味着 解决了问题(6).

三:未知动力学的优化跟踪设计

在本节中,我们提出系统(1) - (3)的在线学习方法。建议的方法是能够解决 并找到线上最优值向 和 逼近。

定义 , ,我们有:

(18)

其中, 然后,按照[4],运用相似的推理:

(19)

对于正整数s,我们有以下定义:

其中 是正整数,(19)表示以下的方程:

(20)

其中

公式(20)唯一地由最小二乘法得到解时矩阵 是列满秩的,即

(21)

由引理2.2及(14),如果我们寻求一个序列 和一个矩阵 如下

(22)

则 是调节方程(6)的解决方法,其中,,如果式(6)的解法不是唯一的,我们通过寻求序列找到所有线性独立的向量使得对于,具有,

(23)

然后,我们定义一组:

(24)

现在,我们已经准备好向您介绍我们用来解决的在线算法。请注意,初步稳定政策通常可以使用上的先验知识来获得未知矩阵和的边界。

算法3.1:在线算法求解:

1)计算选择一个使得。选择一个收敛准则.利用作为的控制输出来探索噪音。对于计算和直到下面式(25)的秩的条件被满足。然后令。

2)从式(21)中解出。

3)令,如果,重复步骤2);否则令然后执行步骤4)。

4)令,重复从式(21)中解出直到。通过式(22)和式(23),计算对(其中)。通过式(8)和式(24)找到问题1的最优解法。

5)令,我们近似得到了最优伺服调节器。

3.1算法的收敛在下面一些秩条件下得到了保证。

引理3.1:对于,如果存在一个,使得对于所有的,

(25)

那么对于所有的,都满秩。

证明:我们用反证法证明引理3.1,假设是下面线性方程的一个非零解:

, (26)

其中,。然后存在,使得。通过式(9)和(19),我们知道

(28)

注意到是对称的,我们有

, (29)

其中,

然后,式(27)隐含着下面的等式:

(30)

在式(25)的满秩条件下,我们得到,。是下面等式的特解:

(31)

因为。然后,我们有。它与相矛盾。得证。

定理3.1:在引理3.1的条件下,给定稳定的,从解出式(21)中分别得到收敛序列。

证明:给定一个稳定的,如果是式(13)的解,通过。令。由(19),我们知道, 和 满足(21)。另一方面,设 并且 这样

(32)

然后,我们有 ,引理3.1意味着使是独一无二的。由引理2.1, 和 具有收敛性。

由克罗内克尔积,稳压方程(6)转化为线性代数方程

(33)

其中:

通过线性代数,该组(33)的解决方案是

H在G中是无效的,.假设2.3中 G是行满秩[20],这意味着 。因此,该组(6)的解决方案等效于(24)。

定理3.2:考虑到与外

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[32218],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。