基于Policy Gradient的机械臂运动跟踪控制器参数整定

O231.2; 针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器.首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例-微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性证明,并由此给出了参数矩阵的范围.其次,设计了基于Policy Gradient的参数整定器,通过引入积分器的方法对其进行改进,使其控制下的参数行为连续化以进一步提高PD控制器的控制效果.最后,以二阶机械臂系统为例进行了仿真验证.实验数据证明了该参数整定器的有效性和可行性,并能有效提升系统的动态性能....

Full description

Saved in:

Bibliographic Details
Published in	系统工程与电子技术 Vol. 43; no. 9; pp. 2605 - 2611
Main Authors	韩霖骁, 胡剑波, 宋仕元, 王应洋, 贺子厚, 张鹏
Format	Journal Article
Language	Chinese
Published	空军工程大学装备管理与无人机工程学院,陕西西安710051 01.09.2021
Subjects	机械臂;运动跟踪;Policy Gradient;参数整定;比例-微分控制
Online Access	Get full text
ISSN	1001-506X
DOI	10.12305/j.issn.1001-506X.2021.09.29

Cover

More Information
Summary:	O231.2; 针对机械臂运动跟踪控制器的参数自整定问题,设计了一种基于强化学习Policy Gradient法的参数整定器.首先,介绍了机械臂的一种混合动力学模型,根据该系统模型进行了比例-微分(proportional-derivative,PD)控制器设计和李雅普诺夫稳定性证明,并由此给出了参数矩阵的范围.其次,设计了基于Policy Gradient的参数整定器,通过引入积分器的方法对其进行改进,使其控制下的参数行为连续化以进一步提高PD控制器的控制效果.最后,以二阶机械臂系统为例进行了仿真验证.实验数据证明了该参数整定器的有效性和可行性,并能有效提升系统的动态性能.
ISSN:	1001-506X
DOI:	10.12305/j.issn.1001-506X.2021.09.29