本文针对快速、多变量、强非线性的复杂系统的控制问题,在强化学习方式的基础上,提出一种新的自适应控制方法。该方法在没有先验知识的条件下,基于递归神经网络并结合强化学习的自调节能力,通过自身神经网络的在线学习,有效控制不稳定的非线性系统。本文以一级倒立摆系统为实验对象,仿真实验结果表明:所提出的控制方法具有非常好的控制效果和稳定精度,抗干扰能力强。随着智能控制研究的不断深入,人们通过模拟人的决策过程,将强化学习方式融入控制策略,用来解决复杂非线性系统的控制问题。强化学习(Reinforcement Learning)是一种试探学习方式,外界没有明显的教师信号给出正确的指令,只通过与环境的交互得到评价信息来学习如何执行恰当的动作。近年来,强化学习在算法和应用上已取得了大量的研究成果,如用静态神经网络控制倒立摆系统[1,2]、多种动态规划算法的提出[3,4]等。递归神经网络(RNN)由于存在输出变量到输入端的反馈,因而其变量中包含时间延时网络,是真正的动态网络系统,为动态系统的辨识和控制开辟了一个极有前途的领域。本文在强化学习方式的基础上,提出一种基于递归神经网络的自适应控制方法。该控制方法采用的强化学习学习方式基于“动作网络/评价网络”的框架结构。其中,动作网络部分由BP 神经网络构成的,它将系统状态量映射为一个可能的实际动作;评价网络部由递归神经网络构成的,根据系统状态和系统的控制量来评价系统的运行状态,检验当前的控制效果,产生“奖励/惩罚”值作为反馈,以进行自适应学习。通过对一级倒立摆系统的控制实验仿真研究,验证了所提控制方法的可行性。
猜您喜欢
评论