热搜关键词: 电路基础ADC数字信号处理封装库PLC

pdf

自组织映射神经网络量化机器人强化学习方法研究

  • 1星
  • 2021-10-27
  • 137.97KB
  • 需要1积分
  • 0次下载
标签: 机器人

机器人

自组织映射神经网络量化机器人强化学习方法研究

维普资讯
http://www.cqvip.com
第 2 卷 第 5期 
 
½
2¨
  2年 1月
 
小 型 微 型 计 算 机 系 统 
M I I M1
N  
CRO 
SYST EM  
V½】   N O
.23
 
M ½½ 2 2
  00  
文 章 编 号 : ∞ ½½½Z 0 ) 5 C 5   3
 
  I ( 2½ 一 58O 
Z (1
自组 织映 射 神 经 ½ 络量 化 机 器 人强 化 学 习方 法 研 究 
孙  ½
 
½ 扛海 弹 大学
张 汝 波  顾 ½ 昌:
 
【 #院 .½ 束 淮 江 5 ½8 )
程 
2 08 
, 尔 菹 L程 大学  算 机 系 .黑 龙 江 晴 尔 滨 10 0 
½
50 1
要 :强化 学 习 一 来 自于 奸 为一
0理 学 . 门 学科 把 行 为 学 习看 成反 复 试 验 的 过 程 . 而把 环 境 状 态 映射 成 相 应 的
 
动 ½ . 设 计 智½ 机 器凡 过 程 中 . ½ 束 娄 现 行 为 王 叉的 思 想 、 与 环 境 的 盘互 中学 习行 为 动 ½ ? 文 中把 机 器凡 在 耒 知 
环 境 中为躲 避 障碍 所 采 取 韵 动 ½ 看 ½ 一种 行 为 . 用强 化 学 习 方 法 来 窘现 智 ½机 器凡 避 碰 行 为 学 习 为 了提 高机 器凡 
学 习速 度  机 嚣 人 局 部 路 径 规  中的 状 态 空 间量 化 就 显得 十 分 重 要 本 文 采 用 自组 织映 射 ½ 络 的 方 涪 来进 行 空 问 的
 
量 化 由 于 自组 织映 射 ½络 蕾 身 所具 有 的 自组 织特 性  得 它 在 进行 空 间量 化 时就 ½够 较 ½ 地 解 决 适 应性 灵 活性 问题 .
½
 
嚣  在 时 状 志 空 『进 行 自姐 把 量 化 的 基 础 万 法 上 . 用 强化 学 习. 决 了舢 嚣凡 避 碰 行 为 的 学 习 问题  得 了满 意 的 学
½
 
习结 果 .
 
关 键 词 : 化 学 习 机 器 』 ;自组 织 量 化 ;冲 经 同络 
 
中 图 分 类 号 : I  H
½_ 
文 敲 标 识 码 :、
 
1 引  言 
 
仵 神经 ½ 肇 的 学 一 方 缓 中 ½ 丁 监 督 学 习 和 非 监 督 学 
½
之 间 冉 种学  方 法 J 懒强 化 学  ( ½½½ ½ 1½ L ½½½ )
½
R 1½½
 
½   ½ ½ ½  ½ ,
 
½
 
现 在    经 得  ½越 来 越 广 泛 的 应 用 在强 化 学 习 巾 . 习 者 
EL
_
½ ½ 强 化信 号最 _ 动 ½ , 免 与 障 碍物 发 生 碰 撞 . 境 根 据 此 
动½产生一 个评 价信 号 ,
根据这十信号 调整权值 ,
½得整个 ½
 
络 的权 值 达 到 最 优. ½ 选 择 单 元 是 根 据 Q 值 来 选 择 动 ½ ,
 
瑰 定 机 器 人  走 的½ 有 和 步 长 .
 
不 像 大 多数 学 习  样 板 告 知 采 取 ½ 种  为 , 是 通 过 尝 试 发 
现各种行为 .
得到 最 ^ 的强 化信 号 这  强 化 信 号是 环 境 对 学 
习 结 果 的 ½ 平价 通 过 这 种 强 化 信 号 , 器 人在 环境 中 获 干 
 
知识 , 断进 ½
½自我 蠛 节
 连 步 适 逝 环 境 . 到 预 定 的 学 习 
目 标 
自 
 Q
 ̄ 
: 
 
组 
½
 
 
化 
模 
½ ’
/ ½
 
摧 述 环 境 的 状 惫 空 间 通 常 为 一 个连 续 的 无 限 的过 程.
而 
在 强 化 学  _ 南 干 冲经 见的 个数 所 限 .
½
½
导致所 认 识 的环 境 实 
际 上 足  个 离 散 的 、
宵限 的状 态空 问. J提 高 机 器 ^ 学 习 速 
为  
度 . 机 器 凡局 部 路 径 埋  ½ 状 惑 空 间 量 化 就 昆科 十 分 重 
 
 
图 1 机器 八强 化学  结 柑 图 
 
 
½
 
要 . 状 忐 宅 ½ 的 量 化 . 常 杀 州 ,工 的 方 法. 由 ½^ 】½ 
½
½
½
_
先 进 行 的 豆 活 性 和 适 膻 性 较 差 . 致 学 习 的 效 果 也 相 应 
较 差 一.
 
通 常 . 习系 统 的输 ^信 号½ 呈连 续 变 化 的 , 成 了 连续 
变化 的输 ^ 空 问 在 连续 输 入空 间 内 . 习 的搜 索 范 围 . 此 .
 
需要 采取 量 化 的方 祛 , 连 续 输 入空 间 变 成 离 散 输 ^ 空间 .
降 
½ 输 入 空 间复 杂 度 . 化 的 方 法 主 要 有 B X 方 法 、 经 ½ 络 
方法 及 模 糊 方法 等 卒 文 采 用S
OM ½ 络 实 现 状 态 空 间 的 
邕 化.
 
本 文采 用 自组 织 映 射 ½络 的 疗 法 ½ 进 行 空 间 的 量 化 .
由 
于 ½蛐 织 映 射 _络 奉 琦 所 肄 有的 自组 织 特 眭½ 得 它 在 ½ 类 、
 
划 丹  就 有 ½ 的 ½  .
所  由 它 米进 行 空 间 的 量 化 就 ½ 够 较 
½ 解 决适 应 性 和 叉 活 睦的  题 , 终 得 到 满 意 的学 习 结 果 ,
 
2 机 器 人 强 化 学 习 系统 
机 器 ^强 化 学 习 采 统 土 要 是 由 自适 应 量 化 模 驶 、 学 习
 
½ 络 、 ½ 选 群 单 元这 三部 竹 组 成 . 过 这 一 模 块 的 凸 台 完 
 
成 局  路 径 规 划 的 学 习 M 题 , 于 ½ 学 习 的 自适 应 量 化 强 化 
学 习 系统 的 结 构 如
  】 示 
½ 嘲络 的 ½ 用 是处 理 已经 划 丹 ½ 的 空  , 此 找 到
  个
 
3 自组 织 化 量 化 的 方 法 
 
输 入 空 问 量 化 可 采 用 自组 织 机 制 来 解 决 区 域 划 分 的 问 
韪  种 机 制 可 以采 用 K½ ½ ½
½ ½ ½所 提 出的 自组 织 映 射 S
OM 
(½½ ½ ½ ½½F ½½½M½ ½ 经 ½ 络 . 图 2所 示 (
  ½ O½ ½ ½   ½½½
 
½
   ½ 神
见下 
页 )S
OM ½ 咯是 一 个 无 教 师 监 督 的 的 神 经 ½ 络 , 输 出 层 通 
常 为 一 个神 经 元 阵列 , 列 中 的 每 个神 经 元 表 不 一 个 子空 间.
 
收稿【
 
J½ 1【 ∞ 肯 简 ½ 孙 ½ . ½、
- - 2  
-  
碰 . 剐教 授 , ̄ ½ 域 为 ^ ½
½ S铆
½
 
智½ 张汝  . 上 . 教授 . 婴研 究 方  为 ^ [镑 ½. ½ 昌 .
博 
呻帅 , 授  ½ 卅 咒 山
 
 
^ ½ ½ 
维普资讯
http://www.cqvip.com
期 
½ 等:
自组 织 映射 神 经 ½ 络 
萝化 
S  
 9
½ 用 这 种 机 制 去 量 化 输 ^ 宅 间 要 比 事 先 划 分 输 ^ 空 间 要 先 
进 . ^ 空 间 S由 所 有 可 ½ 的状 态 构 成 . ^ 子 空 间 
由相 
节 点 日. 蚯 的 地方 找 到 一 个 已 被 删 陈 的 节点 , 为 B . 它 
 把
重新 加人 到 S
OM ½ 络 中. 时 把 此 节 点 与 输 人 层 节 点 的 连 
应 的 神经 元  表 示 , 果 一 向量  ∈X , 神 经 元  将 被 激 
 则
活,
若 一 . 有  _ ½ 则  = 0 神 经 元  被 称 为 获 胜 单 
=I
 
元 . 经 悯络 通 过 对 大 量 输 ^ 样 本 的 学 习 . 神 经 元就 会 ½ 现 
出 一 定 的丹 布½ 式 
在 ½
½M ½ 络 中 ,
 
由 输 出 节点 通 常 是
 
定 的 . 所 量 化 
 
的  空 间 的 数 量 是 
接 权 值 ½  为 W  ( .W  … ,
一 ½ .
½ ½ ( ½ , ,  .
= ½ ,  … ½) 这 
样 在 本 步 学 习 时 . 将  定 为 获 胜 节 点 . 它 进 行 可 ½ 将 带 
 
来 更 ½ 的动 怍效 果 .
 
½ ½络 盘 于 安 全 模 式 时 , 器 几有 可 ½ 与障 碍 物 发 生 碰 
撞 此 时 可 以 认 为 产 生 碰 撞 的 原 固时 由 于 新 加 ^ 的节 点 的 质 
量 不 ½ ( 为按 照 蹦 才所 介 绍 的 算 法 . 加 人 的 节 点必 为获 胜 
节 点 ,则 摒 弃掉 这 一 个 节 点 , 到 机 器^ 上 一步 所 处 的 状 态 ,
 
随 机 地 行 走 一 步之 后 , 向½ 络之 中 加^ 节点 . 到 队列 为空 
图 2 S
  OM 神经 刚络 的结 构 
为 止. 时 的 ½络 叉 回 到 普 通 状 态 . 过 目 进 新 的 节 点将 增 加
½
 
固 定 的 ½ 络 的 灵 
活 性 和 对外 界 I 的 敏感 性  较 差 ½输 出 节点 数 量 过 大 时 ,
空化
 
就 会 导 致 系统 中 有 大 量 的 神经 元 节 点 的 资 源 产 生 了 浪 费 -
增 
加  系 境 的 学 习 负 担 ½输 出 节 点 数 量 选 取 得 过 小时 .
导致 系 
统 对 环 境 的 敏 感 性 降 ½ , 响 机 器 几 的避 碰 效 果 为 了帮 决 这 
½
整 个 ½络 的性 ½ . 终 取 得 较 ½ 的运 动 效果 
4 Q 学 习算 法 的 神 经 ½ 络 的 实 现 
 
Q 学 习 算 缓 是 由 W½½½
½½
½在 8
½年 提 出 的 类 似 于 动 态 规 
划 算 甚 的 一 种 方 法 ,W½½
½ ½½采 用 ½½ ½
½ ½ ½表 来 表 示 输 ^ 状 
态 , 明 了 Q 学 习 的 收 敛 性 。. 学 习 可 用 各 种 神 经 ½络 来 
  Q
问题 ,
在事 系统 中增 加 丁 自动 删 除 和添 加 节点 的 功½ 
½机 器 几 在 充满 障碍 的 环 境 中 无 碰 地 行 驶 ½一定 的 步 长 
T 之 后 . 町 以认 为 此 时 机 器 几系 统 的学 习 已经 基 ½ 稳 定 了 ,
 
就 町 以 进 行 肄 ½ 删 除 节 点 的 操 ½ 了. ½ 的 力 法 如 ½ 对 
½ ) ½ 中 的输 出层 中 的 任 一个 节 点 设 为  . , 对 称 围 绕 
(M
-在
宴 观 , 络 【 人 为 经 越 量 化 的状 态 矢 量 一 =
½
内输
 
 
½) ( ,
,½ ½  
   
½) .
   嘲络 的 每 一 1 输 出对 应 于 一 十动 ½ 的 Q 值 , :
即 
Q (.
  A)用 挣 经 ½ 络 实 现 Q 学 习 的关 键 是 学 习 算 法 的 砖 定 ,
 
根 据 Q ½壹 定 义 :
½
 
Q(… ,  
 
 ½)一 _ 十  ½
 
½ (
Q  
,½ )½
 
()
3 
½ ½ 
此 节  固 定 的 范 围 内的 节 点 设 为  .,十 两 节 点 与 输 ^ 层 
) 算
 
问的 对 应 权 值 的 距 离 , 距 离 小 于  个 预 先 蛤 定 的 小 数 ½
½
 
时 . :
   
只有 在 得 引 最 优 策 略 的 前 提 下 上式 才 成 立 .
在学 习 阶段 上 式 
∑ ½_ ½ )  
½_  
½ 一½  :
½
 
( 
 
两边不成立 .
漠差 信 号 为
 
△Q = .
=½ +  ½½ Q½ . 1 . 2½, )
½ S . )‘½  。 
 
½ ^ 
时 . 可 以 认 定 
½ 络 
节点 与 输 ^ 层 问 的 权 值 与 月 与 输 八 层 
( 
的枉 值 向 量 天½ 相 ½ ,   把  节 电删 隙 , 得 它 不 再 参 与 
½
的操½ 对 S
OM 同 的 输 出 屠 所 有 节 点 ½ 如 此 法 进 
行操 ½ . 得 整 个 同 绪 柏 数 量  .
½
 
½ 机 器 凡 在 环 境 中无 碰 的 行 驶 耐 , 用 学 习 算 洼 对 Q
 
其 中 ,0(. ) 示 下 一 志 所 对 应 聍 Q 值 , 过 漏整 同 培 
 响 表
的杠 值 调 整 ½ 谩 差 △0 ½ 可½ 小  些 . 用 神 经 ½络 实 现 Q
 
学 习时 , 值 的 凋 整 为 :
 
△Ⅳ . ½ T
一 [ 
NE ’
1 削络 进 行极 值 的 调 整 , 得 刚 培 牧 盟 稳 定 . ½机 器 几 
½
资格 迹  为 :
 
旦 与障碍物 发生 碰撞 时 , 增 加 节
  的 方 法 来 解 决 速 一 
同越  
∑ 
 
½  
7)
整  系 统 对 应 机 器 凡的 止 常 运  和 碰撞 有 两 种 不 同 的 模 
式 : 通 模 式 、 全模 式 . 机 嚣 ^ 每 一 的 运 动 之 后 , 会 把 
 
½
其中:
½ 
为 折 于 
机 器 几 ½ 前 的 信 息½ 器 人 所 处 的 ½ ½ 、 角 、
½
½前 神 经 ½ 络 
的 瑚络 的 各 层 枉 值 等 等 ) ½ 在
  于 定 长 ½ N 的 循 环 队 列 
中 , 准 备 蜡 D 节点 之 用 . 两 络 处 于 普 通 模 式 时 , 机 器 几 
½
½
碰 到 了障 辟 物  近 脚相 应 的 信  ½ ½ ) ½ ½ ½ ½ 系 境 世 人 
  _一½ ½ ½ ,
_
½
5 仿 真 试 验 
强 化 信 号 的 ½ 用 是 对 学 习 系 统性 ½ 的 一 种 评 价 ½
主要 用
 
于 改 善 系 统 的 强 化信 号 根 据 控 制 任 务 的 不 同 , ½ 式 有所 不 
同 . 机 器 ^ 避 碰 行 为 学 习中 . 目的是 ½ 机 器 人 离 障碍 暂 越 
远 越 ½ . 机 器 人 与 离 障 碍 物 相 碰 耐 , 该 得 到 惩 ½. 我 们 
 
研 究 的 机 嚣 ^ 中 , 配 ½ 丁六 个 声 纳 用 于 避 碰 , 图 3 见 下 
页 ) 示.
 
安 全 模 式 此 时 . 【度 为 K 的 娟 环 队 列 的首 步取 出 在 N 步 
从 乇
之 前机 器 ^所 有 的信 息 西 嚷 结 机 器 几 系统 . 时 机 器 几 的 状 
悫 与 N 步之 前 他 所 处  状 志 足 完 全  致 的 .
把此 时 同络 输 ^ 
向量 为 _ — I  
、.
个节  ½得 
一 ., S
  )
  OM ½络 的 输 出层 内找 剐 一 
∑ ½    ) … ,
½一
 
L½
 
应 陵综 台考虑这个有个 声纳 的距离信 息 , 的探测 距离 
较 远 , 的探 测 距离 较 近 . 时 强 化 信 号 的 确定 方 法 主要 是 基 
于势 场 法 的 思 想 具 ½ 的 方 法 就 是 把 矾 器 人 的 工 ½ 环 境 视 为 
然后 再 在此 节点 的 邻 域 内 寻找 是 舌有 被 删除 的 节 点 .
若有 ,
则 
把 此 节 点 加 人 到 削 络 之 中 ; 没 有 , 在 邻 域 内 ( 去 刚 才 寻 
拭 过 的 节 点 中 寻 拭 是 否 有 被 删 陈 的 节 点 . 此 类 推 , 到 在 
1 人 工 势场 ,
势场 内所 有 的 障碍 物 ½ 对 机 器^ 产 生 斥 力 .
通 
维普资讯
http://www.cqvip.com
50
6 
统 
2 0 拒 
02
过 比较 机 器 人 产 生 动 ½前 后 的 合 句 变 化 来 确 定 强 化 值 . ½ 
½
用 于机 器 人 的 合 力 变 化 大 干 0 这 表 明机 器 人 正 在 远 离 库碍 
采 用 自组 织 映 射神 经 ½络 量化 机 器 人强 化 学 习方 ½ 实 
击来
现 机 器 人 的 局 部 路 径 规划 . 以便 机 器 人 很 ½ 地 学 会 避 碰功 
½ . 现 了 机 器 ^ 的 自学 ½ 力 . 由 于 强 化 学 习 的 特 点 .
½
½
其学 
习 速 度 较慢 , 是 由于 强 化 学 习的 监 督 信 号较 步 的缘 故 其解 
物.
应½得 到奖励 . 化值为正 ;
否则表 明机 器人靠近障碍物 .
 
应 ½ 得 到 惩 ½ , 化 值 为负 .
½机 器 ^ 到 达 目标 点 时 , 化值  
为最 大 值 . 到最 大奖 励 
½
 
图 5 机 器 ^ 与摩 碍 物 的 关 系
 
把机 器 ^ 的旋 ½ 角 度 划 分 为 七个 离 散 动 ½ . 0. 1。
即 。土 O ,
 
土2 .
0 土 
适 动 ½ 令 
½ : 一0
3  .½ = 一 20
 . 0 一
½ : 3 ’
 
O 
机 器 人 根 据 传 感 器 的 信 息 . 过 学 习 后 ½ 择 台 
1 “. , 0
  Ⅱ 二  . 0 : 1 “. 5= 2  ,
½
½
0 0
0  
(  
½)
利 用 机 器 几所 经 过 的 路 径 来 衡 量 学 习效 果 的 ½ 坏 . 而 
学会 选择 最 优 的 动 ½ 
机 器 ^ 工 ½ 环 境 是 一 个二 维 平 面地 图 . 机 器 ^ 六 十 侍 
感 器 的½ 用 下 .
可  用 一 系 列 的 六 维 向 量 来 对 它 进 行 描 述 .
因 
为 拉 洲 的信 号 是 连 续 的 + 以空 间 的芷 骨 是 无 穷 的 . 在 本 系 
统内 .
采用 自适 应 量 化 的 方 弦 来 对 状 态 空 间进 行 做 一 种 离 散 
的 聚 类 划分 仿 真 结 果 直 图 4所 示 .
 
图 4 仿 真结 果 
办 法之 一是 结 合 ^ 的经 验 . 用 经 验来 ½ 为 ½络 的 初 值 ・
有 
关 遗 部分 的 内 容 . 另 文介 绍 .
 
献 
1 T½ ½1S½½½½½ ,M ½½½½ 【) M L½ ½½   ½ ½½½½ ½½ 、
 
½『
 
½ [ ½½
½½ ½.1
½
½ 
½ ½ ½ ½ ½   ½ ½½  J 
½
R½ ½ ½½ ½ ½ A ½ …
½ ½½   ½  
½
½ ½ ½ S½ ½ ½ 1 9 1 2 ½ 4  
½   ½½
9 5.  5
5:
图 1½ 是 S
()
OM ½ 络 节点 最 终 取 为 2 的 仿 真 结 果 图 4
½
 
2 B½  . K 
  ½ J A. ½ .½ ½ ½ M ½ ½ D½
… J ½½
 
½   ½  A½ ½ ½½ ½½½ ½ ½ 1½  
½ ½½  1   ½ ½( ½
½
½ ½½. ½‘½ ½½ ½ ½ ½  ̄ I½ ½ ½ 。 ½ I
½ ½½
½
½
½[ ½ ½ ½   ½ ½ ½ [½ ½½
½
 
½ ½ ½ ½ ½½   ½ 
   ½ ½½½ ½ ½L -
(  S
½ 是 OM 嘲络 节  最终 取为 7
6的仿真 结果.
飙仿 真 的实 
验 结 果 可 以 看 出 . 节 点 数 较 大 . 器 ^ 的 学 习 时 间 较 长 ½ 
½
通 过 测 试 可 以看 出 , 习 的效 果 相 对较 ½ . 径 平 滑 
产 生 这 种 情 况 的 原 因是 在 节 点 数 较 多 、 习 率 较 ½ 的 时 
候 , 络的  蠲 的 幅 度较 小 .
½
所  学 习 的 速 度 较 慢 ;½ 节 点 的
 
½ 2  EEI/ J1   ½ ½
§ 2I : RS  ½½ ½ ½
½ ½½(½ .½ ½ ½OII ½½½½ ½R½ ½½½ ½
½ ½½ ½   I ½ ½½ ½  ½ ½  ½  
 
½
S ½½ R½ ½½.
½ ½ ½. ½½½ N  J ½ 7 I 一 9 2: 2
½½  ½   1 9 ½ 7½ ½ 3  
½
  2
3 W ½½½½. .½ H½½  I½ ½  P ½½ Q  ½½ ½½、
 
½  ̄ ½
½ ) ½ ½ ½ ½ 
½ ½ ½ J½ ½½ ½ ½ 
½
' ½ ½½
I ½ ½ ½   ½ 92 8: 7 ½ : 2
_ ½ ½½ 9 ・ 2 9
½
9 
4 Y½   ½ ½ ½   E½ ½   ½   ½ ½ ½ ½ ½½ ½ ½ ½½½ ½
 
½ P½ R [ ½
½ ½ ½ ½ ½ ½ ½ ½  ½ ½½ ½ ½. ½ ½½
½
½½  ½ ½ ½
½ ½½½  
数 目较 多 时 .
两络 将 ½够 记 忆 更 多 的 模式 , 间 划 分 的 比较 精 
细 . 以整 个 的学 习效 果 比较 ½ 
½½
½ ½…
½½ ½   ½ ½ ½½JJ
½ ½ ½ 
 
T £½ ½ ½ ( 
½ ½ ½ ½   ½ £。 ,0 . 1 9 2  
½ ½ ½½ ½
½½ 出 : ½  J 9 6½ 5
 
½ ) 2 ½ 4
§
; 
6 结束语 
( 平 凡 . 励学 习 ½ 原 理
算 ½ 其  智 ½控 制 中 的 膻 坩 L½
点驶
J.
 
信息 与控 ½ 19 ,5 1 :8 3 )
剧 . B2 ( ½2 ½ 4 
展开预览

猜您喜欢

评论

登录/注册

意见反馈

求资源

回顶部

推荐内容

热门活动

热门器件

随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved
×