维普资讯
http://www.cqvip.com
第 2 卷 第 5期
½
2¨
2年 1月
小 型 微 型 计 算 机 系 统
M I I M1
N
CRO
SYST EM
V½】 N O
.23
M ½½ 2 2
00
文 章 编 号 : ∞ ½½½Z 0 ) 5 C 5 3
I ( 2½ 一 58O
Z (1
自组 织映 射 神 经 ½ 络量 化 机 器 人强 化 学 习方 法 研 究
孙 ½
½ 扛海 弹 大学
谌
张 汝 波 顾 ½ 昌:
【 #院 .½ 束 淮 江 5 ½8 )
程
2 08
, 尔 菹 L程 大学 算 机 系 .黑 龙 江 晴 尔 滨 10 0
½
睛
50 1
摘
要 :强化 学 习 一 来 自于 奸 为一
词
0理 学 . 门 学科 把 行 为 学 习看 成反 复 试 验 的 过 程 . 而把 环 境 状 态 映射 成 相 应 的
遣
从
动 ½ . 设 计 智½ 机 器凡 过 程 中 . ½ 束 娄 现 行 为 王 叉的 思 想 、 与 环 境 的 盘互 中学 习行 为 动 ½ ? 文 中把 机 器凡 在 耒 知
在
如
在
环 境 中为躲 避 障碍 所 采 取 韵 动 ½ 看 ½ 一种 行 为 . 用强 化 学 习 方 法 来 窘现 智 ½机 器凡 避 碰 行 为 学 习 为 了提 高机 器凡
采
学 习速 度 机 嚣 人 局 部 路 径 规 中的 状 态 空 间量 化 就 显得 十 分 重 要 本 文 采 用 自组 织映 射 ½ 络 的 方 涪 来进 行 空 问 的
在
量 化 由 于 自组 织映 射 ½络 蕾 身 所具 有 的 自组 织特 性 得 它 在 进行 空 间量 化 时就 ½够 较 ½ 地 解 决 适 应性 灵 活性 问题 .
½
嚣 在 时 状 志 空 『进 行 自姐 把 量 化 的 基 础 万 法 上 . 用 强化 学 习. 决 了舢 嚣凡 避 碰 行 为 的 学 习 问题 得 了满 意 的 学
日
½
采
解
取
习结 果 .
关 键 词 : 化 学 习 机 器 』 ;自组 织 量 化 ;冲 经 同络
强
、
中 图 分 类 号 : I H
½_
J
文 敲 标 识 码 :、
一
1 引 言
仵 神经 ½ 肇 的 学 一 方 缓 中 ½ 丁 监 督 学 习 和 非 监 督 学
J
½
之 间 冉 种学 方 法 J 懒强 化 学 ( ½½½ ½ 1½ L ½½½ )
1
½
R 1½½
½ ½ ½ ½ ½ ,
½
现 在 经 得 ½越 来 越 广 泛 的 应 用 在强 化 学 习 巾 . 习 者
EL
Z
_
学
½ ½ 强 化信 号最 _ 动 ½ , 免 与 障 碍物 发 生 碰 撞 . 境 根 据 此
^
进
环
动½产生一 个评 价信 号 ,
根据这十信号 调整权值 ,
½得整个 ½
络 的权 值 达 到 最 优. ½ 选 择 单 元 是 根 据 Q 值 来 选 择 动 ½ ,
动
瑰 定 机 器 人 走 的½ 有 和 步 长 .
不 像 大 多数 学 习 样 板 告 知 采 取 ½ 种 为 , 是 通 过 尝 试 发
而
现各种行为 .
得到 最 ^ 的强 化信 号 这 强 化 信 号是 环 境 对 学
习 结 果 的 ½ 平价 通 过 这 种 强 化 信 号 , 器 人在 环境 中 获 干
机
导
知识 , 断进 ½
不
½自我 蠛 节
连 步 适 逝 环 境 . 到 预 定 的 学 习
达
目 标
自
Q
 ̄
:
量
织
组
½
-
I
\
化
模
½ ’
/ ½
摧 述 环 境 的 状 惫 空 间 通 常 为 一 个连 续 的 无 限 的过 程.
而
在 强 化 学 _ 南 干 冲经 见的 个数 所 限 .
½
½
导致所 认 识 的环 境 实
际 上 足 个 离 散 的 、
宵限 的状 态空 问. J提 高 机 器 ^ 学 习 速
为
度 . 机 器 凡局 部 路 径 埋 ½ 状 惑 空 间 量 化 就 昆科 十 分 重
在
I
块
图 1 机器 八强 化学 结 柑 图
½
I
要 . 状 忐 宅 ½ 的 量 化 . 常 杀 州 ,工 的 方 法. 由 ½^ 】½
对
自
½
通
、
½
½
_
萌
先 进 行 的 豆 活 性 和 适 膻 性 较 差 . 致 学 习 的 效 果 也 相 应
导
较 差 一.
通 常 . 习系 统 的输 ^信 号½ 呈连 续 变 化 的 , 成 了 连续
学
掏
变化 的输 ^ 空 问 在 连续 输 入空 间 内 . 习 的搜 索 范 围 . 此 .
学
因
需要 采取 量 化 的方 祛 , 连 续 输 入空 间 变 成 离 散 输 ^ 空间 .
将
降
½ 输 入 空 间复 杂 度 . 化 的 方 法 主 要 有 B X 方 法 、 经 ½ 络
量
O
神
方法 及 模 糊 方法 等 卒 文 采 用S
OM ½ 络 实 现 状 态 空 间 的
邕 化.
本 文采 用 自组 织 映 射 ½络 的 疗 法 ½ 进 行 空 间 的 量 化 .
庳
由
于 ½蛐 织 映 射 _络 奉 琦 所 肄 有的 自组 织 特 眭½ 得 它 在 ½ 类 、
词
划 丹 就 有 ½ 的 ½ .
所 由 它 米进 行 空 间 的 量 化 就 ½ 够 较
½ 解 决适 应 性 和 叉 活 睦的 题 , 终 得 到 满 意 的学 习 结 果 ,
最
2 机 器 人 强 化 学 习 系统
机 器 ^强 化 学 习 采 统 土 要 是 由 自适 应 量 化 模 驶 、 学 习
Q
½ 络 、 ½ 选 群 单 元这 三部 竹 组 成 . 过 这 一 模 块 的 凸 台 完
动
通
[
成 局 路 径 规 划 的 学 习 M 题 , 于 ½ 学 习 的 自适 应 量 化 强 化
基
学 习 系统 的 结 构 如
】 示
所
½ 嘲络 的 ½ 用 是处 理 已经 划 丹 ½ 的 空 , 此 找 到
据
个
3 自组 织 化 量 化 的 方 法
输 入 空 问 量 化 可 采 用 自组 织 机 制 来 解 决 区 域 划 分 的 问
韪 种 机 制 可 以采 用 K½ ½ ½
这
½ ½ ½所 提 出的 自组 织 映 射 S
OM
(½½ ½ ½ ½½F ½½½M½ ½ 经 ½ 络 . 图 2所 示 (
½ O½ ½ ½ ½½½
½
½ 神
如
见下
页 )S
OM ½ 咯是 一 个 无 教 师 监 督 的 的 神 经 ½ 络 , 输 出 层 通
其
常 为 一 个神 经 元 阵列 , 列 中 的 每 个神 经 元 表 不 一 个 子空 间.
阵
收稿【
5
J½ 1【 ∞ 肯 简 ½ 孙 ½ . ½、
- - 2
-
^
碰 . 剐教 授 , ̄ ½ 域 为 ^ ½
½ S铆
½
F
智½ 张汝 . 上 . 教授 . 婴研 究 方 为 ^ [镑 ½. ½ 昌 .
博
副
主
顾
博
呻帅 , 授 ½ 卅 咒 山
戢
^ ½ ½
杆
维普资讯
http://www.cqvip.com
期
孙
½ 等:
自组 织 映射 神 经 ½ 络
萝化
S
9
½ 用 这 种 机 制 去 量 化 输 ^ 宅 间 要 比 事 先 划 分 输 ^ 空 间 要 先
进 . ^ 空 间 S由 所 有 可 ½ 的状 态 构 成 . ^ 子 空 间
辅
输
由相
节 点 日. 蚯 的 地方 找 到 一 个 已 被 删 陈 的 节点 , 为 B . 它
最
设
把
重新 加人 到 S
OM ½ 络 中. 时 把 此 节 点 与 输 人 层 节 点 的 连
同
应 的 神经 元 表 示 , 果 一 向量 ∈X , 神 经 元 将 被 激
如
个
则
活,
若 一 . 有 _ ½ 则 = 0 神 经 元 被 称 为 获 胜 单
就
=I
.
元 . 经 悯络 通 过 对 大 量 输 ^ 样 本 的 学 习 . 神 经 元就 会 ½ 现
神
其
出 一 定 的丹 布½ 式
在 ½
½M ½ 络 中 ,
由 输 出 节点 通 常 是
定 的 . 所 量 化
的 空 间 的 数 量 是
接 权 值 ½ 为 W ( .W … ,
设
一 ½ .
.
½ ½ ( ½ , , .
= ½ , … ½) 这
样 在 本 步 学 习 时 . 将 定 为 获 胜 节 点 . 它 进 行 可 ½ 将 带
对
来 更 ½ 的动 怍效 果 .
½ ½络 盘 于 安 全 模 式 时 , 器 几有 可 ½ 与障 碍 物 发 生 碰
上
机
撞 此 时 可 以 认 为 产 生 碰 撞 的 原 固时 由 于 新 加 ^ 的节 点 的 质
量 不 ½ ( 为按 照 蹦 才所 介 绍 的 算 法 . 加 人 的 节 点必 为获 胜
固
新
节 点 ,则 摒 弃掉 这 一 个 节 点 , 到 机 器^ 上 一步 所 处 的 状 态 ,
,
回
随 机 地 行 走 一 步之 后 , 向½ 络之 中 加^ 节点 . 到 队列 为空
再
直
图 2 S
OM 神经 刚络 的结 构
为 止. 时 的 ½络 叉 回 到 普 通 状 态 . 过 目 进 新 的 节 点将 增 加
此
通
½
固 定 的 ½ 络 的 灵
活 性 和 对外 界 I 的 敏感 性 较 差 ½输 出 节点 数 量 过 大 时 ,
空化
就 会 导 致 系统 中 有 大 量 的 神经 元 节 点 的 资 源 产 生 了 浪 费 -
增
加 系 境 的 学 习 负 担 ½输 出 节 点 数 量 选 取 得 过 小时 .
导致 系
统 对 环 境 的 敏 感 性 降 ½ , 响 机 器 几 的避 碰 效 果 为 了帮 决 这
½
一
整 个 ½络 的性 ½ . 终 取 得 较 ½ 的运 动 效果
最
4 Q 学 习算 法 的 神 经 ½ 络 的 实 现
Q 学 习 算 缓 是 由 W½½½
½½
½在 8
½年 提 出 的 类 似 于 动 态 规
划 算 甚 的 一 种 方 法 ,W½½
½ ½½采 用 ½½ ½
½ ½ ½表 来 表 示 输 ^ 状
态 , 明 了 Q 学 习 的 收 敛 性 。. 学 习 可 用 各 种 神 经 ½络 来
证
Q
问题 ,
在事 系统 中增 加 丁 自动 删 除 和添 加 节点 的 功½
½机 器 几 在 充满 障碍 的 环 境 中 无 碰 地 行 驶 ½一定 的 步 长
T 之 后 . 町 以认 为 此 时 机 器 几系 统 的学 习 已经 基 ½ 稳 定 了 ,
就
就 町 以 进 行 肄 ½ 删 除 节 点 的 操 ½ 了. ½ 的 力 法 如 ½ 对
具
.
½ ) ½ 中 的输 出层 中 的 任 一个 节 点 设 为 . , 对 称 围 绕
(M
-在
宴 观 , 络 【 人 为 经 越 量 化 的状 态 矢 量 一 =
½
内输
…
½) ( ,
,½ ½
½) .
嘲络 的 每 一 1 输 出对 应 于 一 十动 ½ 的 Q 值 , :
、
即
Q (.
A)用 挣 经 ½ 络 实 现 Q 学 习 的关 键 是 学 习 算 法 的 砖 定 ,
根 据 Q ½壹 定 义 :
½
Q(… ,
½)一 _ 十 ½
½ (
Q
,½ )½
()
3
½ ½
1
此 节 固 定 的 范 围 内的 节 点 设 为 .,十 两 节 点 与 输 ^ 层
) 算
问的 对 应 权 值 的 距 离 , 距 离 小 于 个 预 先 蛤 定 的 小 数 ½
½
时 . :
只有 在 得 引 最 优 策 略 的 前 提 下 上式 才 成 立 .
在学 习 阶段 上 式
∑ ½_ ½ )
½_
½ 一½ :
.
½
J
(
)
两边不成立 .
漠差 信 号 为
△Q = .
=½ + ½½ Q½ . 1 . 2½, )
½ S . )‘½ 。
½ ^
时 . 可 以 认 定
就
½ 络
节点 与 输 ^ 层 问 的 权 值 与 月 与 输 八 层
,
(
4
的枉 值 向 量 天½ 相 ½ , 把 节 电删 隙 , 得 它 不 再 参 与
可
½
的操½ 对 S
OM 同 的 输 出 屠 所 有 节 点 ½ 如 此 法 进
行操 ½ . 得 整 个 同 绪 柏 数 量 .
½
½ 机 器 凡 在 环 境 中无 碰 的 行 驶 耐 , 用 学 习 算 洼 对 Q
利
其 中 ,0(. ) 示 下 一 志 所 对 应 聍 Q 值 , 过 漏整 同 培
响 表
杖
通
的杠 值 调 整 ½ 谩 差 △0 ½ 可½ 小 些 . 用 神 经 ½络 实 现 Q
采
学 习时 , 值 的 凋 整 为 :
权
△Ⅳ . ½ T
一 [
NE ’
1 削络 进 行极 值 的 调 整 , 得 刚 培 牧 盟 稳 定 . ½机 器 几
½
而
一
资格 迹 为 :
=
旦 与障碍物 发生 碰撞 时 , 增 加 节
用
的 方 法 来 解 决 速 一
同越
∑
“
½
7)
整 系 统 对 应 机 器 凡的 止 常 运 和 碰撞 有 两 种 不 同 的 模
式 : 通 模 式 、 全模 式 . 机 嚣 ^ 每 一 的 运 动 之 后 , 会 把
普
安
在
½
其中:
½
为 折 于
口
机 器 几 ½ 前 的 信 息½ 器 人 所 处 的 ½ ½ 、 角 、
机
½
½前 神 经 ½ 络
的 瑚络 的 各 层 枉 值 等 等 ) ½ 在
记
于 定 长 ½ N 的 循 环 队 列
为
中 , 准 备 蜡 D 节点 之 用 . 两 络 处 于 普 通 模 式 时 , 机 器 几
已
½
½
若
碰 到 了障 辟 物 近 脚相 应 的 信 ½ ½ ) ½ ½ ½ ½ 系 境 世 人
则
_一½ ½ ½ ,
_
½
5 仿 真 试 验
强 化 信 号 的 ½ 用 是 对 学 习 系 统性 ½ 的 一 种 评 价 ½
主要 用
于 改 善 系 统 的 强 化信 号 根 据 控 制 任 务 的 不 同 , ½ 式 有所 不
其
同 . 机 器 ^ 避 碰 行 为 学 习中 . 目的是 ½ 机 器 人 离 障碍 暂 越
在
其
远 越 ½ . 机 器 人 与 离 障 碍 物 相 碰 耐 , 该 得 到 惩 ½. 我 们
应
在
研 究 的 机 嚣 ^ 中 , 配 ½ 丁六 个 声 纳 用 于 避 碰 , 图 3 见 下
共
如
(
页 ) 示.
所
安 全 模 式 此 时 . 【度 为 K 的 娟 环 队 列 的首 步取 出 在 N 步
从 乇
之 前机 器 ^所 有 的信 息 西 嚷 结 机 器 几 系统 . 时 机 器 几 的 状
此
悫 与 N 步之 前 他 所 处 状 志 足 完 全 致 的 .
把此 时 同络 输 ^
向量 为 _ — I
Y
、.
个节 ½得
一 ., S
)
OM ½络 的 输 出层 内找 剐 一
∑ ½ ) … ,
½一
L½
2
应 陵综 台考虑这个有个 声纳 的距离信 息 , 的探测 距离
有
较 远 , 的探 测 距离 较 近 . 时 强 化 信 号 的 确定 方 法 主要 是 基
有
过
于势 场 法 的 思 想 具 ½ 的 方 法 就 是 把 矾 器 人 的 工 ½ 环 境 视 为
一
然后 再 在此 节点 的 邻 域 内 寻找 是 舌有 被 删除 的 节 点 .
若有 ,
则
把 此 节 点 加 人 到 削 络 之 中 ; 没 有 , 在 邻 域 内 ( 去 刚 才 寻
若
则
除
拭 过 的 节 点 中 寻 拭 是 否 有 被 删 陈 的 节 点 . 此 类 推 , 到 在
以
直
1 人 工 势场 ,
、
势场 内所 有 的 障碍 物 ½ 对 机 器^ 产 生 斥 力 .
通
维普资讯
http://www.cqvip.com
50
6
小
型
微
型
计
算
机
系
统
2 0 拒
02
过 比较 机 器 人 产 生 动 ½前 后 的 合 句 变 化 来 确 定 强 化 值 . ½
½
用 于机 器 人 的 合 力 变 化 大 干 0 这 表 明机 器 人 正 在 远 离 库碍
.
采 用 自组 织 映 射神 经 ½络 量化 机 器 人强 化 学 习方 ½ 实
击来
现 机 器 人 的 局 部 路 径 规划 . 以便 机 器 人 很 ½ 地 学 会 避 碰功
可
½ . 现 了 机 器 ^ 的 自学 ½ 力 . 由 于 强 化 学 习 的 特 点 .
½
½
其学
习 速 度 较慢 , 是 由于 强 化 学 习的 监 督 信 号较 步 的缘 故 其解
过
物.
应½得 到奖励 . 化值为正 ;
强
否则表 明机 器人靠近障碍物 .
应 ½ 得 到 惩 ½ , 化 值 为负 .
强
½机 器 ^ 到 达 目标 点 时 , 化值
强
为最 大 值 . 到最 大奖 励
得
燕
蒌
一
二
½
图 5 机 器 ^ 与摩 碍 物 的 关 系
把机 器 ^ 的旋 ½ 角 度 划 分 为 七个 离 散 动 ½ . 0. 1。
即 。土 O ,
土2 .
0 土
适 动 ½ 令
½ : 一0
3 .½ = 一 20
.
. 0 一
:
½ : 3 ’
O
机 器 人 根 据 传 感 器 的 信 息 . 过 学 习 后 ½ 择 台
经
选
1 “. , 0
Ⅱ 二 . 0 : 1 “. 5= 2 ,
½
½
0 0
0
(
½)
利 用 机 器 几所 经 过 的 路 径 来 衡 量 学 习效 果 的 ½ 坏 . 而
从
学会 选择 最 优 的 动 ½
机 器 ^ 工 ½ 环 境 是 一 个二 维 平 面地 图 . 机 器 ^ 六 十 侍
在
感 器 的½ 用 下 .
可 用 一 系 列 的 六 维 向 量 来 对 它 进 行 描 述 .
因
为 拉 洲 的信 号 是 连 续 的 + 以空 间 的芷 骨 是 无 穷 的 . 在 本 系
所
叮
而
统内 .
采用 自适 应 量 化 的 方 弦 来 对 状 态 空 间进 行 做 一 种 离 散
的 聚 类 划分 仿 真 结 果 直 图 4所 示 .
Ⅱ
图 4 仿 真结 果
办 法之 一是 结 合 ^ 的经 验 . 用 经 验来 ½ 为 ½络 的 初 值 ・
利
有
关 遗 部分 的 内 容 . 另 文介 绍 .
将
参
考
文
献
1 T½ ½1S½½½½½ ,M ½½½½ 【) M L½ ½½ ½ ½½½½ ½½ 、
½『
½ [ ½½
½½ ½.1
½
½
½ ½ ½ ½ ½ ½ ½½ J
½
R½ ½ ½½ ½ ½ A ½ …
½ ½½ ½
½
½ ½ ½ S½ ½ ½ 1 9 1 2 ½ 4
½ ½½
9 5. 5
5:
6
图 1½ 是 S
()
OM ½ 络 节点 最 终 取 为 2 的 仿 真 结 果 图 4
½
2 B½ . K
½ J A. ½ .½ ½ ½ M ½ ½ D½
… J ½½
½ ½ A½ ½ ½½ ½½½ ½ ½ 1½
½ ½½ 1 ½ ½( ½
½
½ ½½. ½‘½ ½½ ½ ½ ½  ̄ I½ ½ ½ 。 ½ I
½ ½½
½
½
½[ ½ ½ ½ ½ ½ ½ [½ ½½
½
½ ½ ½ ½ ½½ ½
½ ½½½ ½ ½L -
J
( S
½ 是 OM 嘲络 节 最终 取为 7
J
6的仿真 结果.
飙仿 真 的实
验 结 果 可 以 看 出 . 节 点 数 较 大 . 器 ^ 的 学 习 时 间 较 长 ½
½
机
通 过 测 试 可 以看 出 , 习 的效 果 相 对较 ½ . 径 平 滑
学
路
产 生 这 种 情 况 的 原 因是 在 节 点 数 较 多 、 习 率 较 ½ 的 时
学
候 , 络的 蠲 的 幅 度较 小 .
½
所 学 习 的 速 度 较 慢 ;½ 节 点 的
½ 2 EEI/ J1 ½ ½
§ 2I : RS ½½ ½ ½
:
½ ½½(½ .½ ½ ½OII ½½½½ ½R½ ½½½ ½
½ ½½ ½ I ½ ½½ ½ ½ ½ ½
:
½
S ½½ R½ ½½.
½ ½ ½. ½½½ N J ½ 7 I 一 9 2: 2
½½ ½ 1 9 ½ 7½ ½ 3
½
3
2
3
3 W ½½½½. .½ H½½ I½ ½ P ½½ Q ½½ ½½、
½  ̄ ½
½ ) ½ ½ ½ ½
½ ½ ½ J½ ½½ ½ ½
½
' ½ ½½
/
I ½ ½ ½ ½ 92 8: 7 ½ : 2
_ ½ ½½ 9 ・ 2 9
½
9
4 Y½ ½ ½ ½ E½ ½ ½ ½ ½ ½ ½ ½½ ½ ½ ½½½ ½
½ P½ R [ ½
½ ½ ½ ½ ½ ½ ½ ½ ½ ½½ ½ ½. ½ ½½
½
½½ ½ ½ ½
½ ½½½
数 目较 多 时 .
两络 将 ½够 记 忆 更 多 的 模式 , 间 划 分 的 比较 精
空
细 . 以整 个 的学 习效 果 比较 ½
所
½½
½ ½…
½½ ½ ½ ½ ½½JJ
½ ½ ½
T £½ ½ ½ (
½ ½ ½ ½ ½ £。 ,0 . 1 9 2
½ ½ ½½ ½
½½ 出 : ½ J 9 6½ 5
一
½ ) 2 ½ 4
1
§
;
6 结束语
( 平 凡 . 励学 习 ½ 原 理
阎
啦
算 ½ 其 智 ½控 制 中 的 膻 坩 L½
点驶
J.
信息 与控 ½ 19 ,5 1 :8 3 )
剧 . B2 ( ½2 ½ 4
9
评论