pdf

多智能体机器学习：强化学习方法

1星
2022-07-12
9.76MB
需要1积分
8次下载

文档简介
猜您喜欢
用户评论0

标签：机器学习强化学习

本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章，首先介绍了几种常用的监督式学习方法，在此基础上，介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后，介绍了双人矩阵博弈问题、多人随机博弈学习问题，并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容，并提出LR-I滞后锚算法和指数移动平均Q学习算法等，并进行了分析比较。接下来，介绍了模糊系统和模糊学习，并通过仿真示例详细分析算法。后，介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富，重点突出。

译者序

原书前言

第1章监督式学习概述

1 1 LS算法

1 2 RLS算法

1 3 LMS算法

1 4随机逼近法

参考文献

第2章单智能体强化学习

2 1简介

2 2 n臂赌博机问题

2 3学习结构

2 4值函数

2 5最优值函数

2 5.1网格示例

2 6 MDP

2 7学习值函数

2 8策略迭代

2 9 时间差分学习

2 10状态一行为函数的时间差分学习

2 11 Q学习

2 12资格迹

参考文献

第3章双人矩阵博弈学习

3 1矩阵博弈

3 2双人矩阵博弈中的纳什均衡

3 3双人零和矩阵博弈中的线性规划

3 4学习算法

3 5梯度上升算法

3 6 WoLF - IGA算法

3 7 PHC算法

3 8 WoLF - PHC算法

3 9矩阵博弈中的分散式学习

3 10学习自动机

3 11线性回报一无为算法

3 12线性回报一惩罚算法

3 13滞后锚算法

3 14 LR．滞后锚算法

3 14.1仿真

参考文献

第4章多人随机博弈学习

4 1简介

4 2多人随机博弈

4 3极大极小Q学习算法

4 3.1 2 x2网格博弈

4 4纳什Q学习算法

4 4.1学习过程

4 5单纯形算法

4 6 Lemke - Howson算法

4 7纳什Q学习算法实现

4 8朋友或敌人Q学习算法

4 9无限梯度上升算法

4 10 PHC算法

4 11 WoLF - PHC算法

4 12 网格世界中的疆土防御问题

4 12.1仿真和结果

4 13 LR．滞后锚算法在随机博弈中的扩展

4 14 EMA Q学习算法

4 15 EMA Q学习与其他方法的仿真与结果比较

4 15.1矩阵博弈

4 15 2随机博弈

参考文献

第5章微分博弈

5 1简介

5 2模糊系统简述

5 2.1模糊集和模糊规则

5 2 2模糊推理机

5 2 3模糊化与去模糊化

5 2 4模糊系统及其示例

5 3模糊Q学习

5 4 FACL

5 5疯狂司机微分博弈

5 6模糊控制器结构

5.7 Q(A)学习模糊推理系统

5 8疯狂司机博弈的仿真结果

5 9双车追捕者一逃跑者博弈中的学习算法

5 10双车博弈仿真

5 11 疆土防御微分博弈

5 12疆土防御微分博弈中的形成回报

5 13仿真结果

5 13.1 -个防御者对一个人侵者

5 13 2两个防御者对一个人侵者

参考文献

第6章群智能与性格特征的进化

6 1简介

6 2群智能的进化

6 3环境表征

6 4群机器人的性格特征

6 5性格特征的进化

6 6仿真结构框架

6 7零和博弈示例

6 7.1收敛性

6 7 2仿真结果

6 8后续仿真实现

6 9机器人走出房间

6 10机器人跟踪目标

6 11小结

参考文献

展开预览

猜您喜欢

上传者

: sigma; 查看他的其他资源

TI 文字链专区

举报人：
被举报人：	sigma
举报的资源分：	1
* 类型：
	请您提供公司营业执照和软件相关版权到service@eeworld.com.cn
* 详细原因：

多智能体机器学习：强化学习方法

文档简介

评论

汽车 模拟

汽车模拟