热搜关键词: MATLAB天线OpenCVVHDL

pdf

多智能体机器学习:强化学习方法

  • 1星
  • 2022-07-12
  • 9.76MB
  • 需要1积分
  • 0次下载
  • favicon收藏
  • rep举报
  • free评论
标签: 机器学习

机器学习

强化学习

强化学习

本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。

译者序

原书前言

第1章监督式学习概述

1  1  LS算法

1  2  RLS算法

1  3  LMS算法

1  4随机逼近法

参考文献

第2章单智能体强化学习

2  1简介

2  2  n臂赌博机问题

2  3学习结构

2  4值函数

2  5最优值函数

2  5.1网格示例

2  6  MDP

2  7学习值函数

2  8策略迭代

2  9  时间差分学习

2  10状态一行为函数的时间差分学习

2  11  Q学习

2  12资格迹

参考文献

第3章双人矩阵博弈学习

3  1矩阵博弈

3  2双人矩阵博弈中的纳什均衡

3  3双人零和矩阵博弈中的线性规划

3  4学习算法

3  5梯度上升算法

3  6  WoLF  -  IGA算法

3  7  PHC算法

3  8  WoLF  -  PHC算法

3  9矩阵博弈中的分散式学习

3  10学习自动机

3  11线性回报一无为算法

3  12线性回报一惩罚算法

3  13滞后锚算法

3  14  LR.滞后锚算法

3  14.1仿真

参考文献

第4章多人随机博弈学习

4  1简介

4  2多人随机博弈

4  3极大极小Q学习算法

4  3.1  2  x2网格博弈

4  4纳什Q学习算法

4  4.1学习过程

4  5单纯形算法

4  6  Lemke  -  Howson算法

4  7纳什Q学习算法实现

4  8朋友或敌人Q学习算法

4  9无限梯度上升算法

4  10  PHC算法

4  11  WoLF  -  PHC算法

4  12  网格世界中的疆土防御问题

4  12.1仿真和结果

4  13  LR.滞后锚算法在随机博弈中的扩展

4  14  EMA  Q学习算法

4  15  EMA  Q学习与其他方法的仿真与结果比较

4  15.1矩阵博弈

4  15  2随机博弈

参考文献

第5章微分博弈

5  1简介

5  2模糊系统简述

5  2.1模糊集和模糊规则

5  2  2模糊推理机

5  2  3模糊化与去模糊化

5  2  4模糊系统及其示例

5  3模糊Q学习

5  4  FACL

5  5疯狂司机微分博弈

5  6模糊控制器结构

5.7  Q(A)学习模糊推理系统

5  8疯狂司机博弈的仿真结果

5  9双车追捕者一逃跑者博弈中的学习算法

5  10双车博弈仿真

5  11  疆土防御微分博弈

5  12疆土防御微分博弈中的形成回报

5  13仿真结果

5  13.1  -个防御者对一个人侵者

5  13  2两个防御者对一个人侵者

参考文献

第6章群智能与性格特征的进化

6  1简介

6  2群智能的进化

6  3环境表征

6  4群机器人的性格特征

6  5性格特征的进化

6  6仿真结构框架

6  7零和博弈示例

6  7.1收敛性

6  7  2仿真结果

6  8后续仿真实现

6  9机器人走出房间

6  10机器人跟踪目标

6  11小结

参考文献

推荐帖子 最新更新时间:2022-08-13 17:57

【ATmega4809 Curiosity Nano测评】开发软件
本帖最后由 dcexpert 于 2019-10-3 12:07 编辑 进行下一步测试前,需要先准备好开发软件。ATmega4809 属于AVR单片机系列,可以使用ATMEL Studio IDE开发。而最新的MPLAB X IDE也开始整合ATMEL的芯片,所以也可以用MPLAB X IDE进行开发。MPLAB Xpress是云端IDE,只需要一个浏览器就可以编程,但是对仿真器编程器的支持
dcexpert 单片机
性能与安全兼顾 适用于IoT和穿戴式设备的小型锂离子二次电池
尼吉康全新的小型锂离子可充电电池产品并不是大众所熟知的锂电池,它是一种新颖的产品,它将会大量应用于新兴市场,如IoT物联网、万物互联和各种各样的新的通讯时代的用户。 尼吉康通过采用东芝基础设施系统株式会社的SCiB™技术,开发出同时拥有高功率密度和能量密度的小型锂离子二次电池。   开发背景   SLB小型可充电电池,实现的能量密度和功率密度相对比较居中的位
EEWORLD社区 电源技术
有特殊需要可定制自恢复保险丝
自恢复保险丝现有的型号可能无法满足个别客户的需要,秦晋电子可以接受客户的特殊定制,下面看看有几种需要定制的情况。 第一种定制:过流保护的特殊条件需要定制        自恢复保险丝大家一般选用的都是企业标准型产品(简称“企标产品”),即厂家按标准型号,可以覆盖大部分需求的型号规格生产供应。也还有少部分企业因为自身电路原因和过流保护要求的特殊性,企标产品无法满足要求,遇到这种情况
fish001 模拟与混合信号
新手小白求助一个问题。。
使用IAR调试430板子的时候,总是连不上板子,出现下面的错误。 Thu May 22, 2014 09:09:59: Fatal error: Failed to re-initialize   Session aborted! Thu May 22, 2014 09:10:00: Fatal error: Unknown exception in driver (SD3)   Ses
痕丶 微控制器 MCU
TMS320F28335通用输入/输出口GPIO相关寄存器介绍
1、GPxMUX寄存器(功能选择寄存器) 每个I/O口都有一个功能选择寄存器,功能选择寄存器主要用于选择I/O工作在特殊功能还是通用数组I/O模式。在复位时,所有GPIO配置成通用数字模式。 1)如果GPxMUX.bit = 0,配置成通用数字I/O功能; 2)如果GPxMUX.bit = 1,配置成特殊外设功能口(如SCI、CAN); I/O的输入功能和外设的输入通道总是
fish001 DSP 与 ARM 处理器
LiteOS内核教程04-信号量
本帖最后由 小熊派开源社区 于 2020-2-25 10:55 编辑 1. LiteOS内核的信号量 1.1.信号量 在多任务操作系统中,不同的任务之间需要同步运行,信号量功能可以为用户提供这方面的支持。信号量(Semaphore)是一种实现任务间通信的机制,实现任务之间同步或临界资源的互斥访问。 1.2. 信号量的使用方式 信号量可以被任务获取或者申请,不同的信号量通过信号
小熊派开源社区 编程基础

评论

登录/注册

意见反馈

求资源

回顶部
查找数据手册?

EEWorld Datasheet 技术支持

热门活动

相关视频

可能感兴趣器件

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版 版权声明

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2022 EEWORLD.com.cn, Inc. All rights reserved
×