热搜关键词: 信号与系统无刷电机ADSTCP/IP

pdf

深入浅出强化学习:原理入门

  • 1星
  • 日期: 2022-06-19
  • 大小: 57.58MB
  • 所需积分:1分
  • 下载次数:1
  • favicon收藏
  • rep举报
  • free评论
标签: AI

AI

强化学习

强化学习

从零起步掌握强化学习技术精髓,称霸人工智能领域!《深入浅出强化学习:原理入门》针对初学者的需求,直接分析原理,并辅以编程实践。以解决问题的思路,层层剖析,单刀直入地普及了传统的强化学习基本方法和当前炙手可热的深度强化学习方法,直接将读者带入强化学习的殿堂。精读完本书,您能在熟练掌握原理的基础上,直接上手编程实践。本书的叙述方式简洁、直接、清晰,值得精读!

1  绪论 1

1.1  这是一本什么书 1

1.2  强化学习可以解决什么问题   2

1.3  强化学习如何解决问题 4

1.4  强化学习算法分类及发展趋势 5

1.5  强化学习仿真环境构建 7

1.5.1  gym  安装及简单的demo  示例 8

1.5.2  深入剖析gym  环境构建 10

1.6  本书主要内容及安排 12

第一部分  强化学习基础 17

2  马尔科夫决策过程 18

2.1  马尔科夫决策过程理论讲解   18

2.2  MDP  中的概率学基础讲解     26

2.3  基于gym  的MDP  实例讲解   29

2.4  习题     34

3  基于模型的动态规划方法 36

3.1  基于模型的动态规划方法理论 36

3.2  动态规划中的数学基础讲解   47

3.2.1  线性方程组的迭代解法 47

3.2.2  压缩映射证明策略评估的收敛性  49

3.3  基于gym  的编程实例  52

3.4  最优控制与强化学习比较   54

3.5  习题 56

第二部分  基于值函数的强化学习方法 57

4  基于蒙特卡罗的强化学习方法 58

4.1  基于蒙特卡罗方法的理论  58

4.2  统计学基础知识   67

4.3  基于Python  的编程实例   71

4.4  习题     74

5  基于时间差分的强化学习方法  75

5.1  基于时间差分强化学习算法理论讲解 75

5.2  基于Python  和gym  的编程实例   83

5.3  习题 87

6  基于值函数逼近的强化学习方法 88

6.1  基于值函数逼近的理论讲解 88

6.2  DQN  及其变种 94

6.2.1  DQN  方法 94

6.2.2  Double  DQN 100

6.2.3  优先回放(Prioritized  Replay) 102

6.2.4  Dueling  DQN 104

6.3  函数逼近方法   105

6.3.1  基于非参数的函数逼近 105

1.3.2  基于参数的函数逼近 111

6.3.3  卷积神经网络 117

6.4  习题 123

第三部分  基于直接策略搜索的强化学习方法   125

7  基于策略梯度的强化学习方法   126

7.1  基于策略梯度的强化学习方法理论讲解  126

7.2  基于gym  和TensorFlow  的策略梯度算法实现 134

7.2.1  安装Tensorflow 135

7.2.2  策略梯度算法理论基础 135

7.2.3  Softmax  策略及其损失函数   136

7.2.4  基于TensorFlow  的策略梯度算法实现     138

7.2.5  基于策略梯度算法的小车倒立摆问题 141

7.3  习题   141

8  基于置信域策略优化的强化学习方法 142

8.1  理论基础   143

8.2  TRPO  中的数学知识 153

8.2.1  信息论  153

8.2.2  优化方法  155

8.4  习题  164

9  基于确定性策略搜索的强化学习方法  165

9.1  理论基础  165

9.2  习题  170

10  基于引导策略搜索的强化学习方法  171

10.1  理论基础  171

10.2  GPS  中涉及的数学基础  178

10.2.1  监督相LBFGS  优化方法  178

10.2.2  ADMM  算法  179

10.2.3  KL  散度与变分推理  183

10.3  习题  184

第四部分  强化学习研究及前沿  185

11  逆向强化学习  186

11.1  概述   186

11.2  基于最大边际的逆向强化学习 187

11.3  基于最大熵的逆向强化学习  194

11.4  习题  201

12  组合策略梯度和值函数方法  202

12.1  理论基础  202

13  值迭代网络  207

13.1  为什么要提出值迭代网络  207

13.2  值迭代网络  210

14  基于模型的强化学习方法:PILCO  及其扩展  214

14.1  概述  214

14.2  PILCO  216

14.3  滤波PILCO  和探索PILCO  226

14.3.1  滤波PILCO  算法  227

14.3.2  有向探索PILCO  算法  230

14.4  深度PILCO  232

参考文献  235

推荐帖子 最新更新时间:2022-06-19 08:45

华大单片机特殊端口应用【注意事项】
本应用笔记主要包括:RESET 端口复用为 I/O 功能;外部晶振端口复用为 I/O 功能;SWD 编程端口复用为 I/O 功能;UART 编程端口复用为 I/O 功能。 注意:- 本应用笔记为 HC32L110 / HC32F003 / HC32F005 系列的应用补充材料,不能代替用户手册,具体功能及寄存器的操作等相关事项请以用户手册为准。 功能介绍 GPIO 是通用
火辣西米秀 国产芯片交流
为什么我如果在一个定时器上用两个中断控制时间的时候,
为什么我如果在一个定时器上用两个中断控制时间的时候,在温度高于27和低于27时,流水灯间隔闪烁的时间一样,都是间隔了1秒? #include #define uchar unsigned char #define uint unsigned int sbit DS=P2^2;             uint temp;               uchar  mm;       
FENFAXIANGSHANG 51单片机
MSP432开发板串口调试
拿到MSP432P401R评估板v1.0(这个请注意一下,目前在德州仪器官网上找到的硬件原理图是v2.0,v1.0的串口所在的引脚是RXD,TXD引脚),先将串口调试好,便于下一步工作的展开。首先,查看TI提供的代码例子,这个例子就在TI的MSPWare代码包内。注释如下: //***********************************************************
fish001 微控制器 MCU
DSP仿真器的必要性及原理
我们在硬件学习时通常会接触到仿真器以及编程器: 在线仿真器 (In-Circuit Emulator,ICE) 是用来调试嵌入式系统软件的硬件设备。嵌入式系统开发者要面对一般软件开发者所没有的特殊问题,因为嵌入式系统往往不像商业计算机那样具有键盘、显示屏、磁盘机和其他各种有效的用户界面和存储设备。当仿真器被插入到待开发芯片的某个部分的时候,在线仿真也被称作硬件仿真。这样的在线仿真器,可以在系统运
Jacktang DSP 与 ARM 处理器
使用PyPortal展示克利夫兰艺术博物馆的艺术品
介绍 如今,不仅在博物馆内,在室外都在扩大公众对其艺术收藏品的访问。数字化举措将曾经被归入博物馆范围的艺术品带给了21世纪的全球观众。这些现代博物馆已实质上成为新的内容提供商。就像提供视频和音乐内容的现代公司Netflix和Pandora一样,博物馆通过收集绘画,照片,珠宝和其他媒体而成为自己的内容提供商。对这些收藏进行数字化处理并使其可公开获取,将这些材料吸引给全球读者。 克利夫兰艺
dcexpert MicroPython开源版块
创意提交——远程门禁系统2
最近太忙了,准备一些特别的事情,真的是累坏了,现在刚刚回来,哎!工作中的人真心累和辛苦! 感谢论坛的管理帮我上传了视频,没办法,公司禁止上优酷等等网站,被限制了,只能委托管理员了。 $('flv_UsM').innerHTML=(mobileplayer() ? "" : AC_FL_RunContent('width', '500', 'height', '375', 'allowNetwo
不足论 瑞萨电子MCU

评论

登录/注册

意见反馈

求资源

回顶部
查找数据手册?

EEWorld Datasheet 技术支持

热门活动

相关视频

可能感兴趣器件

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版 版权声明

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2022 EEWORLD.com.cn, Inc. All rights reserved
×