当前位置:首页 > 人工智能 >
《深入浅出强化学习:原理入门》电子书封面

深入浅出强化学习:原理入门

  • 发布时间:2019年11月28日 14:43:12
  • 作者:郭宪
  • 大小:112.3 MB
  • 类别:强化学习电子书
  • 格式:PDF
  • 版本:含源码版
  • 评分:9.2

    深入浅出强化学习:原理入门 PDF 含源码版

      给大家带来的一篇关于强化学习相关的电子书资源,介绍了关于强化学习、原理入门方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小112.3 MB,郭宪编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.1。

      内容介绍

      深入浅出强化学习:原理入门

      深入浅出强化学习:原理入门

      读者评价

      总体来说是一本比较好的读物。参考效果很好,讲的也算比较清楚,但是呢,讲得不够细致,很多比较重要的东西都略过了,可能是因为确实篇幅有限吧。还算有些帮助吧。

      从马尔科夫决策过程MDP,到决策/动作状态转移概率矩阵已知时的基于模型的动态规划方法,转移概率矩阵未知的基于无模型的强化学习方法。无论转移概率矩阵是否已知,都需要策略迭代算法/值迭代算法/策略搜索算法。就像强化学习(或增强学习)的名字暗示的那样,其中还包括bootstrapping算法。无模型的强化学习中的蒙特卡洛MC算法/时间差分TD算法。连续空间下的值函数逼近算法。顺带补充了一些统计/优化/gym/TensorFlow/Python/强化学习前沿等内容。好书推荐。

      这本书行文非常粗糙,数学概念混乱,推导极其不清楚,伪代码很难重复。作为一本讲述强化学习原理的入门书籍,完全不合格。作者似乎缺乏基本的学术写作训练。

      显而易见的数学式写一大堆推导,需要解释的给一行。想学强化学习的去看david silver或者别的书吧,这真是吹牛皮,当免费专栏还可以,这种水平来卖钱真是算了

      内容介绍

      《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。

      基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

      除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

      目录

      • 1 绪论 1
      • 第一篇 强化学习基础 17
      • 2 马尔科夫决策过程 18
      • 3 基于模型的动态规划方法 36
      • 第二篇 基于值函数的强化学习方法 57
      • 4 基于蒙特卡罗的强化学习方法 58
      • 5 基于时间差分的强化学习方法 75
      • 6 基于值函数逼近的强化学习方法 88
      • 第三篇 基于直接策略搜索的强化学习方法 125
      • 7 基于策略梯度的强化学习方法 126
      • 8 基于置信域策略优化的强化学习方法 142
      • 9 基于确定性策略搜索的强化学习方法 165
      • 10 基于引导策略搜索的强化学习方法 171
      • 第四篇 强化学习研究及前沿 185
      • 11 逆向强化学习 186
      • 12 组合策略梯度和值函数方法 202
      • 13 值迭代网络 207
      • 14 基于模型的强化学习方法:PILCO及其扩展 214

      学习笔记

      深入浅出了解happens-before原则

      看Java内存模型(JMM, Java Memory Model)时,总有一个困惑。关于线程、主存(main memory)、工作内存(working memory),我都能找到实际映射的硬件:线程可能对应着一个内核线程,主存对应着内存,而工作内存则涵盖了写缓冲区、缓存(cache)、寄存器等一系列为了提高数据存取效率的暂存区域。但是,一提到happens-before原则,就让人有点“丈二和尚摸不着头脑”。这个涵盖了整个JMM中可见性原则的规则,究竟如何理解,把我个人一些理解记录下来。 两个操作间具有happens-before关系,并不意味着前一个操作必须要在后一个操作之前执行。happens-before仅仅要求前一个操作对后一个操作可见。 这个说法我先后在好几本书中都……

      深入浅出分析Java抽象类和接口【功能,定义,用法,区别】

      本文实例讲述了Java抽象类和接口。分享给大家供大家参考,具体如下: 对于OOP编程来说,抽象是它一大特征之一。在Java中,可以通过两种形式来体现OOP的抽象:抽象类和接口。 这两者有相似之处也有很大的不同之处。 一、抽象类 在了解抽象类之前,先了解下抽象方法。抽象方法是一种特殊的方法:只有声明,而没有具体的实现。抽象方法的声明格式为: abstract void fun(); 抽象方法必须用abstract关键字进行修饰。如果一个类含有抽象方法,则称这个类为抽象类,这个类就必须在类前用abstract进行修饰,否则在IDE中编译的时候就会提示错误。因为抽象类中含有无具体实现的方法,所以不能用抽象类进行创……

      深入浅出Java mvc_动力节点Java学院整理

      ÔÚDRPÖÐÖÕÓÚ½Ó´¥µ½ÁËMVC,¸Ð´¥ÊÇȷʵÕâÑùµÄ¼Ü¹¹ÏµÍ³Áé»îÐÔ²»ÉÙ£¬ÏÖÔڸд¥×îÉîµÄ¾ÍÊÇʹÓÃtomcat×÷Ϊ·þÎñÆ÷·¢²¼±ÈIISºÃ¶àÁË£¬ÆðÂë·¢²¼ºÜ¼òµ¥£¬Ê¹ÓÃÆðÀ´·½±ã¡£ Ê×ÏÈÀ´¼òµ¥µÄѧϰһÏÂMVCµÄ»ù´¡ÖªÊ¶£¬MVCÈ«ÃûÊÇModel View Controller£¬ÊÇÄ£ÐÍ(model)£­ÊÓͼ(view)£­¿ØÖÆÆ÷(controller)µÄËõд£¬Ò»ÖÖÈí¼þÉè¼Æµä·¶£¬ÓÃÒ»ÖÖÒµÎñÂß¼­ºÍÊý¾ÝÏÔʽ·ÖÀëµÄ·½·¨×éÖ¯´úÂ룬½«ÒµÎñÂß¼­±»¾Û¼¯µ½Ò»¸ö²¿¼þÀïÃ棬ÔÚ½çÃæºÍÓû§Î§ÈÆÊý¾ÝµÄ½»»¥Äܱ»¸Ä½øºÍ¸öÐÔ»¯¶¨ÖƵÄͬʱ¶ø²»ÐèÒªÖØбàдҵÎñÂß¼­……

      深入浅出webpack之externals的使用

      我们通常在做项目时可能会把第三方库打包到bundle中,比如下面这张图 如果不想把第三方库打包到bundle中,这就有了externals。官方的使用externals比较简单 externals 官网文档解释的很清楚,就是webpack可以不处理应用的某些依赖库,使用externals配置后,依旧可以在代码中通过CMD、AMD或者window/global全局的方式访问。 只需三步—— 1.在HTML中引入第三方库的cdn 2.在webpack中配置externals externals: { jquery: "jQuery",} 3.在js中引用 const $ = require("jquery");$("#content").html("h1hello world/h1"); 好,现在我们可以随心所欲的使用jquery插件并保证不会打包到bundle中。external是怎么办到的呢?下面我们通过bundle的源码来分析下原理。 这里的……

      Python编码的深入浅出分析

      据说,每个做 Python 开发的都被字符编码的问题搞晕过,最常见的错误就是 UnicodeEncodeError、UnicodeDecodeError,你好像知道怎么解决,遗憾的是,错误又出现在其它地方,问题总是重蹈覆辙,str 到 unicode 之间的转换用 decode 还是 encode 方法还特不好记,老是混淆,问题究竟出在哪里? 为了弄清楚这个问题,我决定从 python 字符串的构成以及字符编码的细节上进行深入浅出的分析 字节与字符 计算机存储的一切数据,文本字符、图片、视频、音频、软件都是由一串01的字节序列构成的,一个字节等于8个比特位。 而字符就是一个符号,比如一个汉字、一个英文字母、一个数字、一个标点都可以称为一个字符。 字……

      以上就是本次介绍的强化学习电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Spring实战(中文4,5版)

      下一篇:React Native移动开发实战

      展开 +

      收起 -

      • 《深入浅出强化学习:原理入门》PDF下载

      强化学习相关电子书
      Ansible快速入门:技术原理与实战
      Ansible快速入门:技术原理与实战 高质量高清版

      这本书以新的自动化运维工具Ansible为主要内容,风格通俗易懂,侧重实战,由浅入深地介绍了Ansible以及周边产品Ansible Galaxy和Ansible Tower的用法,引领Ansible新手轻松入门

      立即下载
      Flask Web开发实战:入门、进阶与原理解析
      Flask Web开发实战:入门、进阶与原理解析 全格式版

      Flask开发团队成员撰写,Flask开发团队核心维护者高度评价,基于全新Flask技术版本,从基础知识到进阶实战,再到源码分析,5个大型综合案例

      立即下载
      深度学习之TensorFlow:入门、原理与进阶实战
      深度学习之TensorFlow:入门、原理与进阶实战 中文扫描版

      这本书通过大量的实例,全面而深入地讲解了深度学习神经网络原理和TensorFlow使用方法两方面的内容,通俗易懂,实用性强,特别适合TensorFlow深度学习的初学者和进阶读者作为自学教程阅读

      立即下载
      深入浅出DPDK
      深入浅出DPDK 原书中文版 立即下载
      深入浅出STM8单片机入门、进阶与应用实例
      深入浅出STM8单片机入门、进阶与应用实例 原书高清版 立即下载
      深入浅出Python机器学习
      深入浅出Python机器学习 完整超清版

      人工智能,火了!计算机是由程序驱动的,人工智能不过是一些特殊的算法。只要你有一些程序设计语言的基础,跟随本书,你也能进入人工智能的世界,成为一名人工智能应用的开发者。

      立即下载
      文本上的算法:深入浅出自然语言处理
      文本上的算法:深入浅出自然语言处理 清晰扫描版

      NLP技术入门教程,深入浅出讲解自然语言处理和机器学习技术,力图用生动形象的方式介绍了自然语言处理的理论、方法和技术,广受读者好评的深度学习技术读物

      立即下载
      深入浅出RxJS
      深入浅出RxJS 原书扫描版

      本书系统讲解RxJS响应式编程的技术原理与应用。第1章剖析函数响应式编程的基本概念,通过简单RxJS代码引入函数响应式编程,并与传统编程方式对比,解释这种编程范式的优势,以及这种范式形成的历史

      立即下载
      深入浅出Docker
      深入浅出Docker 完整超清版 立即下载
      读者留言
      网友NO.37062
      网友NO.37062

      强化学习的特征
      强化学习与有监督学习有几分相似,但它并不存在明确的答案或者标签,而有一个看上去类似但实则大相径庭的概念——报酬。
      下面以踢足球的进攻为例,把强化学习和有监督学习的区别再讲清楚一点。为了完成一次进攻,球员需要完成传球、运球、假动作等等一系列的步骤。
      对于有监督学习来说就是,你进行每一个步骤时都能听到场外一个个观众在讨论,“我觉得向左后方传球是个不错的办法”、“我觉得向右前方运球推进简直是胡来”等等,然后球员根据听到的讨论进行决策,然后通过完成这一系列的决策从而最终进球。
      而对于强化学习来说,它只知道进球的报酬是3分,获得一次罚球机会的报酬是2分,绕过一名防守球员的报酬是1分,被断球的报酬是-2分等等。具体到每一个步骤到底如何抉择才是最好的,就没有人告诉它了,他只能在脑海中不断演算分析、推倒重来,最后学习得到每一个步骤的最佳决策。
      那么到底如何才能根据最后的报酬推导出每一次阶段性决策的评价得分呢?显然,我们只能进行逆向推导。

      网友NO.40137
      网友NO.40137

      强化学习算法:
      根据策略是否是随机的,分为确定性策略强化学习和随机性策略强化学习。
      根据转移概率是否已知可以分为基于模型的强化学习算法和无模型的强化学习算法。
      根据回报函数是否已知,可以分为强化学习和逆向强化学习。逆向强化学习是根据专家实例将回报函数学出来。

      nfang163

      nfang163 提供上传

      资源
      15
      粉丝
      48
      喜欢
      758
      评论
      2

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757