当前位置:主页 > 技术文档 > 人工智能 下载
多智能体机器学习:强化学习方法

多智能体机器学习:强化学习方法 全书超清版

  • 更新:2020-08-02 14:17:18
  • 大小:29 MB
  • 热度:575
  • 审核:璩嘉树
  • 类别:技术文章
  • 格式:PDF

  • 资源介绍
  • 相关推荐

本书提供了一种多智能体不同学习方法的框架。同时还提供了多智能体微分博弈中的新进展以及在博弈理论和移动机器人中应用的全面概述。本书向读者介绍了多智能体机器学习的不同方法。主要包括单智能体强化学习、*博弈和马尔科夫博弈、自适应模糊控制和推理、时间差分学习和Q学习。本书具有如下特点:

•全面涵盖了多人博弈、微分博弈和博弈理论;
•基于梯度算法的简单策略学习方法;
•多人矩阵博弈和*博弈的详细算法和示例;
•群机器人和性格特征进化中的学习示例。
强化学习是近年来在机器学习领域非常热门的研究方向,尤其在多智能体机器学习中,若智能体的某个行为策略获得强化信号,则智能体以后产生这个行为策略的趋势便会加强,这对于群体智能具有十分重要的意义,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有广泛应用。
本书对于研究人员、研究生和从事多智能体学习的相关人员以及在电子和计算机工程、计算机科学以及机械和航空工程领域的相关人员非常有用。
在现有的机器学习书籍中,较少有以强化学习的方法对多智能体机器学习进行描述的,而有关强化学习的内容,也往往只是在某些专业的机器学习书籍中在个别章节进行阐述。本书以强化学习与协作策略在相关研究领域的应用为主,侧重协作策略的应用,列举了车辆路径规划、多播路由、供应链管理等问题中的解决方案,多智能体及群体智能微分博弈中的新进展以及在博弈理论和移动机器人中的先进应用,而较少涉及强化学习理论的演化。

本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人*博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。

目录

  • 目 录
  • 译者序
  • 原书前言
  • 第1章监督式学习概述
  • 1 1 LS算法
  • 1 2 RLS算法
  • 1 3 LMS算法
  • 1 4随机逼近法
  • 参考文献
  • 第2章单智能体强化学习
  • 2 1简介
  • 2 2 n臂赌博机问题
  • 2 3学习结构
  • 2 4值函数
  • 2 5最优值函数
  • 2 5.1网格示例
  • 2 6 MDP
  • 2 7学习值函数
  • 2 8策略迭代
  • 2 9 时间差分学习
  • 2 10状态一行为函数的时间差分学习
  • 2 11 Q学习
  • 2 12资格迹
  • 参考文献
  • 第3章双人矩阵博弈学习
  • 3 1矩阵博弈
  • 3 2双人矩阵博弈中的纳什均衡
  • 3 3双人零和矩阵博弈中的线性规划
  • 3 4学习算法
  • 3 5梯度上升算法
  • 3 6 WoLF - IGA算法
  • 3 7 PHC算法
  • 3 8 WoLF - PHC算法
  • 3 9矩阵博弈中的分散式学习
  • 3 10学习自动机
  • 3 11线性回报一无为算法
  • 3 12线性回报一惩罚算法
  • 3 13滞后锚算法
  • 3 14 LR.滞后锚算法
  • 3 14.1仿真
  • 参考文献
  • 第4章多人随机博弈学习
  • 4 1简介
  • 4 2多人随机博弈
  • 4 3极大极小Q学习算法
  • 4 3.1 2 x2网格博弈
  • 4 4纳什Q学习算法
  • 4 4.1学习过程
  • 4 5单纯形算法
  • 4 6 Lemke - Howson算法
  • 4 7纳什Q学习算法实现
  • 4 8朋友或敌人Q学习算法
  • 4 9无限梯度上升算法
  • 4 10 PHC算法
  • 4 11 WoLF - PHC算法
  • 4 12 网格世界中的疆土防御问题
  • 4 12.1仿真和结果
  • 4 13 LR.滞后锚算法在随机博弈中的扩展
  • 4 14 EMA Q学习算法
  • 4 15 EMA Q学习与其他方法的仿真与结果比较
  • 4 15.1矩阵博弈
  • 4 15 2随机博弈
  • 参考文献
  • 第5章微分博弈
  • 5 1简介
  • 5 2模糊系统简述
  • 5 2.1模糊集和模糊规则
  • 5 2 2模糊推理机
  • 5 2 3模糊化与去模糊化
  • 5 2 4模糊系统及其示例
  • 5 3模糊Q学习
  • 5 4 FACL
  • 5 5疯狂司机微分博弈
  • 5 6模糊控制器结构
  • 5.7 Q(A)学习模糊推理系统
  • 5 8疯狂司机博弈的仿真结果
  • 5 9双车追捕者一逃跑者博弈中的学习算法
  • 5 10双车博弈仿真
  • 5 11 疆土防御微分博弈
  • 5 12疆土防御微分博弈中的形成回报
  • 5 13仿真结果
  • 5 13.1 -个防御者对一个人侵者
  • 5 13 2两个防御者对一个人侵者
  • 参考文献
  • 第6章群智能与性格特征的进化
  • 6 1简介
  • 6 2群智能的进化
  • 6 3环境表征
  • 6 4群机器人的性格特征
  • 6 5性格特征的进化
  • 6 6仿真结构框架
  • 6 7零和博弈示例
  • 6 7.1收敛性
  • 6 7 2仿真结果
  • 6 8后续仿真实现
  • 6 9机器人走出房间
  • 6 10机器人跟踪目标
  • 6 11小结
  • 参考文献

资源下载

资源下载地址1:https://pan.baidu.com/s/1zR7GZdQiIFMRLqrTaeiE-A

相关资源

网友留言