机读格式显示(MARC)
- 000 01232nam0 2200289 450
- 010 __ |a 978-7-302-59938-8 |d CNY139.00
- 092 __ |a CN |b 人天1022-2341
- 100 __ |a 20220411d2022 em y0chiy50 ea
- 200 1_ |a 策略前展、策略迭代与分布式强化学习 |e 英文 |f (美)德梅萃·P.博赛卡斯著
- 210 __ |a 北京 |c 清华大学出版社 |d 2022.01
- 300 __ |a 国际知名大学原版教材 信息技术学科与电气工程学科系列
- 330 __ |a 强化学习,也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发,不断产生改进策略的过程。如果仅仅生成一步改进策略,就称为Rollout(策略前展)。大量经验表明,Rollout是当前用得最广、最为可靠的强化学习方法之一。主要内容包括:第一章、动态规划原理;第二章、Rollout与策略改进;第三章、专用Rollout算法;第四章、值和策略的学习;第五章、无限时间分布式和多智能体算法。
- 606 0_ |a 机器学习 |x 高等学校 |j 教材 |j 英文
- 701 _0 |c (美) |a 德梅萃·P.博赛卡斯 |4 著
- 801 _0 |a CN |b 人天书店 |c 20220413