机读格式显示(MARC)

000 01232nam0 2200289 450

001 0000279538

010 __ |a 978-7-302-59938-8 |d CNY139.00

092 __ |a CN |b 人天1022-2341

100 __ |a 20220411d2022 em y0chiy50 ea

101 0_ |a eng |g chi

102 __ |a CN |b 110000

105 __ |a y z 000yy

106 __ |a r

200 1_ |a 策略前展、策略迭代与分布式强化学习 |e 英文 |f (美)德梅萃·P.博赛卡斯著

210 __ |a 北京 |c 清华大学出版社 |d 2022.01

215 __ |a 316页 |d 26cm

300 __ |a 国际知名大学原版教材信息技术学科与电气工程学科系列

330 __ |a 强化学习，也称为近似动态规划、神经元动态规划。本书的内容围绕强化学习中的策略迭代这一核心概念展开。策略迭代指从某个策略出发，不断产生改进策略的过程。如果仅仅生成一步改进策略，就称为Rollout(策略前展)。大量经验表明，Rollout是当前用得最广、最为可靠的强化学习方法之一。主要内容包括：第一章、动态规划原理；第二章、Rollout与策略改进；第三章、专用Rollout算法；第四章、值和策略的学习；第五章、无限时间分布式和多智能体算法。

333 __ |a 高校学生

606 0_ |a 机器学习 |x 高等学校 |j 教材 |j 英文

690 __ |a TP181 |v 5

701 _0 |c (美) |a 德梅萃·P.博赛卡斯 |4 著

801 _0 |a CN |b 人天书店 |c 20220413

901 __ |a 清华大学出版社

902 __ |a Rt1022-0302

962 __ |a 7390868

997 __ |a 可供2022-04-13