机读格式显示(MARC)

000 01878nam 2200337 450

001 0000231821

005 20230719102300.0

010 __ |a 978-7-111-68738-2 |d CNY149.00

100 __ |a 20210906d2021 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a ak z 000yy

106 __ |a r

200 1_ |a 深度强化学习实践 |A shen du qiang hua xue xi shi jian |f (俄) 马克西姆·拉潘著 |d = Deep reinforcement learning hands-on |f Maxim Lapan |g 林然, 王薇译 |z eng

210 __ |a 北京 |c 机械工业出版社 |d 2021.8

215 __ |a xvii, 617页 |c 图 |d 24cm

225 2_ |a 智能系统与技术丛书 |A zhi neng xi tong yu ji shu cong shu

305 __ |a 译自原书第2版

306 __ |a 本书中文简体字版由Packt Publishing授权机械工业出版社独家出版

314 __ |a 马克西姆·拉潘, 一位深度学习爱好者和独立研究者。林然, 在2016年加入Thoughtworks之后, 主要担任全栈软件开发工程师。王薇, 北京邮电大学硕士。

330 __ |a 本书介绍了强化学习的基础知识, 以及如何动手编写智能体以执行一系列实际任务。本书首先介绍强化学习的概念、OpenAI Gym库以及PyTorch库。接着分别介绍几种强化学习方法: 交叉熵、Q-learning、DQN及其扩展以及高级强化学习库。然后介绍策略梯度及其扩展的A2C、A3C方法, 并研究可以使用策略梯度方法解决的实际问题: 使用RL训练聊天机器人、通过TextWorld环境解决基于文本的文字冒险游戏、Web导航和浏览器自动化。之后介绍连续控制问题、机器人技术中的强化学习、置信域方法等高级强化学习部分。接着介绍另一套RL方法: 黑盒优化。最后讨论RL的高级探索、基于模型的方法、AlphaGo Zero、离散优化、多智能体强化学习。

333 __ |a 计算机相关专业人员

410 _0 |1 2001 |a 智能系统与技术丛书

500 10 |a Deep reinforcement learning hands-on |A Deep reinforcement learning hands-on |m Chinese

606 0_ |a 机器学习 |A ji qi xue xi |x 算法

690 __ |a TP181 |v 5

701 _1 |a 拉潘 |A la pan |g (Lapan, Maxim) |4 著

702 _0 |a 林然 |A lin ran |4 译

702 _0 |a 王薇 |A wang wei |4 译

801 _0 |a CN |b 湖北三新 |c 20210906

905 __ |a GDPTC |d TP181/206