机读格式显示(MARC)

000 00864nam0 2200253 450

001 0000385090

005 20250521160548.0

010 __ |a 978-7-115-63154-1 |d CNY79.80

100 __ |a 20250430d2025 em y0chiy0110 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a a z 000yy

106 __ |a r

200 1_ |a Joy RL |b 专著 |e 强化学习实践教程 |f 江季，王琦，杨毅远著

210 __ |a 北京 |c 人民邮电出版社 |d 2025

215 __ |a 160页 |c 彩图 |d 23cm

330 __ |a 本书涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容。

517 1_ |a 强化学习实践教程 |A qiang hua xue xi shi jian jiao cheng

606 0_ |a 机器学习 |j 教材

690 __ |a TP181 |v 5

701 _0 |a 江季 |A jiang ji |4 著

701 _0 |a 王琦 |A wang qi |4 著

701 _0 |a 杨毅远 |A yang yi yuan |4 著

801 _2 |a CN |b 58marc.cn |c 20250528