机读格式显示(MARC)
- 000 00864nam0 2200253 450
- 010 __ |a 978-7-115-63154-1 |d CNY79.80
- 100 __ |a 20250430d2025 em y0chiy0110 ea
- 200 1_ |a Joy RL |b 专著 |e 强化学习实践教程 |f 江季,王琦,杨毅远著
- 210 __ |a 北京 |c 人民邮电出版社 |d 2025
- 215 __ |a 160页 |c 彩图 |d 23cm
- 330 __ |a 本书涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容。
- 517 1_ |a 强化学习实践教程 |A qiang hua xue xi shi jian jiao cheng
- 701 _0 |a 江季 |A jiang ji |4 著
- 701 _0 |a 王琦 |A wang qi |4 著
- 701 _0 |a 杨毅远 |A yang yi yuan |4 著
- 801 _2 |a CN |b 58marc.cn |c 20250528