机读格式显示(MARC)
- 000 01468nam0 2200289 450
- 010 __ |a 978-7-118-13707-1 |d CNY88.00
- 049 __ |a A500000CQL |b UCS01013380079 |c 2400554
- 100 __ |a 20251218d2025 em y0chiy50 ea
- 200 1_ |a 异策略安全约束强化学习 |9 yi ce lue an quan yue shu qiang hua xue xi |b 专著 |f 杨奇松[等]著
- 210 __ |a 北京 |c 国防工业出版社 |d 2025
- 215 __ |a 13,117页 |d 24cm
- 304 __ |a 著者还有:常燕、武健、李邦杰、王顺宏、赵久奋
- 312 __ |a 封面英文题名:Off-policy safety constrained reinforcement learning
- 330 __ |a 本书探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先,介绍Worst-Case Soft Actor Critic(WCSAC)算法,该算法通过分析累积安全成本的分布,引入条件风险值作为安全约束,并自适应实现奖励与安全之间的平衡。其次,介绍两种估计安全成本分布的方法:高斯近似法和分位数回归算法,并通过仿真实验展示它们在风险控制中的效果。再次,进一步地针对目标奖励未知的情况,介绍Constrained Entropy Maximization(CEM)算法,旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。最后,为了实现安全策略的快速迁移学习,介绍Safe Guide(SaGui)框架。
- 510 1_ |a Off-policy safety constrained reinforcement learning |z eng
- 606 0_ |a 机器学习 |9 Ji Qi Xue Xi
- 701 _0 |a 杨奇松 |9 yang qi song |4 著
- 801 _0 |a CN |b CQL |c 20250822
- 801 _2 |a CN |b OLCC |c 20251203
- 905 __ |a GDPTC |d TP181/435