广东职业技术学院图书馆书目检索系统

MARC状态：审校文献类型：中文图书浏览次数：1

提要文摘附注:: 本书探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先，介绍Worst-Case Soft Actor Critic(WCSAC)算法，该算法通过分析累积安全成本的分布，引入条件风险值作为安全约束，并自适应实现奖励与安全之间的平衡。其次，介绍两种估计安全成本分布的方法：高斯近似法和分位数回归算法，并通过仿真实验展示它们在风险控制中的效果。再次，进一步地针对目标奖励未知的情况，介绍Constrained Entropy Maximization(CEM)算法，旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。最后，为了实现安全策略的快速迁移学习，介绍Safe Guide(SaGui)框架。

全部MARC细节信息>>

显示全部馆藏信息

广东职业技术学院图书馆书目检索系统

Online Public Access Catalogue