StaFi	官网

什么时候应该选择决策Transformers进行离线强化学习?|算法|时域|鲁棒性|大模型

Jan 22
2025-01-22

When should we prefer Decision Transformers for Offline Reinforcement Learning?什么时候我们应该选择决策转换器进行离线强化学习?https://arxiv.org/pdf/2305.14550摘要离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。三种流行的离线RL算法分别是保守Q学习(CQL)、行为克隆(BC)和决策Transformer(DT),分别属于Q学习、模仿学习和序列建模类别。一个关键...