When should we prefer Decision Transformers for Offline Reinforcement Learning?什么时候我们应该选择决策转换器进行离线强化学习?https://arxiv.org/pdf/2305.14550摘要离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。三种流行的离线RL算法分别是保守Q学习(CQL)、行为克隆(BC)和决策Transformer(DT),分别属于Q学习、模仿学习和序列建模类别。一个关键...