行为克隆的相关内容 - 漫话开发者

2023-07-10 talkingdev

无需强化学习环节的逆向强化学习：快速且稳健

逆向强化学习有时被称为行为克隆或专家模仿。它通过引入一个内部强化学习环路，将监督调优的简单任务变得复杂。然而，如果我们去掉这个环路，我们可以获得强化学习探索的许多优势，同时避免了函数近似问题的挑战。这...