论文：简单的强化学习算法战胜PPO

talkingdev • 2024-02-27

952617 views

REINFORCE是一种简单、标准且易于理解的强化学习方法。然而，在模拟器中使用它很难稳定地进行训练。PPO在一般情况下更为高效和稳定。Gemini使用REINFORCE算法，而据信GPT-4使用PPO算法。