自我对弈优化算法的相关内容 - 漫话开发者

2024-01-11 talkingdev

论文：谷歌研究人员提出自我对弈优化算法，致力于简化AI对齐

谷歌研究人员提出了一种名为Self-Play Preference Optimization (SPO) 的自我对弈优化算法。该算法相比传统的强化学习对齐方式更加简单。研究人员运用博弈论，找到了对噪声干扰鲁棒性强、性能表现优异的单人自我对弈...