微信扫码实时跟踪AI前沿
谷歌研究人员提出了一种名为Self-Play Preference Optimization (SPO) 的自我对弈优化算法。该算法相比传统的强化学习对齐方式更加简单。研究人员运用博弈论,找到了对噪声干扰鲁棒性强、性能表现优异的单人自我对弈...