OpenAI强化微调技术RFT成本暴增700倍,仅编码任务表现突出引争议
talkingdev • 2025-09-26
4478 views
OpenAI最新推出的强化微调技术RFT旨在通过强化学习提升o4-mini模型在特定任务中的性能。该技术允许工程师通过灵活的评分器配置自定义奖励机制,理论上可在适用场景下实现显著性能突破。然而,其成本高达监督微调的700倍,且目前仅在智能体编码任务中展现出明确优势。这种极高的成本效益比限制了RFT的广泛应用,业界对其商业落地可行性产生质疑。专家指出,虽然RFT为复杂任务优化提供了新思路,但在当前技术阶段,其高昂的投入与有限的适用场景可能难以支撑大规模商业化部署。