[论文推荐]大语言模型在多轮对话中容易迷失方向
talkingdev • 2025-05-14
7679 views
最新研究发现,大语言模型(LLMs)虽然在单轮对话中表现优异,但在多轮对话场景下性能显著下降。这项发表在arXiv上的研究通过大规模模拟实验揭示了这一现象:在六项生成任务中,LLMs的多轮对话表现平均下降39%。研究团队分析了超过20万次模拟对话,将性能下降分解为两个因素:轻微的适应性损失和显著的可靠性降低。数据显示,LLMs往往在对话早期做出假设并过早尝试生成最终解决方案,之后过度依赖这些不成熟的判断。更令人担忧的是,当LLMs在对话中走上错误方向时,它们会彻底迷失且无法自我纠正。这一发现对LLMs的实际应用提出了重要警示,特别是在需要复杂交互的客服、教育等场景中。研究结果已在Hacker News引发73条评论和134次点赞,显示出业界的广泛关注。