开源|Mini-o3:开源多轮视觉推理模型挑战OpenAI o3
talkingdev • 2025-09-11
2100 views
Mini-o3作为新兴开源视觉推理模型,实现了与OpenAI o3类似的多轮交互能力,支持高达数十轮的连续对话推理。该项目完全公开训练流程,涵盖数据构建、模型架构与训练策略,为学术界和工业界提供可复现的视觉-语言智能体研究基础。其技术核心在于融合视觉编码器与大型语言模型,通过强化学习优化多轮决策能力,在视觉问答、具身推理等场景展现潜力。这一开源举措将加速智能体研究民主化,降低对闭源商业API的依赖,尤其对计算资源有限的研究机构具有重要意义。