[论文推荐]Voxtral：多模态音频聊天模型新突破

talkingdev • 2025-07-24

1063170 views

Voxtral团队最新发布了Voxtral Mini和Voxtral Small两款多模态音频聊天模型，在语音理解和文本处理方面均达到业界领先水平。这两款模型能够同时处理语音音频和文本文档，在多项音频基准测试中取得了最先进的性能表现，同时保持了强大的文本处理能力。特别值得注意的是，Voxtral Small模型不仅性能超越了许多闭源模型，而且体积足够小，可以在本地设备上运行。该模型支持32K上下文窗口，能够处理长达40分钟的音频文件，并支持长时间的多轮对话。此外，研究团队还贡献了三个用于评估语音理解模型在知识和常识方面表现的基准测试。这两款模型均以Apache 2.0许可协议发布，为开发者提供了强大的开源工具。

核心要点

Voxtral发布两款多模态音频聊天模型，在语音和文本处理方面均表现优异
Voxtral Small模型性能超越多个闭源模型，且可在本地设备运行
支持32K上下文窗口，能处理40分钟音频文件和长时间对话

[论文推荐]Voxtral：多模态音频聊天模型新突破

核心要点

Related posts