大模型的相关内容 - 漫话开发者

2025-07-16 talkingdev

Mistral AI推出开源音频模型Voxtral，开启语音理解新纪元

Mistral AI近日发布了其首个开源音频模型套件Voxtral，标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本：24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模，可处理复杂语音...

2025-07-14 talkingdev

近期，一篇关于强化学习（RL）如何扩展至惊人10^26 FLOPs（每秒浮点运算次数）的探讨引起了业界广泛关注。文章指出，强化学习被视为构建前沿AI模型，尤其是大型语言模型（LLMs）的下一个核心训练技术。传统观点认为...

2025-07-14 talkingdev

深度学习领域知名专家安德鲁·卡帕西（Andrej Karpathy）近日就强化学习（RL）的规模化应用趋势发表了深刻见解，指出RL的扩展性已成为当前AI研究的焦点。他强调，强化学习在得当的运用下，能够展现出远超监督式微调的...

2025-07-13 talkingdev

月之暗面（Moonshot AI）近日在GitHub上重磅开源了其Kimi K2系列大型语言模型。作为国内领先的AI公司，月之暗面此举不仅展示了其在大模型研发领域的深厚实力，也为全球开源社区贡献了一股重要的力量。Kimi K2系列旨...

2025-07-11 talkingdev

开发者Henry和Roman近日推出开源项目Cactus，这是一个专为智能手机设计的跨平台框架，支持本地部署大型语言模型（LLM）、视觉语言模型（VLM）和文本转语音（TTS）模型。与Ollama专注于笔记本和边缘服务器不同，Cactu...

2025-07-10 talkingdev

最新研究发现，在数学问题中插入诸如'有趣的事实：猫一生大部分时间在睡觉'等无关短语，会导致大语言模型的错误应答率较基准水平飙升300%。这种与查询无关的对抗性触发现象具有跨模型规模的迁移性，且蒸馏版模型表现...

2025-07-10 talkingdev

Google最新发布的Gemma 3n和MatFormer模型采用了创新的嵌套Transformer架构，通过Mix-n-Match技术实现弹性推理功能。该技术允许模型在运行时动态调整计算资源分配，显著提升推理效率并降低计算成本。本实践教程详细...

2025-07-09 talkingdev

艾伦人工智能研究所（AI2）近日推出OLMo 2全开源语言模型家族，标志着大模型开源生态取得重大突破。该系列包含32B、13B、7B和1B四种参数规模，其中旗舰型号OLMo 2 32B成为首个在主流基准测试中同时超越GPT-3.5 Turbo...