漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-19 talkingdev

[论文推荐]SmolDocling:极小型高效文档OCR模型

近日,一款名为SmolDocling的新型文档OCR(光学字符识别)模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出,成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度,还具备足够的准确...

Read More
2025-03-18 talkingdev

[开源] CSM语音模型在MLX上的高效运行

近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2025-03-17 talkingdev

AI巨头效仿DeepSeek,利用“蒸馏”技术打造更经济的模型

近期,OpenAI、微软和Meta等领先的人工智能公司正在通过“蒸馏”技术,利用大型语言模型(LLM)作为“教师”来训练更小的系统,从而创建更具成本效益的AI模型。这种技术通过将复杂模型的知识“蒸馏”到更轻量级的模型中,...

Read More
2025-03-17 talkingdev

Luma推出多模态模型预训练新方法:Inductive Moment Matching

Luma首席科学家宋嘉明,作为最早为扩散模型开发加速算法的先驱,近日发布了新的多模态预训练方法——Inductive Moment Matching(IMM)。这一新方法不仅超越了传统扩散模型在样本质量上的表现,还实现了10倍以上的效率...

Read More
2025-03-17 talkingdev

[开源] 优化的工作学习代理框架OWL:高效且灵活的智能体构建方案

OWL(Optimized Workforce Learning Agent)是一个新兴的智能体框架,以其高效性和灵活性吸引了业界的广泛关注。该框架不仅在设计上体现出高度的合理性,而且在性能上也表现出色。OWL 允许开发人员通过简单的方式进...

Read More
2025-03-17 talkingdev

[开源]HiRAG:为大型语言模型检索引入分层知识增强生成方法

HiRAG(Hierarchical Retrieval-Augmented Generation)是一种创新的分层知识增强生成方法,旨在提升检索增强生成(RAG)技术在特定领域任务中的语义理解和索引能力。RAG技术通过将外部知识库与大型语言模型(LLM)...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
  1. Prev Page
  2. 26
  3. 27
  4. 28
  5. Next Page