漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-19 talkingdev

[开源] Stability AI发布多视角虚拟相机系统,支持新颖视图合成

Stability AI近日发布了一款强大的多视角虚拟相机系统,该系统能够实现新颖视图合成(Novel View Synthesis),为用户提供了一种高效且非商业化的解决方案。虽然该技术尚未达到行业最先进水平,但其优势在于仅需两次...

Read More
2025-03-19 talkingdev

[论文推荐]SmolDocling:极小型高效文档OCR模型

近日,一款名为SmolDocling的新型文档OCR(光学字符识别)模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出,成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度,还具备足够的准确...

Read More
2025-03-19 talkingdev

Roblox开源其生成式3D模型Cube,革新虚拟世界创作

Roblox近日宣布开源其生成式AI系统Cube,该系统专注于3D和4D模型的生成。Cube的Beta版本将被集成到Roblox Studio中,并作为Lua API供开发者使用。这一重大技术突破不仅展示了Roblox在生成式AI领域的深厚积累,更预示...

Read More
2025-03-18 talkingdev

[开源] CSM语音模型在MLX上的高效运行

近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2025-03-17 talkingdev

AI巨头效仿DeepSeek,利用“蒸馏”技术打造更经济的模型

近期,OpenAI、微软和Meta等领先的人工智能公司正在通过“蒸馏”技术,利用大型语言模型(LLM)作为“教师”来训练更小的系统,从而创建更具成本效益的AI模型。这种技术通过将复杂模型的知识“蒸馏”到更轻量级的模型中,...

Read More
2025-03-17 talkingdev

[开源] 优化的工作学习代理框架OWL:高效且灵活的智能体构建方案

OWL(Optimized Workforce Learning Agent)是一个新兴的智能体框架,以其高效性和灵活性吸引了业界的广泛关注。该框架不仅在设计上体现出高度的合理性,而且在性能上也表现出色。OWL 允许开发人员通过简单的方式进...

Read More
  1. Prev Page
  2. 14
  3. 15
  4. 16
  5. Next Page