漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-19 talkingdev

[论文推荐]reWordBench:揭示奖励模型在提示词重述下的脆弱性

近期,一项名为reWordBench的研究揭示了当前流行的奖励模型在面对提示词(prompt)的简单重述时表现出的脆弱性。该研究不仅提出了一个基准测试,还探讨了一种潜在的策略,以增强这些模型的鲁棒性。奖励模型在人工智...

Read More
2025-03-19 talkingdev

[论文推荐]SmolDocling:极小型高效文档OCR模型

近日,一款名为SmolDocling的新型文档OCR(光学字符识别)模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出,成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度,还具备足够的准确...

Read More
2025-03-18 talkingdev

[开源] CSM语音模型在MLX上的高效运行

近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2025-03-18 talkingdev

[论文推荐]Funsearch:LLM驱动的遗传算法助力数学家解决组合与数论问题

Funsearch是一种基于大型语言模型(LLM)驱动的遗传算法新实现,旨在帮助数学家解决组合和数论问题,而无需具备机器学习的专业知识。这项创新技术通过结合遗传算法的优化能力与LLM的生成能力,为数学研究提供了全新...

Read More
2025-03-18 talkingdev

UiPath通过收购Peak.ai布局Agentic AI领域

UiPath近日宣布收购Peak.ai,以加强其针对零售和制造业等垂直行业的AI与自动化服务。尽管UiPath近期面临营收挑战并下调了业绩预期,但公司希望通过Peak.ai的决策型AI能力来提升交叉销售机会并扩大市场份额。此次收购...

Read More
2025-03-17 talkingdev

[开源] 优化的工作学习代理框架OWL:高效且灵活的智能体构建方案

OWL(Optimized Workforce Learning Agent)是一个新兴的智能体框架,以其高效性和灵活性吸引了业界的广泛关注。该框架不仅在设计上体现出高度的合理性,而且在性能上也表现出色。OWL 允许开发人员通过简单的方式进...

Read More
  1. Prev Page
  2. 31
  3. 32
  4. 33
  5. Next Page