漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-31 talkingdev

[论文推荐]Kyutai发布高保真实时语音互译系统

法国人工智能研究机构Kyutai最新推出突破性语音互译系统,该系统基于多流Transformer架构,可实现高保真度的实时语音到语音翻译。该技术突破传统文本中转翻译模式,直接在声学层面进行跨语言转换,并保持原说话者的...

Read More
2025-03-28 talkingdev

Rust语言打造现代XPath与XSLT引擎Xee正式发布

近日,基于Rust语言开发的现代XPath与XSLT引擎Xee正式亮相,为XML数据处理领域带来高性能解决方案。Xee通过利用Rust的内存安全特性和零成本抽象能力,显著提升了XPath查询和XSLT转换的执行效率,同时避免了传统引擎...

Read More
2025-03-28 talkingdev

[论文推荐]Mixture-of-Mamba:多模态预训练新突破,计算成本显著降低

近期,一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs),实现了高效的多模态预训练。与传统Transformer模型相比,Mixture-of-Mamba在文本、图像...

Read More
2025-03-27 talkingdev

OpenAI Agents SDK支持Model Context Protocol,推动AI模型与数据源连接标准化

Model Context Protocol(MCP)是一种为大型语言模型提供工具和上下文的方式。它是一个开放协议,提供标准化的方法来连接AI模型与不同的数据源和工具。现在,OpenAI的Agents SDK已经支持MCP,这使得开发者可以使用广...

Read More
2025-03-27 talkingdev

JavaScript实现轻量级撤销/重做功能栈

在JavaScript开发中,实现撤销(undo)和重做(redo)功能是许多应用场景中的核心需求,尤其是在文本编辑器、图形设计工具等交互性较强的应用中。本文将介绍如何编写一个轻量级的撤销/重做功能栈,通过简洁的代码实...

Read More
2025-03-27 talkingdev

[论文推荐] 模块化RAG框架:为图结构数据优化检索增强生成流程

近日,一项名为RGL的模块化框架在arXiv上发布,专为图结构数据的检索增强生成(RAG)流程提供了全新的解决方案。RGL通过其模块化设计和性能优化,显著提升了传统方法的效率,据称其速度提升了高达143倍。这一突破性...

Read More
2025-03-26 talkingdev

OpenAI推出新一代音频模型Voice Engine

OpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page