漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-14 talkingdev

[开源]UCGM:统一框架实现连续生成模型的训练与采样

加州大学团队在GitHub开源了UCGM项目,为生成式AI领域带来突破性技术框架。该项目创新性地构建了统一架构,可同时支持多步(如扩散模型)和少步(如流模型)连续生成模型的训练与采样流程。通过数学层面的抽象整合,...

Read More
2025-05-14 talkingdev

Audible联手出版商扩展AI有声读物库,支持多语言合成

亚马逊旗下有声书服务平台Audible正与多家出版商合作,通过AI语音合成技术大幅扩充其有声读物资源库。该平台目前已集成超过100种AI语音,支持英语、西班牙语、法语和意大利语等多种语言的自动播讲。这一举措标志着数...

Read More
2025-05-14 talkingdev

TikTok推出AI Alive功能:静态照片秒变动态视频

TikTok近日正式发布名为AI Alive的创新功能,该技术通过智能编辑工具将用户上传的静态照片转化为具有动态效果的短视频,并应用于Stories板块。这一功能依托于先进的图像识别与生成式AI技术,能够自动分析照片内容并...

Read More
2025-05-14 talkingdev

PDF转文本:看似简单却极具挑战的技术难题

近日,搜索引擎宣布已获得索引PDF文件格式的能力,这一功能将在未来几个月内逐步部署。然而,从PDF中提取文本信息的技术挑战远比表面看起来复杂。关键在于PDF并非文本格式,而是一种图形格式。它并不以传统方式存储...

Read More
2025-05-14 talkingdev

[论文推荐] 语言模型类型约束解码:显著提升代码生成正确率

大型语言模型(LLMs)在代码生成领域已取得显著成就,但其输出仍常因缺乏形式化约束而出现编译错误。针对这一挑战,研究者提出了一种创新的类型约束解码方法,通过类型系统引导代码生成。该研究开发了新型前缀自动机...

Read More
2025-05-13 talkingdev

[开源]LLMs在多轮对话中表现显著下降(GitHub仓库)

最新研究发现,大型语言模型(LLMs)在多轮对话任务中的表现存在显著缺陷。根据微软在GitHub上公开的研究项目数据显示,由于模型可靠性和早期错误假设问题,LLMs在多轮对话中的任务表现平均下降了39%。这一发现对当...

Read More
2025-05-13 talkingdev

[开源]FastVLM:苹果发布高效视觉语言模型视觉编码方案,CVPR 2025论文实现

苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法,旨在优化视觉语言模型(VLM)中的视觉信息处...

Read More
2025-05-09 talkingdev

[论文推荐]基于离线数据的Actor-Critic学习算法实现近最优样本效率

强化学习领域取得重要突破,研究人员开发出一种新型actor-critic算法,通过结合离线数据和针对性探索,在混合强化学习场景中实现了接近最优的样本效率。该研究解决了长期困扰强化学习领域的核心挑战——如何在有限的实...

Read More
  1. Prev Page
  2. 24
  3. 25
  4. 26
  5. Next Page