漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-12 talkingdev

[论文推荐] 广义离散扩散: 提升文本数据去噪效率与自校正能力

在最新的研究进展中,科学家提出了一种广义离散扩散方法,该方法显著改进了在文本等离散数据上的扩散过程。这一创新通过引入一种广义的去噪过程和略微改进的掩码方案,使得训练过程更加高效,并赋予了模型自我校正输...

Read More
2025-03-12 talkingdev

MovieAgent:长镜头电影生成技术突破

近日,一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态,利用基于角色的提示(persona-based prompting)来确保生成内容的一致性和准确性。MovieAgent进一步使用Stable Diffusion视频模型...

Read More
2025-03-12 talkingdev

[论文推荐] 基于硬负样本加权的对比学习构建大规模语言和视觉嵌入模型

近年来,随着多模态学习的发展,构建能够同时处理视觉和语言任务的嵌入模型成为研究热点。然而,传统基于对比损失的方法在处理硬负样本时往往表现不佳,导致模型在复杂检索任务中效果受限。近期,一项研究提出了一种...

Read More
2025-03-12 talkingdev

Hugging Face推出LeRobot平台扩展,发布最大开源多模态汽车AI数据集

Hugging Face与Yaak合作推出了L2D数据集,这是目前最大的开源多模态数据集,专为汽车人工智能(AI)领域设计。该数据集包含了从驾驶学校收集的专家和学生驾驶策略,并通过自然语言指令增强了空间智能模型的能力。这...

Read More
2025-03-12 talkingdev

Reka发布全新推理模型Flash 3,性能媲美专有模型

Reka公司近日开源了其最新推出的Reka Flash 3模型,这是一款拥有210亿参数的多功能模型,专门针对推理、聊天、编码和指令遵循等任务进行了优化。该模型在性能上与专有模型不相上下,并配备了32k的上下文长度,使其非...

Read More
2025-03-12 talkingdev

OpenAI推出全新AI智能体构建工具包

OpenAI近日发布了一系列新工具,包括API和智能体SDK,旨在帮助开发者更轻松地构建AI智能体。该工具包集成了网络和文件搜索功能、计算机使用能力以及可观察性工具,显著简化了智能体的编排和任务自动化流程。这些新工...

Read More
2025-03-12 talkingdev

Perception Efficient Reconstruction:结合文本查询与3D图像重建的创新方法

近日,GitHub上发布了一项名为Perception Efficient Reconstruction的创新技术,该方法将文本查询能力与从图像中进行3D重建的技术相结合。该系统采用前馈模型(feed forward model),能够实现快速的三维重建。这一...

Read More
2025-03-12 talkingdev

MovieAgent:实现长视频一致性生成的新突破

近日,一项名为MovieAgent的创新技术引起了广泛关注。该系统通过结合多种生成模态,并采用基于角色的提示机制,显著提升了视频生成的一致性和准确性。MovieAgent利用Stable Diffusion视频模型生成并拼接帧,从而实现...

Read More
  1. Prev Page
  2. 35
  3. 36
  4. 37
  5. Next Page