漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-09-16 talkingdev

开源|HuMo:文本、图像与音频驱动的统一人体视频生成框架

HuMo是一项突破性的人工智能技术,通过统一的多模态输入框架实现了人体视频生成的跨模态融合。该研究团队创新性地构建了大规模数据集并采用渐进式训练策略,成功解决了音频与视觉动作的时序同步难题。其技术核心在于...

Read More
2025-04-21 talkingdev

[论文推荐]自回归模型实现个性化图像合成:两阶段优化媲美扩散模型

最新研究通过两阶段优化策略,成功将自回归模型应用于个性化图像生成领域,其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架,第一阶段通过大规模数据集预训练构建基础模型,第二阶段采用针对性微...

Read More
2025-04-03 talkingdev

[开源]大规模医学推理数据集MedReason发布,推动可解释医疗AI研究

加州大学圣克鲁兹分校视觉、语言与行为实验室(VLAA)在GitHub开源了MedReason项目,这是一个专为提升大语言模型(LLM)医疗推理能力构建的大规模数据集。该数据集通过结构化临床案例、医学知识图谱和多模态数据,旨...

Read More
2025-03-26 talkingdev

SISO技术:单张图像驱动的迭代生成与编辑

SISO(Single Image Iterative Subject-driven Generation and Editing)是一种无需训练的推理时优化方法,能够从单张图像中个性化生成或编辑图像内容。该技术通过高效的优化算法,直接在推理阶段实现对图像主体的个...

Read More
2025-03-17 talkingdev

[论文推荐] DiLoCo跨数据中心训练算法的扩展定律

DeepMind近日发布了一篇详细介绍DiLoCo跨数据中心训练算法扩展定律的论文。DiLoCo是一种强大的训练算法,能够在全球范围内同步梯度,确保模型训练的稳定性。该算法通过在多个数据中心之间进行分布式训练,有效提升了...

Read More
2025-03-12 talkingdev

Fastplotlib:GPU加速的高性能交互式绘图库

Fastplotlib是一款基于GPU加速的高性能交互式绘图库,专为需要快速处理和可视化大规模数据集的用户设计。通过利用现代GPU的强大计算能力,Fastplotlib能够显著提升绘图速度,同时保持高度的交互性。该库支持多种绘图...

Read More
2025-03-11 talkingdev

Smalldiffusion:轻量级扩散模型训练与采样工具包发布

近日,GitHub上发布了一款名为Smalldiffusion的开源工具包,专为扩散模型的训练与采样设计。该工具包以轻量、高效和易读性为核心特点,旨在为研究人员和开发者提供一个简洁且高性能的解决方案。Smalldiffusion不仅优...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page