漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-11 talkingdev

Smalldiffusion:轻量级扩散模型训练与采样工具包发布

近日,GitHub上发布了一款名为Smalldiffusion的开源工具包,专为扩散模型的训练与采样设计。该工具包以轻量、高效和易读性为核心特点,旨在为研究人员和开发者提供一个简洁且高性能的解决方案。Smalldiffusion不仅优...

Read More
2025-03-06 talkingdev

FlowDec:基于条件流匹配的高质量音频压缩技术

近日,GitHub上发布了一款名为FlowDec的高质量音频压缩工具。FlowDec是一款全频带音频编解码器,采用条件流匹配(conditional flow matching)和非对抗性训练(non-adversarial training)技术,能够实现48 kHz高保...

Read More
2025-03-04 talkingdev

Stability AI与Arm合作推出智能手机端实时生成音频技术

Stability AI与Arm近日宣布合作,成功将实时生成音频技术引入智能手机。通过结合Stable Audio Open和Arm KleidiAI库,双方在移动设备上实现了音频生成速度的30倍提升。这一突破性进展不仅展示了生成式AI在音频领域的...

Read More
2025-02-27 talkingdev

微软发布全新Phi模型,专为多模态处理优化

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal,这两款模型在硬件效率和多模态处理方面表现出色。其中,Phi-4-mini拥有38亿参数,专注于文本任务;而Phi-4-multimodal则具备56亿参数,能够处理...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
2025-02-26 talkingdev

Ggwave:微型数据声波传输库的创新突破

Ggwave是一款创新的微型数据声波传输库,旨在通过声波实现设备间的数据传输。该技术利用声波作为载体,能够在无需网络连接的情况下,实现短距离的数据传输。Ggwave的设计轻巧高效,适用于多种场景,如物联网设备、智...

Read More
2025-02-23 talkingdev

FFmpeg推出汇编语言课程,助力开发者深入优化多媒体处理

近日,FFmpeg宣布推出全新的汇编语言课程,旨在帮助开发者更深入地理解多媒体处理的核心技术。该课程将重点讲解如何利用汇编语言优化FFmpeg的性能,特别是在视频编解码、音频处理等领域的应用。通过本课程,开发者将...

Read More
2025-02-14 talkingdev

Adobe推出Firefly Video Model,革新视频与音频生成技术

Adobe近日发布了其最新的Firefly Video Model,这是一款专为视频和音频创作设计的生成式AI工具。该模型不仅提供了IP友好的解决方案,还确保了商业使用的安全性,使得创作者能够在保护知识产权的同时,高效地生成高质...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page