音频的相关内容 - 漫话开发者

2025-03-11 talkingdev

Smalldiffusion：轻量级扩散模型训练与采样工具包发布

近日，GitHub上发布了一款名为Smalldiffusion的开源工具包，专为扩散模型的训练与采样设计。该工具包以轻量、高效和易读性为核心特点，旨在为研究人员和开发者提供一个简洁且高性能的解决方案。Smalldiffusion不仅优...

2025-03-06 talkingdev

近日，GitHub上发布了一款名为FlowDec的高质量音频压缩工具。FlowDec是一款全频带音频编解码器，采用条件流匹配（conditional flow matching）和非对抗性训练（non-adversarial training）技术，能够实现48 kHz高保...

2025-03-04 talkingdev

Stability AI与Arm近日宣布合作，成功将实时生成音频技术引入智能手机。通过结合Stable Audio Open和Arm KleidiAI库，双方在移动设备上实现了音频生成速度的30倍提升。这一突破性进展不仅展示了生成式AI在音频领域的...

2025-02-27 talkingdev

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal，这两款模型在硬件效率和多模态处理方面表现出色。其中，Phi-4-mini拥有38亿参数，专注于文本任务；而Phi-4-multimodal则具备56亿参数，能够处理...

2025-02-27 talkingdev

ElevenLabs近日宣布推出其自主研发的转录模型Scribe，该模型支持99种语言，并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能，还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

2025-02-26 talkingdev

Ggwave是一款创新的微型数据声波传输库，旨在通过声波实现设备间的数据传输。该技术利用声波作为载体，能够在无需网络连接的情况下，实现短距离的数据传输。Ggwave的设计轻巧高效，适用于多种场景，如物联网设备、智...

2025-02-23 talkingdev

近日，FFmpeg宣布推出全新的汇编语言课程，旨在帮助开发者更深入地理解多媒体处理的核心技术。该课程将重点讲解如何利用汇编语言优化FFmpeg的性能，特别是在视频编解码、音频处理等领域的应用。通过本课程，开发者将...

2025-02-14 talkingdev

Adobe近日发布了其最新的Firefly Video Model，这是一款专为视频和音频创作设计的生成式AI工具。该模型不仅提供了IP友好的解决方案，还确保了商业使用的安全性，使得创作者能够在保护知识产权的同时，高效地生成高质...