漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-06 talkingdev

Kiss3DGen革新3D生成技术:利用2D扩散模型高效创建3D对象

近日,Kiss3DGen技术引起了广泛关注,该技术通过重新利用2D扩散模型,实现了高效的3D对象生成。Kiss3DGen利用多视角图像和法线贴图,能够生成高质量的3D网格和纹理。这一创新不仅简化了3D生成流程,还显著提升了生成...

Read More
2025-03-06 talkingdev

FlowDec:基于条件流匹配的高质量音频压缩技术

近日,GitHub上发布了一款名为FlowDec的高质量音频压缩工具。FlowDec是一款全频带音频编解码器,采用条件流匹配(conditional flow matching)和非对抗性训练(non-adversarial training)技术,能够实现48 kHz高保...

Read More
2025-03-06 talkingdev

基于Qwen的Spark Text To Speech模型:支持情感提示的强大语音克隆技术

近日,GitHub上发布了一款名为Spark Text To Speech的语音克隆模型,该模型基于Qwen架构,能够通过文本输入生成高质量的语音。值得注意的是,该模型支持情感提示功能,用户可以通过输入情感指令来调整生成语音的情感...

Read More
2025-03-06 talkingdev

ToLo推出全新两阶段无训练布局到图像生成框架

近日,ToLo推出了一种创新的两阶段、无需训练的布局到图像生成框架,专门针对高重叠布局设计。该框架通过两个独立的阶段实现图像生成:第一阶段利用预训练的模型生成初步图像,第二阶段则通过优化算法对图像进行精细...

Read More
2025-03-05 talkingdev

DiffRhythm:基于Latent Diffusion的端到端全长度歌曲生成技术

近日,一项名为DiffRhythm的技术引起了广泛关注。该技术利用Latent Diffusion模型实现了端到端的全长度歌曲生成,尽管其生成效果尚未达到顶尖闭源模型的水平,但其速度和简洁性令人印象深刻。DiffRhythm的核心优势在...

Read More
2025-03-04 talkingdev

Stability AI与Arm合作推出智能手机端实时生成音频技术

Stability AI与Arm近日宣布合作,成功将实时生成音频技术引入智能手机。通过结合Stable Audio Open和Arm KleidiAI库,双方在移动设备上实现了音频生成速度的30倍提升。这一突破性进展不仅展示了生成式AI在音频领域的...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
2025-02-26 talkingdev

Google Cloud推出首款Blackwell AI GPU驱动的A4X实例

Google Cloud近日发布了由Nvidia GB200 NVL72系统驱动的A4X虚拟机实例,该实例配备了72个B200 GPU和36个Grace CPU,专为大规模AI和高并发应用设计。A4X实例的训练效率是前代A3实例的四倍,并且与Google Cloud服务无...

Read More
  1. Prev Page
  2. 16
  3. 17
  4. 18
  5. Next Page