漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-23 talkingdev

智谱AI发布GLM-4.7:新一代开源编码模型刷新SOTA,推理与多模态能力全面升级

近日,智谱AI正式发布了其通用语言模型系列的最新力作——GLM-4.7。作为一款高端基础模型,GLM-4.7的核心定位在于处理复杂的推理任务、专业级代码生成以及多模态工作负载。相较于前代版本,此次更新在多个维度实现了显...

Read More
2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen...

Read More
2025-03-31 talkingdev

[开源]Awesome Vision-to-Music Generation:视觉转音乐生成技术全景图

GitHub热门项目Awesome Vision-to-Music Generation系统性地整理了视觉到音乐(V2M)生成领域的前沿进展,涵盖学术研究突破与工业级应用方案。该项目持续更新的资源库整合了三大核心要素:1)基于深度学习的跨模态生...

Read More
2025-02-26 talkingdev

LightningDiT:高效模块化扩散模型工具包助力生成式AI应用

近日,一款名为LightningDiT的高效模块化扩散模型工具包在GitHub上发布,旨在为生成式AI应用提供可扩展且多功能的解决方案。LightningDiT通过优化模型架构和训练流程,显著提升了生成式AI的性能和效率。该工具包支持...

Read More