阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...
Read More近日,知名开发者antirez在GitHub上开源了项目“flux2.c”,该项目实现了当前热门的Flux 2图像生成模型的纯C语言推理引擎。这一举措在技术社区引发了广泛关注,在Hacker News上获得了285点热度并积累了112条深度讨论。...
Read More近日,开源社区迎来一款名为GLM-Image的工业级离散自回归图像生成模型,其采用了一种创新的混合架构,将自回归模块与扩散解码器相结合,标志着生成式AI在图像合成领域的技术路线探索进入新阶段。该模型的核心优势在...
Read More据彭博社报道,中国短视频巨头快手科技的股价在过去一年中实现了惊人的88%涨幅,其核心驱动力来自于旗下AI视频生成模型“Kling”的巨大成功。该模型自推出以来,已迅速积累了超过6000万用户,成为公司向人工智能战略转...
Read More近日,一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于,能够仅依据单张参考图像和文本提示,生成与参考对象身份高度一致的高质量视频。其技术关键在于,整个训...
Read More近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...
Read More苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...
Read More人工智能研究领域迎来重大突破——Nano Banana Pro通过工具调用技术重新定义了信息图生成的边界。该模型能够主动抓取多源数据并进行智能合成,在保持原始数据准确性的基础上,通过算法优化生成具有视觉表现力的信息图...
Read More