谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破,这是该公司首次采用扩散模型(Diffusion Model)完全替代传统的Transformer架构。技术文档显示,该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...
Read MoreOpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...
Read MoreMeta旗下FAIR(基础人工智能研究)团队近日宣布推出多项重要开源成果,涵盖三大前沿领域:1) 分子属性预测数据集与模型,将加速药物发现与材料科学研发流程;2) 扩散模型(Diffusion Models)相关资源,为当前最热门...
Read More近日,GitHub上开源了一个名为DDT(Decoupled Diffusion Transformer)的项目,该项目实现了一种结合Transformer和扩散模型的新型架构。该架构采用Encoder-Decoder设计,其中Decoder部分由扩散模型构成。初步实验表...
Read More近日,一项名为'Attention Distillation for Diffusion-Based Image Stylization'的技术在图像生成领域取得重要进展。该技术通过利用预训练扩散模型中的自注意力特征,创新性地引入了注意力蒸馏损失函数,有效优化了...
Read More近日,一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数,首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...
Read MoreStability AI与AMD近日宣布,双方已成功针对Radeon显卡及Ryzen AI处理器优化了多款Stable Diffusion模型。这一技术突破显著提升了AMD硬件平台在生成式AI工作负载下的运行效率,实测显示推理速度最高可提升40%。该优...
Read More近日,arXiv平台发布了一项名为'Video Generation Faithfulness Benchmark'的研究,旨在系统评估视频生成模型对用户输入提示词(prompt)的忠实度。该研究不仅建立了首个针对视频生成忠实度的量化评估体系,还创新性...
Read More