漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-01 talkingdev

[论文推荐] FGFP框架:基于分数阶高斯滤波与剪枝的深度神经网络压缩技术

随着深度神经网络(DNNs)在边缘设备上的应用日益广泛,网络压缩技术的重要性愈发凸显。针对现有方法在边缘设备部署上的挑战,研究者提出了一种创新的分数阶高斯滤波与剪枝(FGFP)框架。该框架将分数阶微分计算与高...

Read More
2025-06-25 talkingdev

PS3技术突破:实现4K分辨率视觉预训练,VILA-HD模型基础奠定

NVIDIA实验室最新发布的PS3技术,通过选择性编码(selective encoding)实现了高达4K分辨率的视觉预训练,为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力,解决了传统方法在...

Read More
2025-05-07 talkingdev

DDT开源:解耦扩散Transformer

近日,GitHub上开源了一个名为DDT(Decoupled Diffusion Transformer)的项目,该项目实现了一种结合Transformer和扩散模型的新型架构。该架构采用Encoder-Decoder设计,其中Decoder部分由扩散模型构成。初步实验表...

Read More
2025-04-18 talkingdev

REPA-E实现VAE与潜在扩散模型的端到端联合训练

近日,一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数,首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

Read More
2025-04-04 talkingdev

[开源]Large Small Net (LSNet):受人类视觉系统启发的轻量级视觉模型新突破

清华大学智能图形学与几何计算实验室(THU-MIG)在GitHub上开源了名为Large Small Net(LSNet)的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力("See Large, Focus Small"机制)...

Read More
2025-03-04 talkingdev

LightningDiT:通过潜在空间对齐提升扩散模型性能

近日,GitHub上的开源项目LightningDiT引起了广泛关注。该项目通过将潜在空间与视觉模型对齐,成功解决了扩散模型中的一些关键挑战。LightningDiT不仅在ImageNet-256数据集上取得了最先进的成果,还显著加快了训练速...

Read More
2025-03-04 talkingdev

ImageNet在文本到图像生成中的潜力探索

大多数文本到图像生成模型依赖于从网络上抓取的大量自定义数据。然而,一项最新研究探讨了仅使用ImageNet数据集训练图像生成模型的可能性。研究发现,通过合成生成的密集标注(dense captions)能够显著提升模型性能...

Read More
2025-02-21 talkingdev

Model-Guidance技术提升扩散模型训练效率,ImageNet 256基准测试表现卓越

近日,一项名为Model-Guidance(MG)的技术在扩散模型训练领域取得了突破性进展。该技术通过引入后验概率优化目标,显著提升了扩散模型的训练速度和推理效率。实验结果显示,采用MG技术的扩散模型在ImageNet 256基准...

Read More
  1. Next Page