ImageNet的相关内容 - 漫话开发者

2025-08-01 talkingdev

[论文推荐] FGFP框架：基于分数阶高斯滤波与剪枝的深度神经网络压缩技术

随着深度神经网络（DNNs）在边缘设备上的应用日益广泛，网络压缩技术的重要性愈发凸显。针对现有方法在边缘设备部署上的挑战，研究者提出了一种创新的分数阶高斯滤波与剪枝（FGFP）框架。该框架将分数阶微分计算与高...

2025-06-25 talkingdev

NVIDIA实验室最新发布的PS3技术，通过选择性编码（selective encoding）实现了高达4K分辨率的视觉预训练，为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力，解决了传统方法在...

2025-05-07 talkingdev

近日，GitHub上开源了一个名为DDT（Decoupled Diffusion Transformer）的项目，该项目实现了一种结合Transformer和扩散模型的新型架构。该架构采用Encoder-Decoder设计，其中Decoder部分由扩散模型构成。初步实验表...

2025-04-18 talkingdev

近日，一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数，首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

2025-04-04 talkingdev

清华大学智能图形学与几何计算实验室（THU-MIG）在GitHub上开源了名为Large Small Net（LSNet）的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力（"See Large, Focus Small"机制）...

2025-03-04 talkingdev

近日，GitHub上的开源项目LightningDiT引起了广泛关注。该项目通过将潜在空间与视觉模型对齐，成功解决了扩散模型中的一些关键挑战。LightningDiT不仅在ImageNet-256数据集上取得了最先进的成果，还显著加快了训练速...

2025-03-04 talkingdev

大多数文本到图像生成模型依赖于从网络上抓取的大量自定义数据。然而，一项最新研究探讨了仅使用ImageNet数据集训练图像生成模型的可能性。研究发现，通过合成生成的密集标注（dense captions）能够显著提升模型性能...

2025-02-21 talkingdev

近日，一项名为Model-Guidance（MG）的技术在扩散模型训练领域取得了突破性进展。该技术通过引入后验概率优化目标，显著提升了扩散模型的训练速度和推理效率。实验结果显示，采用MG技术的扩散模型在ImageNet 256基准...