漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-11 talkingdev

论文:个性化文本到图像模型的新进展

研究人员引入了一个新的强化学习框架,以提高个性化文本到图像的生成效果。这种新的强化学习框架,是目前研究人员在个性化文本到图像模型领域的重要突破。这项技术的应用不仅可以大幅提高图像生成的质量,更可以实现...

Read More
2024-07-09 talkingdev

超分辨率技术AnySR开源,支持任意尺度,任意资源

GitHub最近发布了一种名为AnySR的全新单图像超分辨率(SISR)技术,这种技术改善了效率和可扩展性。与传统方法不同,AnySR支持'任意尺度,任意资源'的实现,无需额外参数即可减少较小尺度的资源需求。这种技术的灵活...

Read More
2024-07-05 talkingdev

Magic Insert-谷歌开源图像语义对象插入技术

谷歌近日推出了一种名为'Magic Insert'的新方法,该方法可以通过扩散方式将语义对象插入到图像中。这种新技术打破了传统的图像处理方式,能够将语义对象与图像进行深度融合,从而产生更为逼真的视觉效果。谷歌同时也...

Read More
2024-07-04 talkingdev

论文:从模糊图像中重建3D场景,一项革新性技术的研发

研究人员已经研发出一种使用神经辐射场(NeRF)和事件流从单一模糊图像中重建3D场景的方法。这种创新性的方法模拟相机运动并合成亮度变化,从而可以从模糊的输入中生成高质量、视图一致的图像,而无需预计算相机姿势...

Read More
2024-07-03 talkingdev

instantstyle+:运用现代扩散模型和内容嵌入器进行风格转换

即时风格+是一种新兴的技术,它使用现代扩散模型和内容嵌入器进行风格转换。扩散模型是一种强大的机器学习工具,能够生成高质量的图像。内容嵌入器则是一种特殊的算法,能够从图像中提取出有意义的特征。结合这两种...

Read More
2024-07-02 talkingdev

UnSAM-无监督SAM自动图像分割技术开源

无监督SAM(UnSAM)是一种新型的全图像分割模型,它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法,识别视觉场景中的层次结构,采用一种分而治之的方法。在复杂的视觉场景中,这种方法可以更...

Read More
2024-06-28 talkingdev

FAL公开源代码超级分辨率图像扩大器GigaGAN

FAL最近公开了超级分辨率图像扩大器AuraSR的源代码。这款工具只需一次前向传递,就可以实现4倍的扩大,甚至在多次应用后仍能保持良好的效果。AuraSR在处理生成的图像上表现出色。FAL公司此次公开源代码,无疑为图像...

Read More
2024-06-19 talkingdev

论文:图像的子对象标记化,革新视觉模型理解方式

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page