漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-08 talkingdev

BenchLLM开源,测试大型多模态模型的基准

这个项目介绍了BenchLMM,一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

Read More
2023-12-08 talkingdev

Google Gemini:原生多模态模型,文本能力达到GPT4水平

Google的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

Read More
2023-12-07 talkingdev

RGB-D视频中显著对象检测得到提升

这个GitHub仓库公布了两个重要贡献:RDVS数据集,包含丰富多样的RGB-D视频场景,以及DCTNet+,一种专门用于RGB-D视频对象检测的网络,配备了创新功能,以精确预测和改进现有模型的性能。

Read More
2023-12-07 talkingdev

使用扩散模型从单一视角生成3D图像

Zero123++是一个使用扩散原理从单个输入图像生成一致的多视图图像的模型。通过利用预训练的2D模型,Zero123++解决了纹理质量和对齐问题等挑战。

Read More
2023-12-07 talkingdev

DiffiT:基于扩散的视觉转换器生成高分辨率图像

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的...

Read More
2023-12-07 talkingdev

自学习语言模型实现领域自适应

在需要专业知识的领域中使用语言模型时,可以进行微调或使用某些检索技术。但两者都有缺点。这种新颖的方法使用自动生成的合成数据来更好地学习测试时的信息。它在标准适应基准测试中显示出比微调和RAG更好的表现。

Read More
2023-12-07 talkingdev

深入探讨:指令调优的最新进展

指令调优的引入大大提高了语言模型的实用性。近来,出现了许多新的进展,例如合成数据管道,使这一过程变得更好、更高效。

Read More
2023-12-06 talkingdev

AI与信任

这次演讲的发言人强调了人际和社会信任之间的区别,并警告说,我们倾向于将AI anthropomorphize为朋友而不是服务,这可能会被以利润为驱动的公司利用。他们呼吁政府通过透明度法律和针对AI背后的人类的监管来干预,...

Read More
  1. Prev Page
  2. 325
  3. 326
  4. 327
  5. Next Page