苹果公司近日发布了两篇论文,介绍了新的三维头像和高效语言模型推断技术。这些技术的引入或将允许人工智能系统在iPhone和iPad上运行,极大提高智能设备的性能和用户体验。苹果的新技术为三维头像的生成提供了更为高...
Read More本文提供了一份长而广泛的调查,介绍了让大型语言模型运行更快的不同方法。列表不是完全穷尽的,但可以用作学习有趣主题的跳板。在可能的情况下,它包括相关论文和博客文章的链接。本文介绍了不同的方法来优化大型语...
Read More苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其...
Read MoreFacebook发布了一组工具、资源和示例,用于使用Llama模型系列。该工具集可帮助深度学习从业人员更高效地进行模型训练和应用。Llama模型系列由Facebook AI Research开发,已被广泛用于计算机视觉领域。这个工具集将包...
Read More最近,研究人员提出了一种名为CLIP-DINOiser的新方法,它将CLIP模型的零样本能力与自监督特征相结合,从而实现了更好的语义分割,无需标注。CLIP-DINOiser方法使用了自监督任务DINO来学习图像特征,并将其与CLIP模型...
Read MoreLlava是一个强大的多模型模型。该交互式设计现在允许聊天式交错文本、图像输入和图像输出。Llava是一个深度学习模型,能够对文本和图像数据进行联合建模,并产生准确的输出。与其他模型不同的是,Llava模型不仅考虑...
Read More近日,一项关于单张图像快速重建3D模型的新技术取得了突破。该技术基于高斯飞溅技术,通过学习性技术将图像中的每个像素映射到一个3D高斯函数中,从而实现单张图像的3D重建。这一技术的创新点在于引入了“飞溅图像”,...
Read MoreMidjourney V6已经发布alpha版。这个更新大大提高了图像质量,并使模型能够在图像中生成可读的文字。它还配备了全新的提示方式,更加敏感,更能理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习提...
Read More