在3D场景中检测和命名新物体一直是一个艰巨的挑战。然而,最近一个名为CoDA的项目提出了一种新的解决方法。该方法通过智能猜测新物体可能出现的位置,然后将这些物体的特征与图片和文本进行匹配,所有这些操作都在一...
Read More近年来,Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件,并为该文件生成文本或标记。这与最近Meta为...
Read More最新的研究成果Transformer-VQ,是一种全新设计的Transformer,由于其独特的基于向量的键和缓存功能,使得处理注意力的速度得到了显著的提升。这种新型的Transformer设计,不仅提高了处理速度,同时也保持了数据的准...
Read More大型语言模型在许多设备上的运行效率受限于其庞大的计算需求。然而,一个名为QA-LoRA的新方法已经成功改变了这一局面。QA-LoRA通过巧妙地改变模型的构建和微调方式,使得大型语言模型能够在维持强大功能的同时,有效...
Read MoreDFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...
Read MoreMatting是一种创建黑白掩膜以分割出图像重要部分的过程。它通常用于前景和背景的分割。智能手机的人像模式使用了一种与这里描述的ViTMatte相似的方法。这种技术发展现代化,为未来的图像处理技术开创了新的可能。此...
Read More从单一的2D图像中确定3D深度是一项棘手的任务,因为许多3D场景在2D中看起来可能相同。这种方法将相机的细节与图片的内容进行了分离,使得在各种情况下更容易猜测深度。这种深度估计的灵活性可以在各种复杂环境下,如...
Read More像GPT-3这样的大型语言模型之所以聪明,是因为它们从大量数据中学习。那么,当新的信息与它们已经知道的信息冲突时,它们会如何反应呢?研究人员发现,这些模型可能会感到困惑,并给出错误的答案,尤其是当它们面临...
Read MoreWriter正在研发一款“全栈”生成型AI平台,专为企业服务。近日,该公司成功获得ICONIQ Growth领导的1亿美元B轮融资,该资金将用于推进其“行业特定”的文本生成AI模型的研发。在竞争激烈的市场中,Writer以非版权商业写...
Read More科研人员已经开发出一种新的模型,名为HAMUR,以改进模型在多个主题或领域(如音乐、书籍或电影)中的推荐方式。与旧的方法混淆这些领域之间的信息不同,HAMUR采用了一种特殊的技术,使数据保持独立且更具灵活性。这...
Read More