SpeechAgents是一个多模态人工智能系统,能够以惊人的真实度模拟人类的交流。这个系统由多模态LLM支持,可以处理多达25个代理人。它可以通过模仿人类对话,包括连贯的内容、真实的节奏和表达丰富的情感,来创造戏剧...
Read MoreLLaVA-Phi是一款创新的多模态助手,它使用Phi-2语言模型。尽管参数只有2.7B,但LLaVA-Phi在多模态对话中表现出色,结合了文本和视觉。该助手可以在多个领域内使用,例如智能家居和自动驾驶等。
Read More本项目介绍了对Google的Gemini进行深入分析的研究,Gemini是一种多模态大型语言模型,评估其在各种任务中的常识推理性能。该研究与其他模型进行了比较,揭示了其在跨模态知识整合方面的竞争能力。
Read More苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其...
Read MoreM3DBench是一个全新的广泛数据集,旨在改变AI的3D理解,填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对,集成了文本、图像和3D对象,为AI执行更广泛的现实3D任务铺平了道路。
Read MoreNous Research (Hugging Face Hub)发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型,该模型拥有30亿参数,可以在手机等边缘设备上运行。
Read More一种名为OneLLM的新型AI模型正在掀起波澜,它使用一种独特的方法将所有这些模态与语言对齐,理解包括图像、音频甚至脑活动在内的八种不同类型的数据。OneLLM的这种多模态理解方法可能会推动AI在语义理解方面的进一步...
Read More