本文梳理了2024年以来最具影响力的AI模型,深入解析其技术特性与应用场景。OpenAI推出的GPT-4.5 Orion凭借其强大的世界知识建模能力成为通用AI领域的标杆;Google的Gemini 2.5 Pro则专注于代码生成与理解,为开发者...
Read More谷歌本周三推出了Gemini 2.0 Pro Experimental实验版,并在其推理模型Gemini 2.0 Flash Thinking上进行了更新,用户可以在Gemini应用中使用。Gemini 2.0 Pro Experimental将在谷歌的AI开发平台Vertex AI和Google AI...
Read More推理视频对象分割(ReasonVOS)是一项新的任务,它使用隐式文本查询生成分割掩码。这需要复杂的推理和世界知识。在这个工作中,我们提出一个新的任务:基于世界知识的视频对象分割。这项任务的主要挑战在于,它需要...
Read MoreLlava是一种视觉语言模型,最新版本为1.6,经过改进后,其OCR、推理和世界知识等方面有了很大提升,甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型,以便更多人能够使用。
Read More研究人员设计了一种新方法,使用虚拟模拟器为语言模型提供“具身体验”,以培养其对真实世界的理解和规划能力。这种新方法显著提高了模型的能力,使得小型模型的表现与 ChatGPT 等大型模型相当甚至更好。 ## 三个核心...
Read More