本报告评估了GPT-4V在自主驾驶中的应用,重点关注其在场景理解、决策制定和实时响应方面的能力。GPT-4V是一种基于视觉语言模型的人工智能技术,能够自动识别和理解图像中的物体、道路、标志和其他要素,并作出相应的...
Read More在深度学习领域中,视觉语言模型(VLM)越来越受到重视。由于Embedding as a Service Vision-Language Pre-Trained Models(VLPM)中的预训练模型包含了大量的视觉和语言信息,因此这种模型很容易成为恶意攻击的目标...
Read MoreLLaVa模型是一个开源模型,结合了语言和视觉。这个新版本允许使用图像编辑、生成等工具来进行指导,调整模型。LLaVa Plus模型提供了更高的精度和更好的性能。
Read More近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...
Read MoreFigma将AI辅助功能引入FigJam,其数字白板工具,以简化和增强设计协作。像源自于AI项目Jambot的实用性增强功能,可帮助用户在虚拟画布上更有效地协作。Figma的目标是通过利用机器学习能力来扩大对各种用户需求的适用...
Read MoreMLPerf是一个标准的机器学习性能基准测试,可以准确显示平台和模型在实际环境中的表现。最新的MLPerf Training v3.1展示了H100在绝对性能方面的惊人表现,但在比较每花费一美元的时间性能时,Intel仍然占据着优势。
Read More自动驾驶汽车的地标匹配是一项重要的技术,其能力直接关系到自动驾驶汽车的定位和导航精度。近日,研究人员提出了一种名为RobustMat的新方法,通过使用空间信息和神经微分方程,改进了自动驾驶汽车在不同条件下匹配...
Read More英国AI公司Luminance开发了一款自主谈判合同的AI系统,旨在通过处理例行谈判来简化律师的工作量。这是人工智能首次成功地代表人类完成了合同谈判。该系统利用机器学习和自然语言处理技术,能够快速分析合同条款并提...
Read More