V*是一种新的基于图像的搜索算法,可以显著提高GPT-V(和其他VLM)验证码识别性能。这项技术的开发者表示,V*可以通过大量的图像数据来训练模型,从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...
Read MoreFacebook发布了一组工具、资源和示例,用于使用Llama模型系列。该工具集可帮助深度学习从业人员更高效地进行模型训练和应用。Llama模型系列由Facebook AI Research开发,已被广泛用于计算机视觉领域。这个工具集将包...
Read More据悉,人工智能初创公司Anthropic计划进行一轮7.5亿美元的融资,该轮融资由Menlo Ventures领投,估值预计为150亿美元。Anthropic是一家致力于开发人工智能技术的公司,其技术可应用于语音识别、自然语言处理、计算机...
Read More领先的创始人和风投投资者谈论人工智能的发展现状,从LLMs的应用到企业创新。如果“你应该了解的关于人工智能的事情”节奏有点令人不知所措,那么这是一个不错的快速回顾。人工智能正在成为越来越多行业的关键技术之一...
Read More现代大多数扩散模型都使用了注意力机制,但并非所有模型都如此。最近,对状态空间的兴趣浪潮已经传到了扩散模型中,这为理论加速和有趣的应用开辟了道路。扩散模型是一种机器学习模型,用于对自然界中的信号进行建模...
Read More科学家们开发出一种新方法,使用生成扩散技术创建代理数据集,这种数据集具有更好的代表性和更多样化,同时需要的计算资源更少。这种方法可以通过在代理数据集中训练神经网络来提高模型的性能。这种方法可以降低计算...
Read More该团队创建了一个新的面向视觉的RISC-V硬件,并训练了一个超小的YOLO计算机视觉模型,实现了低功耗和极低延迟的实时物体检测。该技术可广泛应用于智能眼镜、自动驾驶、智能家居等领域。
Read MoreOpenAI正在开发GPT-5,并寻求微软公司的额外资金支持。OpenAI是由伊隆·马斯克和其他硅谷执行人员创立的非营利组织,旨在推动开放式AI研究。该组织计划在未来几年内推出更多的AI技术,包括在自然语言处理、计算机视觉...
Read MoreRoboflow是一个计算机视觉工具包,通过可组合的代码片段使应用程序开发更加容易。现在,随着GPT-4 Vision进入OpenAI API,Roboflow团队已经制作了一些演示,展示如何与segment anything和DINO一起使用它。
Read MoreCogVLM-17B是一个开放式的视觉语言模型,具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色,并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型,将为计算机视觉和自然语言处理领域的发...
Read More