视觉启用的语言模型(VLMs)如GPT-4o和Gemini,能够赋予自主代理人完成诸如进行购物或编辑代码等任务的能力。然而,这项工作也突出了这些代理人易受到恶意攻击的脆弱性。在现实世界中,我们必须对这些具有视觉理解能...
Read MoreCIFAR-10是一项图像分类基准测试。这段代码提供了一个训练配置,能在惊人的短时间内实现良好的性能。CIFAR-10数据集是机器学习领域常用的图像分类数据集,包含了10个类别的60000张32x32彩色图像,其中50000张用于训...
Read MoreWebCanvas是一个全新的框架,专门用于在动态的、实时的网络环境中评估自主Web代理Agent。该框架的出现,将为Web代理Agent的开发和应用带来革新。WebCanvas以其高度灵活和动态的特性,为Web代理提供了一个广阔的应用...
Read More最近,一种名为ChangeViT的框架引起了科技界的广泛关注。该框架采用视觉变压器(ViTs)进行遥感图像中大规模环境变化的检测。遥感技术作为一种非接触式获取地球表面信息的手段,在环境监测、气候变化研究等领域有着重...
Read MoreCharacter AI是一家知名的人工智能公司,其每秒可处理20,000次查询,这一数据相当于Google搜索量的20%。为了能够高效运行,Character AI团队进行了一系列的创新性改进。这些改进不仅提高了系统的运行效率,还提升了...
Read MoreLayerMerge是一种新的方法,通过联合裁剪卷积层和激活函数来提高神经网络的效率。在神经网络中,卷积层和激活函数是最基本的两个组成部分,它们的有效组合和优化对于提升网络性能和效率至关重要。LayerMerge通过在网...
Read More苹果公司最近向Hugging Face开源AI仓库贡献了20个Core Machine Learning模型,以此来提升公有模型在图像分类和深度分割方面的性能。此举紧随苹果发布Ferret大型语言模型和四个OpenELMs到Hugging Face的步伐。这一举...
Read MoreAnthropic最近推出了一款名为Claude 3.5 Sonnet的新型视觉模型。Claude 3.5 Sonnet在性能上超越了Opus,而且成本只有Opus的五分之一。这款模型目前是市场上最优秀的视觉模型,颠覆了前沿模型的性能标准。Claude 3.5...
Read More