Anthropic公司开发的Beta工具使用API,在伯克利函数调用基准测试中,有50%的案例表现优于GPT-4 Turbo。这一测试主要评估AI工具在调用函数和解决问题方面的能力。Anthropic的Beta工具展现出了更高效的问题解决能力和...
Read MoreOpenAI最近宣布扩大其定制模型计划,通过辅助微调和定制训练模型,帮助企业客户开发适合特定使用场景的生成式AI模型。这一服务的推出,意味着企业可以根据自己的特定需求,获得更加个性化和高效的AI解决方案。生成式...
Read More近日,GitHub上出现了一个名为Unsolvable Problem Detection (UPD)的项目,旨在探索视觉语言模型中的一个新测试,即人工智能是否能识别出某些问题是无解的。这项技术的核心在于训练AI模型,使其能够区分可解和不可解...
Read More微软正在测试一款全新的AI驱动的Xbox聊天机器人,旨在自动化支持任务。该公司正在扩大测试范围,并将聊天机器人与Xbox的支持文档集成,以回答查询和处理游戏退款。这一举措有望提高客户服务效率,并为玩家提供更加便...
Read MoreEvoEval是一套全新的基准测试工具,专为评估大型语言模型(LLMs)的编码能力而设计。该测试套件采用了比以往更加严格的测试标准,以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...
Read More近期上线的伴随网站More Useful Things为公众提供了大量免费的人工智能与机器学习资源。该网站通过一系列实验展示了AI生成的提示,例如富有想象力的场景构造,在解决数学问题等任务中如何超越人工编写的提示。这些实...
Read More研究人员创建了OpenMathInstruct-1,这是一个用于训练开源大型语言模型数学的新数据集,可与闭源模型的性能相匹配。这一突破包含180万个问题解决对,为更加可访问和有竞争力的数学教学AI工具打开了大门。
Read MoreDeepMind和南加州大学的研究人员开发出SELF-DISCOVER框架,该框架显著提高了LLM的推理能力,在类似GPT-4的模型任务中比传统方法提升了32%。这个两阶段的框架使得LLMs能够自主地形成和利用推理结构。这个进步代表了AI...
Read MoreFunSearch是一种人工智能系统,可以与特别训练的大型语言模型进行交互,创建生成数学问题解决方案的计算机程序。该系统会检查这些解决方案是否优于已知的解决方案,如果不是,它会向LLM提供反馈,以便下一轮改进。它...
Read More人工智能(AI)与硬件的结合,将推动虚拟现实(VR)和增强现实(AR)领域的开创性发展。以下是这些领域最新的新闻动态。AI是在计算机系统中模拟人类智能的过程,其中包括学习(获取和使用知识)、推理(找出与特定目...
Read More