漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-11 talkingdev

Anthropic的Beta工具在伯克利函数调用基准测试中击败GPT-4 Turbo

Anthropic公司开发的Beta工具使用API,在伯克利函数调用基准测试中,有50%的案例表现优于GPT-4 Turbo。这一测试主要评估AI工具在调用函数和解决问题方面的能力。Anthropic的Beta工具展现出了更高效的问题解决能力和...

Read More
2024-04-05 talkingdev

OpenAI推出定制化模型训练服务 助力企业打造专属生成式AI模型

OpenAI最近宣布扩大其定制模型计划,通过辅助微调和定制训练模型,帮助企业客户开发适合特定使用场景的生成式AI模型。这一服务的推出,意味着企业可以根据自己的特定需求,获得更加个性化和高效的AI解决方案。生成式...

Read More
2024-04-04 talkingdev

UPD开源-AI能否识别无解问题

近日,GitHub上出现了一个名为Unsolvable Problem Detection (UPD)的项目,旨在探索视觉语言模型中的一个新测试,即人工智能是否能识别出某些问题是无解的。这项技术的核心在于训练AI模型,使其能够区分可解和不可解...

Read More
2024-04-03 talkingdev

微软正在开发Xbox AI聊天机器人

微软正在测试一款全新的AI驱动的Xbox聊天机器人,旨在自动化支持任务。该公司正在扩大测试范围,并将聊天机器人与Xbox的支持文档集成,以回答查询和处理游戏退款。这一举措有望提高客户服务效率,并为玩家提供更加便...

Read More
2024-04-01 talkingdev

EvoEval:全新代码基准测试套件,全面提升大型语言模型编程能力评估

EvoEval是一套全新的基准测试工具,专为评估大型语言模型(LLMs)的编码能力而设计。该测试套件采用了比以往更加严格的测试标准,以确保对LLMs编程能力的全面检测。EvoEval的发布意味着开发者和研究人员现在可以更准...

Read More
2024-03-19 talkingdev

新兴AI资源网站More Useful Things揭示AI生成提示的奇特效能

近期上线的伴随网站More Useful Things为公众提供了大量免费的人工智能与机器学习资源。该网站通过一系列实验展示了AI生成的提示,例如富有想象力的场景构造,在解决数学问题等任务中如何超越人工编写的提示。这些实...

Read More
2024-02-20 talkingdev

OpenMathInstruct-用LLMs提高数学技能

研究人员创建了OpenMathInstruct-1,这是一个用于训练开源大型语言模型数学的新数据集,可与闭源模型的性能相匹配。这一突破包含180万个问题解决对,为更加可访问和有竞争力的数学教学AI工具打开了大门。

Read More
2024-02-14 talkingdev

DeepMind与USC合作开发SELF-DISCOVER框架,LLM推理能力显著提升

DeepMind和南加州大学的研究人员开发出SELF-DISCOVER框架,该框架显著提高了LLM的推理能力,在类似GPT-4的模型任务中比传统方法提升了32%。这个两阶段的框架使得LLMs能够自主地形成和利用推理结构。这个进步代表了AI...

Read More
2023-12-15 talkingdev

Natrue:DeepMindAI在未解问题上超过了人类数学家

FunSearch是一种人工智能系统,可以与特别训练的大型语言模型进行交互,创建生成数学问题解决方案的计算机程序。该系统会检查这些解决方案是否优于已知的解决方案,如果不是,它会向LLM提供反馈,以便下一轮改进。它...

Read More
2023-10-03 talkingdev

AI、硬件与虚拟现实:开创性技术的最新发展

人工智能(AI)与硬件的结合,将推动虚拟现实(VR)和增强现实(AR)领域的开创性发展。以下是这些领域最新的新闻动态。AI是在计算机系统中模拟人类智能的过程,其中包括学习(获取和使用知识)、推理(找出与特定目...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page