漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-01-23 talkingdev

MTU-Bench:全新基准测试评估LLM工具使用能力

近日,MTU-Bench作为一种全新的基准测试工具正式发布,旨在评估大型语言模型(LLMs)在不同场景下的工具使用能力。该基准测试通过多样化的任务设计,全面衡量LLMs在实际应用中的表现,特别是在复杂任务中调用外部工...

Read More
2024-12-21 talkingdev

OpenAI O3模型在ARC-AGI-PUB测试中取得突破性高分

近日,人工智能研究实验室OpenAI宣布其最新一代的大型语言模型(LLM)O3在人工智能综合基准测试ARC-AGI-PUB中取得了显著成绩。这一测试旨在评估模型在理解和生成复杂语言任务中的能力,是衡量人工智能进步的关键指标...

Read More
2024-09-17 talkingdev

思维链助力变换器解决序列性问题

随着人工智能领域的不断发展,变换器(Transformers)模型在处理序列性问题方面表现出色。近期的研究表明,思维链(Chain of Thought)技术能够进一步提升变换器的效率,尤其在解决需要多步骤推理的任务时。这一方法...

Read More
2024-07-17 talkingdev

Redis公布向量数据库基准测试结果

Redis最近公布了一项新的研究,该研究使用行业标准的Qdrant框架,对顶级的向量数据库进行了延迟和吞吐量的比较。关键发现包括Redis在低复杂度数据集上比竞品优越62%,在高维数据集上优越21%,在每秒查询次数和延迟方...

Read More
2024-07-02 talkingdev

Anthropic推出快速新型AI模型Claude 3.5 Sonnet,性能超越GPT-4o和Gemini

Anthropic最近推出了Claude 3.5 Sonnet,其在多项基准测试中的性能超过了GPT-4o和Gemini,同时增加了速度和扩展了功能。此次更新还引入了Artifacts功能,增强了用户与AI输出的交互。Claude旨在从一个聊天机器人转变...

Read More
2024-06-28 talkingdev

论文:材料科学领域的语言模型

MatText是一套专为评估材料科学中语言模型性能的基准测试工具和数据集。这套工具和数据集的设计目标,是使研究者能够更有效地理解和评估语言模型在材料科学应用中的表现。语言模型在材料科学中的应用,可以帮助科学...

Read More
2024-06-28 talkingdev

论文:ALPBench-积极学习管道的基准工具

ALPBench是一个专门设计用来对积极学习查询策略进行标准化基准测试的工具。积极学习是一种机器学习技术,其目标是通过选择最有用的数据进行训练,从而提高学习效率。然而,确定哪些数据最有用却是一项具有挑战性的任...

Read More
2024-06-28 talkingdev

苹果、微软缩小AI模型以提升性能

科技巨头们正在将注意力从大型语言模型转移到更有效的小型语言模型(SLMs),苹果和微软引入的模型具有明显较少的参数,但在基准测试中的性能却相当甚至超越了大型语言模型。OpenAI的CEO建议,我们正在超越LLMs的时...

Read More
  1. Prev Page
  2. 19
  3. 20
  4. 21
  5. Next Page