基准测试的相关内容 - 漫话开发者

2024-03-05 talkingdev

AI领域再次掀起高潮，Anthropic公司的Claude 3声称具有“接近人类”能力

Anthropic的Claude 3似乎在一系列认知任务上树立了新的行业标准。该公司声称，在某些情况下，它接近于“人类水平”的能力。Claude 3有三个模型：Claude 3 Haiku，Claude 3 Sonnet（为Claude.ai聊天机器人提供动力）和C...

2024-02-27 talkingdev

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder，通过训练合成多轮数据集和使用人类反馈，能够在编程HumanEval基准测试中获得85%以上的准确率。

2024-02-23 talkingdev

Google已经发布了其Gemma 2B和7B参数模型的权重，可通过HuggingFace获得。这些模型是仅解码器的Transformer，训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色，并提供基础和指令调整版本。

2024-02-23 talkingdev

斯坦福大学语言建模团队发布了一项广泛使用的基准测试，名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本，名为HELM-Instruct。该测试是多维的、开放式的和绝对的。

2024-02-22 talkingdev

谷歌推出了一系列新的AI语言模型Gemma，这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行，有两个模型，一个有20亿个参数，另一个有70亿个参数。每个模型都有经过预训练...

2024-02-16 talkingdev

近期，一种新型的视频语言模型已经问世，可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型，能够在检索基准测试中表现极其准确，胜过商业化视频语言模型。

2024-02-14 talkingdev

AI初创公司Reka宣布推出了一个新的模型，该模型具备210亿个参数，完全从头开始训练。它是本地多模态的，胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是，考虑到该公司的创始人曾经工作的公司，它也匹配了G...

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...