Anthropic的Claude 3似乎在一系列认知任务上树立了新的行业标准。该公司声称,在某些情况下,它接近于“人类水平”的能力。Claude 3有三个模型:Claude 3 Haiku,Claude 3 Sonnet(为Claude.ai聊天机器人提供动力)和C...
Read MoreOpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。
Read MoreGoogle已经发布了其Gemma 2B和7B参数模型的权重,可通过HuggingFace获得。这些模型是仅解码器的Transformer,训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色,并提供基础和指令调整版本。
Read More斯坦福大学语言建模团队发布了一项广泛使用的基准测试,名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本,名为HELM-Instruct。该测试是多维的、开放式的和绝对的。
Read More谷歌推出了一系列新的AI语言模型Gemma,这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行,有两个模型,一个有20亿个参数,另一个有70亿个参数。每个模型都有经过预训练...
Read More近期,一种新型的视频语言模型已经问世,可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型,能够在检索基准测试中表现极其准确,胜过商业化视频语言模型。
Read MoreAI初创公司Reka宣布推出了一个新的模型,该模型具备210亿个参数,完全从头开始训练。它是本地多模态的,胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是,考虑到该公司的创始人曾经工作的公司,它也匹配了G...
Read More一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...
Read More