GPT-4的相关内容 - 漫话开发者

2024-02-09 talkingdev

论文：挑战多模态语言模型的新基准测试

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

2024-02-02 talkingdev

Weaver是一系列专门用于讲述故事的模型。最大的模型（34B参数）在故事讲述基准测试中表现优于GPT-4。

2024-02-02 talkingdev

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能，并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的，这...

2024-02-01 talkingdev

本周，Mistral公司的CEO确认了Mistral的一个量化版本文件在HuggingFace上泄露，该技术使得在较弱的电脑和芯片上运行某些AI模型成为可能。据报道，该模型在EQ-Bench上超过了全球所有其他LLM模型，仅次于GPT-4。Mistra...

2024-01-31 talkingdev

Meta的新模型已经在大量代码上进行了精调和指令调整。它们在HumanEval测试中表现出色，在某些方面接近于GPT-4。这些模型可在Meta许可下和HuggingFace上使用。

2024-01-24 talkingdev

本项目探讨了自我奖励语言模型，其中模型充当自己的评判者以改善训练。通过使用这种方法，研究人员能够提高模型的性能，超越像GPT-4这样的其他系统。

2024-01-23 talkingdev

虽然GPT-4在许多任务上表现得熟练，但也存在一些奇怪的不足之处。例如，它可以说所有语言，但几乎无法做数学。随着人工智能变得更加有能力，该技术将对世界产生越来越大的影响。本文列出了人工智能可能影响世界的几...

2024-01-21 talkingdev

AlphaCodium推出了一种新颖的方法来增强LLMs的代码生成能力。这种多阶段、基于测试的迭代过程显著提高了像GPT-4这样的模型在解决复杂编程问题时的准确性，如在CodeContests数据集上所展示的。