在Hacker News上的一个讨论串中,开发者们对比了ChatGPT Plus的默认模型GPT-4-Turbo和Anthropic公司的竞争对手模型Claude Opus。大多数开发者倾向于选择Claude Opus,因为它在编程和工程任务上表现得更好。此外,Cla...
Read More最近的测试显示,像ChatGPT-4和谷歌的“Gemini Advanced”这样的先进AI模型在视觉智商测试中表现不佳,得分低于可测量的智商阈值。虽然ChatGPT-4表现出较强的模式识别能力,但它会出现视觉误认和逻辑错误,表明与人类...
Read More在一次诗歌写作比赛中,38位人工智能专家和39位英语专家被要求评估和猜测哪些诗歌是由人类还是AI写成的。结果显示,人类获得了第一名,Bard、ChatGPT-4和Claude分别获得第二、第三、第四名,无论是在写作质量上还是...
Read MoreCognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。
Read More来自不同厂商的四款新模型正在挑战GPT-4长期以来的顶尖大型语言模型的地位,展示了能力和应用方面的不断进步,但它们都没有公开许可证或透明地公开其训练数据。
Read MoreInflection近日推出了一款新模型,为其个人助手Pi提供支持。该模型表现与GPT-4相当,在基准测试中具备出色的推理能力,达到了94%的成绩。Inflection声称,相对于GPT-4,该模型训练所需的计算资源仅占40%。有意思的是...
Read MoreAnthropic发布的Claude 3是一个大型语言模型,可与GPT-4相媲美,它不仅在基准测试中表现出色,而且在交互质量上独具人类特色,具有创造性和自然性,使其成为AI与作家创意合作能力的重大进展。
Read More社区对代理在处理各种数字工作负载方面的潜力非常兴奋。然而,即使是最好的通用模型也难以完成人类70%以上成功的任务。显然,我们可能需要专门针对这些任务进行训练的模型。
Read More