漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-18 talkingdev

GPT-4-Turbo与Claude Opus大比拼:开发者更偏爱后者

在Hacker News上的一个讨论串中,开发者们对比了ChatGPT Plus的默认模型GPT-4-Turbo和Anthropic公司的竞争对手模型Claude Opus。大多数开发者倾向于选择Claude Opus,因为它在编程和工程任务上表现得更好。此外,Cla...

Read More
2024-03-14 talkingdev

顶尖人工智能仍未通过智商测试

最近的测试显示,像ChatGPT-4和谷歌的“Gemini Advanced”这样的先进AI模型在视觉智商测试中表现不佳,得分低于可测量的智商阈值。虽然ChatGPT-4表现出较强的模式识别能力,但它会出现视觉误认和逻辑错误,表明与人类...

Read More
2024-03-13 talkingdev

诗歌的未来:AI还是人类?

在一次诗歌写作比赛中,38位人工智能专家和39位英语专家被要求评估和猜测哪些诗歌是由人类还是AI写成的。结果显示,人类获得了第一名,Bard、ChatGPT-4和Claude分别获得第二、第三、第四名,无论是在写作质量上还是...

Read More
2024-03-13 talkingdev

Cognition发布AI软件工程师Devin

Cognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。

Read More
2024-03-11 talkingdev

突破GPT-4,四款新语言模型亮相

来自不同厂商的四款新模型正在挑战GPT-4长期以来的顶尖大型语言模型的地位,展示了能力和应用方面的不断进步,但它们都没有公开许可证或透明地公开其训练数据。

Read More
2024-03-08 talkingdev

Inflection新模型,个人助手Pi性能大幅提升

Inflection近日推出了一款新模型,为其个人助手Pi提供支持。该模型表现与GPT-4相当,在基准测试中具备出色的推理能力,达到了94%的成绩。Inflection声称,相对于GPT-4,该模型训练所需的计算资源仅占40%。有意思的是...

Read More
2024-03-07 talkingdev

Claude 3:最像人类的AI模型

Anthropic发布的Claude 3是一个大型语言模型,可与GPT-4相媲美,它不仅在基准测试中表现出色,而且在交互质量上独具人类特色,具有创造性和自然性,使其成为AI与作家创意合作能力的重大进展。

Read More
2024-03-05 talkingdev

GPT-4只能成功完成14%的Agent任务

社区对代理在处理各种数字工作负载方面的潜力非常兴奋。然而,即使是最好的通用模型也难以完成人类70%以上成功的任务。显然,我们可能需要专门针对这些任务进行训练的模型。

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page