Anthropic公司开发的Beta工具使用API,在伯克利函数调用基准测试中,有50%的案例表现优于GPT-4 Turbo。这一测试主要评估AI工具在调用函数和解决问题方面的能力。Anthropic的Beta工具展现出了更高效的问题解决能力和...
Read MoreElon Musk旗下的xAI公司近日推出了Grok-1.5人工智能系统,该系统在数学和编程方面的处理能力得到了显著提升。与前一版本相比,Grok-1.5在性能上有大幅度提升,并在与业界领先的AI模型如GPT-4的竞争性基准测试中表现...
Read MoreOpenAI宣布推出GPT-4 Turbo,该模型融合了文本和图像处理功能,为开发者提供了一个全新的AI工具。GPT-4 Turbo的问世,意味着开发者可以通过单一模型来实现对文本和图像数据的综合处理,极大地提高了开发效率和创新潜...
Read More近期,科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具,成功从YouTube视频中转录音频,为训练其AI系统提供了新文本。该团队最终转录了超过一百...
Read More一款名为SWE-agent的开源软件代理在软件工程(SWE)基准测试中取得了12%的成功率,覆盖率达到100%。该代理利用GPT-4技术辅助编写软件并解决PRs(Pull Requests)。此代理的出现,不仅展示了人工智能在软件开发领域的潜...
Read More视觉语言模型(VLMs)在处理输入图像时,有时会遇到无法回答的问题。即便是最先进的VLMs,如GPT-4V,也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试,并探讨了一些可能的改进方向。研究者们通过...
Read More苹果公司的人工智能研究人员开发了一种新型系统ReALM,该系统通过考虑屏幕上的内容、对话中的实体以及背景信息,增强了Siri理解上下文的能力。在基准测试中,ReALM系统的性能超过了ChatGPT 4.0。这一突破性的技术进...
Read More在由大型模型系统组织运营的排行榜Chatbot Arena上,Anthropic公司的聊天机器人Claude 3 Opus首次超越了OpenAI的GPT-4。Chatbot Arena是一个开放模型的排行榜,它允许访问者对不同模型的输出进行评分,从而计算出综...
Read More