漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-18 talkingdev

Claude 3 Haiku:速度最快、成本最低的AI模型

Anthropic公司最新推出的Claude 3 Haiku AI模型,以其卓越的速度和经济性成为目前市场上最快的AI模型。该模型具备先进的视觉能力,并在各项基准测试中表现突出。Claude 3 Haiku专为企业设计,注重速度和可负担性,为...

Read More
2024-03-18 talkingdev

OpenAI意外泄露下一代ChatGPT升级版GPT-4.5 Turbo?

近日,OpenAI疑似意外发布了一篇博客文章,该文章被Bing和DuckDuckGo索引后迅速被撤下。文章似乎是关于GPT-4.5 Turbo的公告,这是一个新的模型,其速度、准确性和可扩展性均超越了GPT-4 Turbo。缓存的描述中提到了20...

Read More
2024-03-18 talkingdev

xAI公开发布Grok-1模型权重与架构

人工智能领域的领先企业xAI近日宣布,已将其拥有3140亿参数的Mixture-of-Experts模型——Grok-1的权重和架构公开。Grok-1采用JAX编写,并融入了现代Transformer架构,包括GeGLU、ROPE、三明治范数等先进技术。此次公开...

Read More
2024-03-18 talkingdev

GPT-4-Turbo与Claude Opus大比拼:开发者更偏爱后者

在Hacker News上的一个讨论串中,开发者们对比了ChatGPT Plus的默认模型GPT-4-Turbo和Anthropic公司的竞争对手模型Claude Opus。大多数开发者倾向于选择Claude Opus,因为它在编程和工程任务上表现得更好。此外,Cla...

Read More
2024-03-15 talkingdev

Anthropic的Claude 3是迄今最具人性化的AI

Anthropic的新AI模型Claude 3因其“温暖”而脱颖而出,使其成为创意写作任务的强大伙伴。Claude 3被描述为更具人类感觉和自然主义,从好的思想到令人愉悦的深思熟虑。尽管技术基准没有完全捕捉到这种细微差别,但Claud...

Read More
2024-03-15 talkingdev

ViT-CoMer:新神经网络模型增强Vision Transformers的密集预测任务能力

近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

Read More
2024-03-15 talkingdev

LiveCodeBench:对大型编程语言模型进行全面无污染的评估

评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而,一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法,同时减轻污染问题。

Read More
2024-03-15 talkingdev

Branch-Train-MiX:将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型

Read More
  1. Prev Page
  2. 260
  3. 261
  4. 262
  5. Next Page