Anthropic公司最新推出的Claude 3 Haiku AI模型,以其卓越的速度和经济性成为目前市场上最快的AI模型。该模型具备先进的视觉能力,并在各项基准测试中表现突出。Claude 3 Haiku专为企业设计,注重速度和可负担性,为...
Read More近日,OpenAI疑似意外发布了一篇博客文章,该文章被Bing和DuckDuckGo索引后迅速被撤下。文章似乎是关于GPT-4.5 Turbo的公告,这是一个新的模型,其速度、准确性和可扩展性均超越了GPT-4 Turbo。缓存的描述中提到了20...
Read More人工智能领域的领先企业xAI近日宣布,已将其拥有3140亿参数的Mixture-of-Experts模型——Grok-1的权重和架构公开。Grok-1采用JAX编写,并融入了现代Transformer架构,包括GeGLU、ROPE、三明治范数等先进技术。此次公开...
Read More在Hacker News上的一个讨论串中,开发者们对比了ChatGPT Plus的默认模型GPT-4-Turbo和Anthropic公司的竞争对手模型Claude Opus。大多数开发者倾向于选择Claude Opus,因为它在编程和工程任务上表现得更好。此外,Cla...
Read MoreAnthropic的新AI模型Claude 3因其“温暖”而脱颖而出,使其成为创意写作任务的强大伙伴。Claude 3被描述为更具人类感觉和自然主义,从好的思想到令人愉悦的深思熟虑。尽管技术基准没有完全捕捉到这种细微差别,但Claud...
Read More近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...
Read More评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而,一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法,同时减轻污染问题。
Read More这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型。
Read More