研究人员近日推出了ReaLMistake基准测试工具,该工具专注于系统性地检测大型语言模型(LLM)响应中的错误。随着人工智能技术的发展,大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而,这些模型在生成文...
Read MoreQwen团队最新力作——一个具备32B参数的AI模型,现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现,同时其设计考虑到了内存的局限性,能够适配更为普遍的中等内存硬件系统。这意味着,即便是在资源有...
Read MoreCohere公司近日推出了Command R+,这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型(LLM)。Command R+具备先进的检索增强生成功能,并支持引用,同时覆盖10种关键语言的多语言处理能力,以及工具使...
Read MoreAMD 宣布将开源其 Radeon GPU 的固件,这一决定意味着技术社区将能够快速改进人工智能框架,同时也可能提高 AMD 产品的市场接受度。开源固件将使得独立开发者和研究人员能够更深入地了解和修改 GPU 底层功能,从而推...
Read More近日,Groq公司的首席执行官宣布了一个重大战略转变,Groq将不再从事硬件销售业务,转而专注于提供AI云服务。这家曾以高性能硬件著称的科技公司,现在将精力集中在云计算和人工智能领域,旨在为客户提供更加先进的数...
Read MoreHermeus公司致力于开发超音速飞机,其飞机装备的喷气发动机使其能够像传统飞机一样从跑道上起飞。该公司最近公布了一款飞行原型机Mk 1,这是一款无人驾驶、远程操控的飞机,将使Hermeus能够全面评估飞机的性能,并检...
Read MoreSpaceX即将进行第四次星际飞船/超级重型火箭发射,预计在未来一个月左右。此次发射的目标是让星际飞船的上级阶段能够经受住重返大气层时的高温环境,并控制其在海洋中实现受控坠落。SpaceX希望将超级重型助推器完整...
Read More研究人员发现,当涉及到复杂的任务时,使用更多的代理人可以显着提高LLMs的性能。这项研究的结果表明,LLMs的性能随着代理人数量的增加而线性扩展。这是因为更多的代理人可以提供更多的观察和决策,使LLMs更好地理解...
Read More现代变压器模型在处理数据时,每个数据单元都使用相同的预测计算量,但事实上,不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制,允许模型在生成过程中根据数据单元的难易程度提前退出,从而减少...
Read MoreLinear Attention Sequence Parallel(LASP)是一套新型策略,专为高效处理语言模型中的长序列而设计。该技术通过创新性地运用线性注意力机制,超越了传统方法,实现了对长序列数据的优化管理。LASP的核心优势在于其...
Read More