AIOS是一个创新型的操作系统,它通过将大型语言模型嵌入到操作系统中,作为系统的核心'大脑',从而赋予了操作系统全新的生命力。与传统操作系统相比,AIOS通过深度学习和自然语言处理技术,能够更加智能地理解用户需...
Read More近期,Andrei Karpathy推出了一个名为llm.c的项目,该项目展示了如何使用C和CUDA编程语言来训练大型语言模型(LLM)。这一创新方法避免了对PyTorch等大型深度学习框架的依赖,尤其是其所需的250MB以上的资源。这种训...
Read More大型语言模型(LLMs)在提升公司内部效率方面的作用不容小觑,但其如何使产品对客户更具价值则是一大挑战。本文深入探讨了如何将大型语言模型有意义地整合到现有产品中,包括对这一技术的思考、工作流程的改造、模型...
Read MoreMLPerf 近日更新了其推理基准测试,新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型,这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中,Nvidia 的系统,尤其是搭载了 H200 处理器的...
Read More近期在GitHub上发布的ReFT(Representation Fine-Tuning)项目,为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比,ReFT在保持强大性能的同时,大大降低了成本。该方法通过精细化调整模型参数,使得在进...
Read MoreMeta的研究团队近日推出了一款新型的优化器,并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率(LR)调度,训练过程中无需预先设定总步数。经过实证,该优化器在包括语言模型在内...
Read More研究人员近日推出了ReaLMistake基准测试工具,该工具专注于系统性地检测大型语言模型(LLM)响应中的错误。随着人工智能技术的发展,大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而,这些模型在生成文...
Read MoreCohere公司近日推出了Command R+,这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型(LLM)。Command R+具备先进的检索增强生成功能,并支持引用,同时覆盖10种关键语言的多语言处理能力,以及工具使...
Read MoreOpera公司旗下的Opera One开发者浏览器近日宣布,现已支持本地运行150种不同的大型语言模型,这些模型来自50个不同的大型语言模型家族。用户无需连接互联网,即可在本地运行这些模型,但需先下载相应的模型文件。此...
Read MoreLinear Attention Sequence Parallel(LASP)是一套新型策略,专为高效处理语言模型中的长序列而设计。该技术通过创新性地运用线性注意力机制,超越了传统方法,实现了对长序列数据的优化管理。LASP的核心优势在于其...
Read More