自去年推出以来,语言模型(LLMs)已成为人工智能领域的热点。一年来,我们使用LLMs构建了许多项目,并从中获得了许多宝贵的经验教训。首先,LLMs需要大量的数据来进行训练,只有这样才能产生准确的结果。其次,LLMs...
Read MoreYuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性...
Read More随着大型语言模型性能的提升,其对能源和计算能力的渴求也随之增加。为降低成本,提高处理速度,同时减少对环境的影响,模型需要实现更小型化。研究人员目前采用一种名为量化的技术,通过减少模型参数的精度来压缩网...
Read More在信息检索中,RAG模型是一种常见的评估信息检索系统的方法。近日,研究人员提出了一种新的RAG模型改进方法,即使用互惠排名融合和混合搜索。在实验中,该方法比传统的RAG模型表现更好,大幅提高了搜索结果的质量和...
Read MoreCartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...
Read More随着人工智能产品的门槛降低,从演示到实现有效产品的转变依然充满挑战。这一系列文章将深入探讨过去一年中基于机器学习系统之上开发实际应用的人们,从大型语言模型(LLMs)产品开发中学到的关键教训和方法论。内容...
Read MoreMistral是一家专注于开发人工智能技术的创业公司,最近推出了Codestral,这是一种全新的代码模型。Codestral使用深度学习技术,能够对代码进行理解和分析。与传统的代码分析工具不同,Codestral不仅可以识别代码的语...
Read More无服务器计算是一种计算模型,其中云提供商管理了计算资源,以便根据需要自动分配和释放资源。最近,一个名为Up的初创公司推出了一项名为“无服务器Postgres”的新服务,该服务提供了一种完全托管的PostgreSQL数据库解...
Read More