Databricks Mosaic团队在语言模型训练领域不断创新。在最近的一篇文章中,他们讨论了用于fp8训练的训练技术栈,以及通过降低精度所带来的一些优势。fp8作为一种新兴的计算精度格式,能够在保持足够精度的同时,大幅...
Read More近期,微软对Inflection人才的收购再次激起了关于科技巨头公司在人工智能发展中控制过度的争论。虽然这些公司拥有的资源可以在核心语言模型上快速取得进展,但人们对于权力集中可能限制创新和透明度的担忧是有道理的...
Read MoreMistral公司近期举办了一场黑客马拉松活动,并在此期间宣布了其7B语言模型的v0.2版本。同时,Mistral还发布了如何对其语言模型进行微调的代码。这些代码编写得整洁而简明,易于理解和使用。微调代码的发布,将有助于...
Read More本文深入探讨了如何利用ChatGPT(或任何语言模型)为一个复杂任务编写不熟悉语言的代码。作者使用ChatGPT的代码解释器为流行的数据库SQLite编写、编译并下载新的绑定。这项技术不仅展示了ChatGPT在编程领域的潜力,...
Read MoreMeta公司近日发布了一个名为Torchtune的原生PyTorch库,专门用于精细调整语言模型。该库旨在为开发者提供更为便捷的工具,以便在PyTorch框架中进行语言模型的微调工作。通过Torchtune,开发者可以更容易地实现模型性...
Read More像Claude这样的大型语言模型(LLMs)能够为解析代码生成有效的模糊测试工具,这一过程传统上需要大量的人力投入。尽管LLMs通常在精确度上不足以进行静态分析,但它们似乎非常适合创建模糊测试工具,因为模糊测试的随机...
Read MoreChain-of-Spot(CoS)技术近日提出了一种交互式推理方法,该方法大幅提升了大型视觉语言模型(LVLMs)处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域,使得LVLMs能够在不损失图像分辨率的前...
Read More据报道,OpenAI计划在今年2024年夏季发布一个重要的人工智能模型,可能是GPT-5。这个新模型预计是一个多模态大型语言模型,其功能与GPT-4相似,但性能更为优秀。目前,OpenAI仍在对该模型进行训练,训练完成后将进行...
Read More