模型的相关内容 - 漫话开发者

2024-04-08 talkingdev

ReFT：一种高效节省参数的微调语言模型方法

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-04-08 talkingdev

Meta的研究团队近日推出了一款新型的优化器，并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率（LR）调度，训练过程中无需预先设定总步数。经过实证，该优化器在包括语言模型在内...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-08 talkingdev

Qwen团队最新力作——一个具备32B参数的AI模型，现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现，同时其设计考虑到了内存的局限性，能够适配更为普遍的中等内存硬件系统。这意味着，即便是在资源有...

2024-04-08 talkingdev

近日，一项名为"Anything Unsegmentable"的创新技术问世，旨在保护数字图像不受人工智能模型的非法分割。该技术的出现，对于解决因AI技术发展而日益凸显的版权和隐私问题具有重要意义。通过防止图像被AI模型分割，可...

2024-04-08 talkingdev

Cohere公司近日推出了Command R+，这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型（LLM）。Command R+具备先进的检索增强生成功能，并支持引用，同时覆盖10种关键语言的多语言处理能力，以及工具使...

2024-04-08 talkingdev

Opera公司旗下的Opera One开发者浏览器近日宣布，现已支持本地运行150种不同的大型语言模型，这些模型来自50个不同的大型语言模型家族。用户无需连接互联网，即可在本地运行这些模型，但需先下载相应的模型文件。此...

2024-04-08 talkingdev

近期，科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具，成功从YouTube视频中转录音频，为训练其AI系统提供了新文本。该团队最终转录了超过一百...