漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-13 talkingdev

SPIN-自我博弈的微调训练方法开源

自然语言处理(NLP)中,让语言模型生成自己的训练数据是一个具有挑战性但前景广阔的研究领域。SPIN是一种方法,已经显示出很大的前途。该代码已经发布,但据报道使用起来很有挑战性。

Read More
2024-02-12 talkingdev

如何通过qapair提示训练Mistral-7B模型以实现更好的微调

HelixML实现了一套qapair提示,从各种不同的角度提取内容,并为每个文档生成内容寻址哈希。这使得微调Mistral-7B模型的效果更好。

Read More
2024-02-09 talkingdev

人工智能的商业化之路

近期,人工智能研究的重点从单纯的准确性和广度转向了效率和深度。英伟达的H100销售和AI能源的不断增长凸显了该行业的规模。投资要求盈利,将研究重点转向了像Phi 2这样更小、更高效的模型,并强调从模型架构到部署...

Read More
2024-02-05 talkingdev

AI2发布全面开放的开放语言模型OLMo

AI2发布了一个完全开放的语言模型训练框架,名为OLMo。该模型提供全面的资源,包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点,以及未来的微调代码,所有这些都遵循Apache 2.0许可证。这些...

Read More
2024-02-01 talkingdev

WhisperKit:将OpenAI的语音识别模型集成到Apple的CoreML框架中

WhisperKit是一个用Swift编写的开源库,它将OpenAI的Whisper语音识别模型与Apple的CoreML框架集成,以在Apple设备上进行高效的本地推理。它可以通过Swift Package Manager集成到Swift项目中。WhisperKit会自动下载推...

Read More
2024-01-24 talkingdev

从零开始深入解析LoRA

LoRA是一种低秩适配器,可让您仅微调语言模型中的少量参数。它们可以显着改善和改变这些模型的性能。

Read More
2024-01-23 talkingdev

提升视觉基础模型性能:ViSFT开源

针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像...

Read More
2024-01-22 talkingdev

论文:用简易数据解决难问题的训练方法

以往认为难问题需要难数据,但这些数据很难标记且带噪音。这项研究表明,对相关但易处理的数据进行微调训练,可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page