大模型的相关内容 - 漫话开发者

2024-03-08 talkingdev

深入探讨：大规模模型训练的并行化技术

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术，以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术，并详细讨论了它们的优缺点。...

2024-02-27 talkingdev

Mistral AI推出了一款名为Mistral Large的新型语言大模型，以与GPT-4和Claude 2等顶级模型竞争。该公司还推出了一项名为Le Chat的新服务，以与ChatGPT竞争。通过该公司的API，访问Mistral Large的成本为每百万输入令...

2024-02-22 talkingdev

本文介绍了LoRA+，一种优于现有Low-Rank Adaptation (LoRA)方法的微调大模型的方法。LoRA+通过为过程中的关键部分使用不同的学习速率来实现更好的性能和更快的微调，而无需增加计算需求。

2024-01-30 talkingdev

受 Llama 模型的努力启发，这个项目使用纯 Rust 在 CPU 上运行 Mamba 推理。

2024-01-25 talkingdev

最近，一份名为“Hallucination Leaderboard”的GitHub仓库开始在自然语言处理领域引起轰动。该仓库汇集了多种模型在摘要短文档时产生幻觉的性能比较数据，让人们更好地了解这些模型的优势和不足。据悉，该排行榜是由...

2023-12-05 talkingdev

在知识蒸馏和初始化方面已经做了大量的工作，例如“彩票假设”。这项工作提供了一种简单的机制，可以从一个更大的模型中初始化一个更小的模型。这显著提高了较小模型的性能。

2023-11-22 talkingdev

Orca模型是微软的一组小型模型，擅长推理任务。由于许多信息被保密，因此存在关于其有效性的担忧。现在发布了Orca 2，该模型可在HuggingFace上获得。它展现了良好的性能，超过了几个较大模型的推理基准。

2023-11-09 talkingdev

跨视角训练（SCT）可以提高小型语言模型的性能，使其能够生成先前仅可由较大模型实现的句子嵌入，从而优化性能和计算效率。