模型训练的相关内容 - 漫话开发者

2024-02-19 talkingdev

Meta发布V-JEPA模型，实现更高效的自监督模型训练

Meta的副总裁兼首席人工智能科学家Yann LeCun曾表示，我们需要更多的数据有效的自监督模型来实现通用智能。这项工作是朝着这个目标迈出的一步，通过对视频进行训练，让模型理解世界的方方面面。这些模型已经可以公开...

2024-02-13 talkingdev

Llmware是一个统一的框架，用于开发基于LLM的应用程序模式，包括检索增强生成。它提供了一个通用的API，使得开发人员能够轻松地使用不同的LLM模型和数据集。Llmware还为开发人员提供了一组可自定义的工具，用于自动...

2024-02-12 talkingdev

HuggingFace发布了一个轻量级的评估库lighteval，用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标，帮助用户快速准确地评估模型性能。同时，lighteval还提供了丰富的...

2024-02-08 talkingdev

GitHub仓库发布了一个名为DeepSeekMath 7B的语言模型，专门设计用于解决复杂的数学问题。该模型训练了大量以数学为重点的内容，它可以理解数学问题的语法和语义，并根据其推理出答案。DeepSeekMath 7B是一个重要的AI...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-02-02 talkingdev

Weaver是一系列专门用于讲述故事的模型。最大的模型（34B参数）在故事讲述基准测试中表现优于GPT-4。

2024-02-01 talkingdev

使用较低精度的模型训练速度更快、更便宜，但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上，提供易于阅读和可修改的代码，实现浮点8训练。