模型训练的相关内容 - 漫话开发者

2024-02-28 talkingdev

旧金山计算公司推出全球最便宜的H100训练集群

旧金山计算公司（SF Compute）现在推出了全球最便宜的H100训练集群，并提供灵活的短期租赁选项，针对需要进行AI模型训练的客户，而无需长期承诺。其第一个集群Angel Island已经上线，另一个Bay Bridge即将推出。SF C...

2024-02-21 talkingdev

Google正在为Workspace客户推出“Gemini Business”和“Gemini Enterprise”计划，提供对其先进的AI模型Gemini 1.0 Ultra的访问，并提供企业级数据保护。它不会使用员工的对话进行模型训练。

2024-02-20 talkingdev

Qwen团队发布了两个新的语言模型，分别是1.8B和72B的LLMs，与Llama 2相似，这些模型训练了3T个标记，并且在许多任务上表现出色。除了发布聊天版本和量化版本外，这些模型还在推理、数学和代码方面表现出色。

2024-02-19 talkingdev

Meta的副总裁兼首席人工智能科学家Yann LeCun曾表示，我们需要更多的数据有效的自监督模型来实现通用智能。这项工作是朝着这个目标迈出的一步，通过对视频进行训练，让模型理解世界的方方面面。这些模型已经可以公开...

2024-02-13 talkingdev

Llmware是一个统一的框架，用于开发基于LLM的应用程序模式，包括检索增强生成。它提供了一个通用的API，使得开发人员能够轻松地使用不同的LLM模型和数据集。Llmware还为开发人员提供了一组可自定义的工具，用于自动...

2024-02-12 talkingdev

HuggingFace发布了一个轻量级的评估库lighteval，用于基于HELM和Eluther AI评估工具的语言模型训练。该评估库专注于提供高效易用的评估方法和指标，帮助用户快速准确地评估模型性能。同时，lighteval还提供了丰富的...

2024-02-08 talkingdev

GitHub仓库发布了一个名为DeepSeekMath 7B的语言模型，专门设计用于解决复杂的数学问题。该模型训练了大量以数学为重点的内容，它可以理解数学问题的语法和语义，并根据其推理出答案。DeepSeekMath 7B是一个重要的AI...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...