模型训练的相关内容 - 漫话开发者

2024-03-15 talkingdev

Branch-Train-MiX：将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明，您可以单独训练模型，然后将它们合并成单个Mixture-of-Experts模型。

2024-03-15 talkingdev

OpenAI宣布与Le Monde和Prisa Media合作，将他们的内容整合到ChatGPT中，以为用户提供交互式和深入的新闻访问，并协助模型训练。Le Monde和Prisa Media将提供大量的新闻和其他内容，以帮助改进ChatGPT的质量和精度。...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-03-08 talkingdev

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术，以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术，并详细讨论了它们的优缺点。...

2024-03-08 talkingdev

Inflection近日推出了一款新模型，为其个人助手Pi提供支持。该模型表现与GPT-4相当，在基准测试中具备出色的推理能力，达到了94%的成绩。Inflection声称，相对于GPT-4，该模型训练所需的计算资源仅占40%。有意思的是...

2024-02-28 talkingdev

旧金山计算公司（SF Compute）现在推出了全球最便宜的H100训练集群，并提供灵活的短期租赁选项，针对需要进行AI模型训练的客户，而无需长期承诺。其第一个集群Angel Island已经上线，另一个Bay Bridge即将推出。SF C...

2024-02-21 talkingdev

Google正在为Workspace客户推出“Gemini Business”和“Gemini Enterprise”计划，提供对其先进的AI模型Gemini 1.0 Ultra的访问，并提供企业级数据保护。它不会使用员工的对话进行模型训练。

2024-02-20 talkingdev

Qwen团队发布了两个新的语言模型，分别是1.8B和72B的LLMs，与Llama 2相似，这些模型训练了3T个标记，并且在许多任务上表现出色。除了发布聊天版本和量化版本外，这些模型还在推理、数学和代码方面表现出色。