漫话开发者 - UWL.ME

2024-03-08 talkingdev

深入探讨：大规模模型训练的并行化技术

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术，以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术，并详细讨论了它们的优缺点。...

2024-03-08 talkingdev

评估语言模型通常采用手动策划的基准测试。其中一些基准测试非常大，有些超过14k个示例，这导致评估成本和噪声很高。这项工作表明，您可以可靠地评估流行基准测试中的语言模型性能，只需使用100个示例即可。

2024-03-08 talkingdev

Answer AI发布了一款新的FSDP/QLoRA训练工具，可在消费级GPU上训练70B参数模型。该公司开源了代码，并使其易于本地运行或在runpod上运行。

2024-03-08 talkingdev

Inflection近日推出了一款新模型，为其个人助手Pi提供支持。该模型表现与GPT-4相当，在基准测试中具备出色的推理能力，达到了94%的成绩。Inflection声称，相对于GPT-4，该模型训练所需的计算资源仅占40%。有意思的是...

2024-03-08 talkingdev

微软将在3月21日的发布会上公布有关Copilot AI，Windows和Surface硬件的消息。虽然微软没有透露任何细节，但外界普遍认为该公司将推出新的Surface设备，并有望展示Copilot AI的最新进展。

2024-03-08 talkingdev

Grats是一个工具，可以将构建GraphQL服务器变得像编写函数一样简单。它利用现有的类型注释自动从通用的TypeScript解析器代码中提取可执行的GraphQL模式。Grats将TypeScript实现成为真相的来源，因此开发人员无需担心...

2024-03-08 talkingdev

Facebook使用Mercurial来创建和管理代码变更。Facebook最初使用Git，但在2012年左右开始遇到扩展限制。Mercurial的开发人员接受Facebook工程师提供的扩展补丁，而Git的开发人员则不接受。还有其他替代品，但都很快被...

2024-03-08 talkingdev

据苹果分析师郭明錤称，苹果计划在2027年推出一款20.3英寸的可折叠屏幕MacBook，完全展开时屏幕对角线长度约为20英寸。该笔记本电脑是苹果唯一有明确开发计划的可折叠产品，可折叠的iPhone或iPad不太可能在短时间内...