语言模型的相关内容 - 漫话开发者

2023-09-18 talkingdev

IBM正式挑战语言模型领域，推出开源MoE模型

IBM近日发布了一系列混合专家模型（Mixture-of-Experts，MoE），并公开了它们的架构和部分代码。MoE模型是一种稀疏模型，意味着在不牺牲准确性的情况下，可以节省计算资源。然而，训练这种模型却颇具挑战性。这次IBM...

2023-09-15 talkingdev

对齐技术有助于使语言模型更有用且无害。虽然有时可能会损害性能，但总的来说，这是一项正面的技术。对齐是昂贵的，需要大量的对齐数据。然而，如果您允许模型在生成后评估自身的输出并进行回溯，它可以提高冻结模型...

2023-09-15 talkingdev

MLPerf发布了两个基准测试套件的结果：MLPerf Inference v3.1和MLPerf Storage v0.5。前者显示了创纪录的参与度和性能提升，后者评估了机器学习训练工作负载的存储系统性能。推理基准测试套件引入了一个大型语言模型...

2023-09-15 talkingdev

Patronus AI近日宣布获得由Lightspeed领投的300万美元种子轮融资，该团队计划构建真实世界评分体系，以帮助企业理解LLMs（大型语言模型）的实用性。在当前，大型语言模型在企业中的应用越来越广泛，然而，将其真正落...

2023-09-14 talkingdev

ExLlamaV2是一个在GitHub上开源的项目，它是为现代消费级图像处理单元（GPU）上运行本地语言模型（LLMs）而设计的推理库。这款推理库的出现，可以帮助用户在个人电脑上使用现代GPU进行深度学习模型的推理计算，而无...

2023-09-12 talkingdev

本文分享了七种实用模式，用于将大型语言模型（LLM）整合到系统中：性能测量、添加最新知识、微调任务、缓存以节省时间/成本、确保质量输出、错误管理以及利用用户反馈。首先，性能测量是衡量模型在实际应用中的效果...

2023-09-12 talkingdev

大型语言模型（LLMs）是否具备人类般的推理能力的争论仍在进行中。一方面，有些研究显示，这些模型主要依赖于记忆和模式匹配。另一方面，也有研究显示，它们在与训练数据相关的任务中表现出色，显示出一定的推理能力...

2023-09-12 talkingdev

本研究的作者们已经创建了一种方法，用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术，它能理解和解释图片中的内容。然而，这种模型在理解和...