语言模型的相关内容 - 漫话开发者

2023-06-27 talkingdev

DeepMind声称其下一个聊天机器人将能与ChatGPT媲美

DeepMind的Gemini大型语言模型是使用AlphaGo的技术进行训练的，AlphaGo是第一个在围棋比赛中击败职业人类选手的AI系统。Gemini可以规划、解决问题和分析文本。它将AlphaGo类型系统的优势与大型语言模型的能力相结合...

2023-06-26 talkingdev

最近有关GPT-4的消息称，GPT-4并不是一个大型模型，而是由多个小模型组成的混合体。这一消息尚未得到官方确认，但已经引起了广泛关注。GPT-4是由OpenAI开发的一种语言模型，能够生成高质量的自然语言文本。目前，GPT...

2023-06-26 talkingdev

embedchain是一个用于创建基于大型语言模型的聊天机器人的框架。它抽象了加载数据集、分块、创建嵌入和存储到向量数据库的整个过程。用户可以通过链接到媒体文件，如视频、PDF、博客文章或网站，创建聊天机器人。这...

2023-06-23 talkingdev

MPT是MosaicML推出的一系列语言模型。仅在推出几周内，其7B模型已经被下载了数百万次。这款全新的30B模型是在H100s上进行训练的，具备8000个上下文长度。它经过商业授权，甚至可以进行编码！该模型可以在单个A100上...

2023-06-23 talkingdev

这项研究揭示了大型语言模型（LLMs）在处理不同任务时可以胜任，但在概率推理方面存在困难，从而限制了它们的性能。作者提出了一种名为Tart的解决方案 - 一种在通用方式下训练的推理模块，当与任何现有模型结合时，...

2023-06-22 talkingdev

该仓库介绍了Wanda，一种通过选择性地丢弃不太重要的网络权重来减少大型语言模型复杂性的独特方法。与其他方法不同，Wanda无需重新训练或大量计算，能够在保持性能的同时实现有效的模型剪枝。

2023-06-21 talkingdev

Autolabel是一个Python库，可以使用你选择的任何大型语言模型（LLM）来标注、清理和丰富文本数据集。

2023-06-21 talkingdev

这项研究介绍了LOw-Memory Optimization（LOMO），这是一种旨在显著减少大型语言模型（LLM）训练所需资源的优化器，目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU（每个具有24...