漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-22 talkingdev

探讨AI训练的巨大工作量

本文讨论了训练人工智能的无形劳动力。这些工人被称为数据标注员,他们负责标注用于训练AI模型的数据。这项工作通常是重复而低薪的,但对于AI的发展至关重要。

Read More
2023-06-21 talkingdev

LOMO:高效的LLM训练(GitHub开源)

这项研究介绍了LOw-Memory Optimization(LOMO),这是一种旨在显著减少大型语言模型(LLM)训练所需资源的优化器,目前这一过程需要大量的GPU资源。LOMO的创新方法使得只需使用一台具有8个RTX 3090 GPU(每个具有24...

Read More
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
2023-06-12 talkingdev

新加坡推出多模态文本/视觉模型

新闻概要: - 新加坡研究人员收集了一个新的视觉指导调整数据集。 - 他们训练了一个多模态文本/视觉模型,并在过程中进行了一些算法调整。 - 该模型的演示令人印象深刻,特别是在苹果发布增强现实技术后,展示了人...

Read More
2023-06-08 talkingdev

CodeTF库发布,助力代码智能化

## 新闻内容: GitHub开源社区发布了一款名为CodeTF的Python Transformer库,致力于提高代码智能化的水平,为使用者提供了一个训练与推理的平台,可以轻松实现代码智能化任务,如代码摘要、翻译、生成等。 CodeTF...

Read More
2023-05-30 talkingdev

新款100TB GPU系统发布!

近日,全新的DGX系统面世了!节点之间的NVLink连接创造了一个由256个Grace CPU(每个CPU拥有480GB的LPDDR5内存)和256个Hopper GPU(每个GPU拥有96GB的HBM3内存)组成的系统。每个GPU可以以900Gbps的速度直接访问任...

Read More
2023-05-03 talkingdev

火车稳定扩散,只需要5万美元

Mosaic ML正在开发一个工具包,使模型训练变得非常容易。他们在公共云上复制了稳定扩散训练,只需47,000美元。该代码已经开源。他们的平台可以自动从硬件故障中恢复。有趣的是,这个模型得到了用户高度评价,可能是...

Read More
2023-04-27 talkingdev

ChatGPT发布新功能,提供更多数据管理方式

以下是本新闻的核心内容: - ChatGPT现在可以关闭聊天历史记录,让用户自由选择哪些对话可以用于模型训练。 - OpenAI正在开发新的ChatGPT Business订阅服务,为需要更多数据控制权的专业人士和企业提供管理终端用户...

Read More
  1. Prev Page
  2. 17
  3. 18
  4. 19
  5. Next Page