漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
2023-06-06 talkingdev

无需提示的扩散,文本转图像更进一步 (GitHub仓库)

最近,研究人员在文本转图像(T2I)领域中推出了一种新的方法,称之为“无需提示的扩散”。这种系统只依靠视觉输入生成图像,无需任何文本提示。其利用了一种称为“语义上下文编码器(SeeCoder)”的独特结构来解释参考...

Read More
2023-06-02 talkingdev

加速MPT 65K上下文模型

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型,它可以在上下文中使用高达65k个标记。但是,使用这个模型进行推理非常缓慢。通过添加键/值缓存,我们可以将生成速度提高近10倍。 ## 内...

Read More
2023-06-01 talkingdev

OpenAI 未来计划:Sam Altman分享路线图

## 新闻内容: OpenAI 的 CEO Sam Altman 分享了公司的路线图,其中包括以下亮点: - 推出更便宜、更快速的 GPT4 - 增加更长的上下文窗口 - 推出更精细的 API 和有状态的 API - 在 2024 年实现多模态 ## 三大要点:...

Read More
2023-05-24 talkingdev

RWKV模型:结合Transformer和循环神经网络的最佳文本处理工具

### 内容摘要: - Transformer已经取代循环神经网络成为大多数文本处理任务的主要工具。 - 由于架构的限制,这些Transformer很昂贵且上下文受限。 - RWKV是一种具有注意力变体的模型,它声称结合了Transformer和循...

Read More
2023-05-23 talkingdev

探索注意力机制和Transformer技术

注意力机制和Transformer技术是现代语言模型更加高效的关键,本文将深入探讨它们的作用。 ## 核心要点 - 注意力机制是一种机器学习技术,可使模型更加聚焦于输入中有用的部分。 - Transformer是一种基于注意力机制...

Read More
2023-05-17 talkingdev

首个RNN在Transformers库中发布

近日,基于线性注意力模型与内置循环的RWKV模型成为Transformers库中首个推出的RNN模型。该模型是一个强大的语言模型,理论上可运行较长的上下文窗口,并具有快速的运行速度。目前,该模型在HuggingFace平台上的开发...

Read More
2023-05-13 talkingdev

新AI代码审查工具Metabob发布

Metabob是一款AI代码审查工具,能够自动检测、理解和解决隐藏在代码中的复杂问题,加速代码调试。Metabob的理解代码上下文的能力超级强大,可以增强其检测能力! ## 核心要点 以下是Metabob推出的三个核心要点:...

Read More
  1. Prev Page
  2. 28
  3. 29
  4. 30
  5. Next Page