漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
2023-06-01 talkingdev

OpenAI 未来计划:Sam Altman分享路线图

## 新闻内容: OpenAI 的 CEO Sam Altman 分享了公司的路线图,其中包括以下亮点: - 推出更便宜、更快速的 GPT4 - 增加更长的上下文窗口 - 推出更精细的 API 和有状态的 API - 在 2024 年实现多模态 ## 三大要点:...

Read More
2023-05-17 talkingdev

首个RNN在Transformers库中发布

近日,基于线性注意力模型与内置循环的RWKV模型成为Transformers库中首个推出的RNN模型。该模型是一个强大的语言模型,理论上可运行较长的上下文窗口,并具有快速的运行速度。目前,该模型在HuggingFace平台上的开发...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4