漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-29 talkingdev

FunQA:专注于惊喜内容的视频问答数据集

FunQA是一个创新的数据集,旨在测试和提升模型对令人惊喜的视频的理解能力,例如幽默或创意视频片段,推动模型在时间戳定位、视频描述和推理等领域的能力。

Read More
2023-06-23 talkingdev

Tart: 提升LLMs推理能力的新方法

这项研究揭示了大型语言模型(LLMs)在处理不同任务时可以胜任,但在概率推理方面存在困难,从而限制了它们的性能。作者提出了一种名为Tart的解决方案 - 一种在通用方式下训练的推理模块,当与任何现有模型结合时,...

Read More
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
2023-06-15 talkingdev

开源代码模型击败ChatGPT在编码任务中(GitHub Repo)

近日,一种开源代码模型在编码任务中表现超越ChatGPT等语言模型。封闭模型之所以强大,是因为它们实际上是伪装成语言模型的代码模型。很多开放式语言模型表现不佳,因为它们无法从大规模的代码预训练中获得推理能力...

Read More
2023-06-13 talkingdev

Bard更智能:隐式代码执行功能上线

## 新闻摘要: - Bard即将推出两项新功能:将响应导出到Google表格和实现后台代码运行。 - 后台代码运行可以帮助Bard检测问题是否需要数学、逻辑或代码推理,并执行相应的代码,从而提高输出结果的可靠性和准确性。...

Read More
2023-06-12 talkingdev

新技术SpQR:高效LLM压缩技术

近日,研究人员提出了一种名为Sparse-Quantized Representation(SpQR)的新技术,可以实现对大型语言模型(LLMs)的几乎无损压缩,克服了量化带来的精度损失。这项技术使得强大的LLMs可以在像笔记本电脑和手机这样...

Read More
2023-06-08 talkingdev

CodeTF库发布,助力代码智能化

## 新闻内容: GitHub开源社区发布了一款名为CodeTF的Python Transformer库,致力于提高代码智能化的水平,为使用者提供了一个训练与推理的平台,可以轻松实现代码智能化任务,如代码摘要、翻译、生成等。 CodeTF...

Read More
2023-06-06 talkingdev

GitHub开源项目“思维之树”:全新算法提高模型推理能力70%

近日,一款名为“思维之树”(Tree of Thoughts,简称ToT)的全新算法在GitHub上开源。这款算法不仅具备强大的灵活性,还将模型推理能力提高了70%。 以下是本次报道的核心内容: - “思维之树”是一款全新的算法。 -...

Read More
2023-06-05 talkingdev

Brainformer:以效率换取简单性

近日,谷歌通过基因搜索算法和海量TPU的使用,开发出了一种新的模型——Brainformer,其收敛速度比传统的Transformer模型快5倍,推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧,充分发挥了TPU的强大性能...

Read More
2023-06-02 talkingdev

加速MPT 65K上下文模型

最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型,它可以在上下文中使用高达65k个标记。但是,使用这个模型进行推理非常缓慢。通过添加键/值缓存,我们可以将生成速度提高近10倍。 ## 内...

Read More
  1. Prev Page
  2. 20
  3. 21
  4. 22
  5. Next Page