近日,谷歌通过基因搜索算法和海量TPU的使用,开发出了一种新的模型——Brainformer,其收敛速度比传统的Transformer模型快5倍,推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧,充分发挥了TPU的强大性能...
Read More最近MosaicML MPT模型仍然备受欢迎。其中一个重要的贡献是“Storywriter”模型,它可以在上下文中使用高达65k个标记。但是,使用这个模型进行推理非常缓慢。通过添加键/值缓存,我们可以将生成速度提高近10倍。 ## 内...
Read More近日,一种名为VideoLLM的系统利用语言处理模型的强大能力,将所有视频输入转换为一种可以更高效地分析的语言类型。经过在多个数据集上成功测试,VideoLLM证明它可以处理各种任务,表明语言模型的推理能力可以有效地...
Read MoreHuggingFace发布了新的研究成果,使得在普通硬件上能够完成对65B参数模型的微调。这项研究使得量化技术不再局限于推理阶段,而是可以应用于训练过程中,从而大幅减少了模型所需空间。以下是该研究的三个核心点: -...
Read More## 新闻概要: - Meta发布了一款专门用于AI推理工作负载的定制芯片。 - 这款7纳米芯片的功耗较低,与许多替代硬件相比速度相当。 - 尽管与其他科技巨头相比有些安静,但Meta的AI硬件计划仍在积极推进。 ## 详细内...
Read More在传统AI训练中,我们使用通常的语言标签(如“积极”或“消极”),但现在有了一种新的方法——符号调整。符号调整是一种新的AI训练方式,它使用随机的符号(如“foo”或“bar”)代替正常的语言标签,迫使AI从输入与标签之间...
Read More### 核心要点: - GitHub仓库Chain-Of-Thought-Hub旨在通过链式思考提示来测试大型语言模型的复杂推理能力。 - 该仓库提供了一系列链式思考提示,旨在测试模型在推理和推断方面的表现。 - 这些测试可以帮助研究人员...
Read More### 新闻内容: 研究人员创建了一个名为Cola的基准测试,以测试和改进AI模型在组合推理方面的表现。他们发现,当前的AI模型在组合物体和它们的特征方面仍存在困难。而轻量级多模态适配器可以帮助模型更好地理解图像...
Read More在自然语言处理中,大型语言模型的推理能力往往比小型模型更强。这种推理能力有助于解决困难的任务,并可能使语言模型成为下一代计算平台/操作系统的基础。通过代码训练、思维链提示和强化学习等技术,可以提高模型...
Read More最近的OpenAI模型在一些有趣的基准测试中表现出色,包括因果发现和因果推理。我们知道相关性不等于因果关系,但是训练用于查找相关性的模型是否能够发现因果关系呢?这些模型似乎做得到!然而,它们也表现出令人惊讶...
Read More