漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-05-23 talkingdev

探索注意力机制和Transformer技术

注意力机制和Transformer技术是现代语言模型更加高效的关键,本文将深入探讨它们的作用。 ## 核心要点 - 注意力机制是一种机器学习技术,可使模型更加聚焦于输入中有用的部分。 - Transformer是一种基于注意力机制...

Read More
2023-05-23 talkingdev

在数据库场景下使用私有语言模型的项目DB-GPT发布

DB-GPT是一个项目,旨在为所有数据库场景构建完整的私有语言模型解决方案。它旨在确保敏感数据和环境完全受控,以避免大型语言模型造成的数据隐私泄露或安全风险。DB-GPT支持本地部署,以确保模型始终是私有的、安全...

Read More
2023-05-22 talkingdev

利用真实世界知识提升语言模型表现:新的微调方法

研究人员设计了一种新方法,使用虚拟模拟器为语言模型提供“具身体验”,以培养其对真实世界的理解和规划能力。这种新方法显著提高了模型的能力,使得小型模型的表现与 ChatGPT 等大型模型相当甚至更好。 ## 三个核心...

Read More
2023-05-22 talkingdev

SuperAgent简化LLM代理配置和部署

SuperAgent是一款强大的工具,可以简化LLM(大型语言模型)代理的配置和部署过程。该工具已在GitHub上发布,可以免费获取。 ### 核心要点: - SuperAgent是一款用于配置和部署LLM代理的工具 - 该工具可以简化代理...

Read More
2023-05-18 talkingdev

Google发布新版大型语言模型PaLM 2,用于更高级的编码、数学和创意写作任务

谷歌发布了新版大型语言模型PaLM 2,其训练数据量几乎是其2022年前辈的五倍,使其能够执行更高级的编码、数学和创意写作任务。 ## 核心要点 以下是该新闻的三个核心要点: - Google发布了新版大型语言模型PaLM 2...

Read More
2023-05-17 talkingdev

首个RNN在Transformers库中发布

近日,基于线性注意力模型与内置循环的RWKV模型成为Transformers库中首个推出的RNN模型。该模型是一个强大的语言模型,理论上可运行较长的上下文窗口,并具有快速的运行速度。目前,该模型在HuggingFace平台上的开发...

Read More
2023-05-16 talkingdev

用激活向量控制语言模型生成

近期,一篇名为《用激活向量控制语言模型生成》的论文备受关注。这篇论文提出了一种新的方法,可以通过添加激活向量来控制语言模型的生成方向,从而实现对生成结果的引导,这对于AI安全领域的发展具有重要的意义。以...

Read More
2023-05-13 talkingdev

Anthropic模型升级:100k上下文标记突破

Anthropic最新消息,其Claude模型现已可处理更长上下文标记。这意味着,您的组织可以将完整文档输入模型,语言模型将会对其进行操作。他们举了一个例子,将240页编码文档输入Claude,并让其回答编码问题。目前尚未公...

Read More
  1. Prev Page
  2. 125
  3. 126
  4. 127
  5. Next Page