漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-30 talkingdev

论文:LLM-FP4,一种新型的LLM压缩方法

在最新的研究中,科学家们介绍了一种名为LLM-FP4的新型方法,该方法能够通过在训练后将大型语言模型的权重和活动转换为4位浮点值,实现对其进行压缩。这种技术的创新之处在于,它不仅能够显著减少模型的存储需求,还...

Read More
2023-10-27 talkingdev

论文:LLM模型中的4位量化技术

本研究介绍了LLM-FP4,这是一种新的方法,通过在训练后将大型语言模型的权重和操作转换为4位浮点值来压缩它们。近年来,由于NLP任务的快速发展,语言模型的大小和计算需求不断增加,这给模型的部署和使用带来了很多...

Read More
2023-10-25 talkingdev

cola,利用视觉语言模型增强视觉推理

Cola是一个使用大型语言模型来协调各种视觉语言模型(VLM)以改进视觉推理的系统。该代码库已经在GitHub上发布。

Read More
2023-10-24 talkingdev

评估LLMs在多轮对话中的聊天能力

本研究评估了大型语言模型(LLMs)在进行类似于人类的多轮对话时的能力。研究人员使用了一种名为Persona-Chat的数据集,该数据集包含有关对话参与者偏好和兴趣的信息。研究结果表明,LLMs在某些方面表现出了与人类类...

Read More
2023-10-23 talkingdev

MathGLM仍然无法解决数学问题

尽管有人声称MathGLM可以解决数学问题,但实际上它仍然无法胜任这项任务。这一现象凸显了仅仅依赖于大型语言模型的局限性。近年来,基于神经网络的自然语言处理技术取得了长足进步,但在某些特定领域,仍然需要更为...

Read More
2023-10-20 talkingdev

探究LLMs如何表达真相

近年来,大型语言模型(LLMs)在自然语言处理领域引起了广泛关注,但它们如何表达真相仍然是一个有待研究的问题。为了解决这个问题,研究人员开发了一些交互式图表,可以帮助用户更好地理解LLMs如何表示真相。这些图表...

Read More
2023-10-20 talkingdev

FACTCHD:检测LLM中的事实错误的基准测试

研究人员推出了FACTCHD,这是一个基准测试,旨在检测像ChatGPT这样的大型语言模型在复杂情况下产生事实错误的信息。

Read More
2023-10-19 talkingdev

BitNet新设计开源:更高效的语言模型架构

研究人员开发出BitNet,这是一种新的大型语言模型设计,使用更少的能量和内存。BitNet使用一种新的技术来平衡模型的准确性和计算效率,同时减少了对大量数据的依赖。这一新设计的目的是为了降低大型语言模型的计算成...

Read More
  1. Prev Page
  2. 33
  3. 34
  4. 35
  5. Next Page