漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-04 talkingdev

论文:SoftMoE,一种改进的稀疏混合专家模型,低成本提高模型容量

SoftMoE 是一种新的模型架构,它改进了稀疏的混合专家(MoE)模型。通过使用软分配方法,每个专家处理输入令牌的子集,SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中,SoftMoE的表现超过了标准的变压...

Read More
2023-08-03 talkingdev

LISA开源:通过LLM进行推理分割

这项研究引入了一个名为“理性分割”的新AI任务,设计用于根据复杂和隐含的文本指令生成分割掩膜。此研究展示了一个名为LISA(Large-language Instructed Segmentation Assistant)的工具作为展示。LISA结合了大语言模...

Read More
2023-07-24 talkingdev

纯C语言实现的Llama 2训练与推理库开源

Andrej Karpathy 编写了一个受到llama.cpp极大启发的酷炫库,可以用于纯C语言训练和推理新的Llama 2模型。这个库对于那些对底层编程感兴趣的人来说是一个很好的资源(就像他的所有代码一样)。GPT4在编写过程中给予...

Read More
2023-07-18 talkingdev

语言模型在道德推理方面的表现不佳

近期,一些硅谷的大思考家们辩称,人工智能并不会构成重大风险,因为他们认为道德推理的能力会随着技术能力的提高而提高。然而,一篇最新的论文对这一观点提出了具体的反驳,该论文显示,现代语言模型在进行道德推理...

Read More
2023-07-12 talkingdev

bitsandbytes发布4位推理,实现AI模型精度与速度的突破

AI模型包含许多参数,它们在计算机中以十进制数字的形式表示。这些数字的精度决定了它们的准确度和占用的空间大小。如果将精度从32位降低到16位,将会大幅提高运行速度。现在,我们可以将精度降低到4位,从而在一些...

Read More
2023-07-12 talkingdev

Anthropic发布新模型Claude 2:提供更强大的性能和扩展响应

Anthropic公司最近发布了其最新模型Claude 2。Claude 2提供了改进的性能,扩展的响应,并可通过API和beta站点进行访问。Claude 2拥有增强的推理,编码和数学能力,可以处理每个提示中多达100K的令牌,使其能够处理复...

Read More
2023-07-11 talkingdev

树莓派集群上运行llama 65B模型?(GitHub议题)

GGML是一个开源库,用于在低资源设备上运行语言模型。最近,团队已经进行了并行推理的MPI(Message Passing Interface)工作。现在,随着这些变化的实施,团队正在努力在树莓派集群上推理llama 65B模型。这一行动可...

Read More
2023-07-10 talkingdev

谷歌的医疗AI聊天机器人正在医院进行测试

谷歌正在梅奥诊所测试其AI工具——Med-PaLM 2,这是一款专为解答医疗信息查询而设计的工具。作为语言模型PaLM 2的一个变种,Med-PaLM 2在推理、达成共识的答案和理解方面展现出了令人鼓舞的结果,尽管在准确性上还存在...

Read More
2023-06-29 talkingdev

FunQA:专注于惊喜内容的视频问答数据集

FunQA是一个创新的数据集,旨在测试和提升模型对令人惊喜的视频的理解能力,例如幽默或创意视频片段,推动模型在时间戳定位、视频描述和推理等领域的能力。

Read More
2023-06-23 talkingdev

Tart: 提升LLMs推理能力的新方法

这项研究揭示了大型语言模型(LLMs)在处理不同任务时可以胜任,但在概率推理方面存在困难,从而限制了它们的性能。作者提出了一种名为Tart的解决方案 - 一种在通用方式下训练的推理模块,当与任何现有模型结合时,...

Read More
  1. Prev Page
  2. 20
  3. 21
  4. 22
  5. Next Page