漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-12 talkingdev

Meta如何规模化训练大型语言模型

近日,Meta公司公布了一篇关于其如何规模化训练大型语言模型的论文。该论文详细介绍了Meta公司的训练方法,该方法可以同时训练多达14亿个参数的语言模型。该规模远超以往的语言模型训练规模,并且可以在更短的时间内...

Read More
2024-06-12 talkingdev

论文:评估医疗模型的可信度,CARES全面评估框架

CARES是一个全面的评估框架,用于评估医疗大视觉语言模型(Med-LVLMs)的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样,医疗大视觉语言模型的可信度是其成...

Read More
2024-06-12 talkingdev

PHATGOOSE:增强零样本学习的新方法

PHATGOOSE是一种显著提高AI在没有先前暴露的情况下概括和学习新任务能力的方法。这种方法通过智能地在不同专业的语言模型之间进行路由,以完成任务的各个部分。零样本学习是一种让机器学习模型在没有见过任何训练样...

Read More
2024-06-08 talkingdev

RAG应用中的分块:精准切分很难做到?

在自然语言处理(NLP)中,分块是指将句子分成更小的组块(块)的过程,每个块都有自己的语法和含义。在RAG(Retrieval-Augmented Generation)应用程序中,分块是生成响应的重要步骤。不同于传统的基于规则或基于统...

Read More
2024-06-07 talkingdev

阿里云发布旗舰语言模型Qwen 2,效果超闭环模型

阿里云最新发布的旗舰语言模型Qwen 2在基准性能测试中略超越了Llama 3 70B,成为新一代语言模型的标杆。Qwen 2不仅在英语性能方面表现卓越,同时也是一个更优秀的多语言模型。这一突破性进展标志着阿里云在人工智能...

Read More
2024-06-07 talkingdev

Together AI发布高分辨率图像处理新模型DragonFly Vision

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型(VLM)。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术,包括深度学习和神经网络优化,从而实...

Read More
2024-06-06 talkingdev

XRec:利用大语言模型提升可解释推荐系统

XRec是一种模型无关的框架,它利用大型语言模型的语言能力来增强可解释推荐系统。该框架的核心在于通过自然语言处理技术,为用户提供更透明和易理解的推荐理由。这不仅提升了用户对推荐系统的信任度,还为开发者提供...

Read More
2024-06-06 talkingdev

MatMul突破性成果:无需矩阵乘法的高性能大型语言模型

研究人员发现了一种方法,可以在无需进行矩阵乘法(MatMul)的情况下,依然保持大型语言模型的强大性能,甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率,减少资源消耗,并为未来的AI模型...

Read More
2024-06-06 talkingdev

LlamaCare:革新医疗应用的大型语言模型

研究人员推出了LlamaCare,一个专门为医疗知识调优的大型语言模型(LLM)。LlamaCare不仅在处理医疗数据方面表现出色,还引入了扩展分类集成(ECI)技术,以解决LLM中的分类问题。该模型的推出标志着医疗领域人工智...

Read More
2024-06-04 talkingdev

FineWeb:高质量网络规模文本数据集发布

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而,FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集,用于语言模型训练。...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page