漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-19 talkingdev

苹果研究团队在多模态人工智能领域取得重大突破

苹果公司的研究团队近期在人工智能领域实现了创新性进展,他们开发出了一种能够在文本和图像上同时训练大型语言模型的方法。这一成就推动了多模态AI任务在性能上的显著提升,达到了艺术级水平。所谓多模态AI,指的是...

Read More
2024-03-18 talkingdev

探索LLM推理的“光速”极限

本文深入探讨了基于变换器的语言模型推理的“光速”理论极限,强调了内存带宽相较于计算能力的重要性。文章通过实例展示了推理速度主要受限于从内存中读取数据的能力,而非执行计算的速度,这对于优化和理解AI性能是一...

Read More
2024-03-18 talkingdev

AMD GPU上的多节点大型语言模型训练解析

本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台,以优化模型训练的性能和...

Read More
2024-03-18 talkingdev

Cappy:小型评分器如何超越大型多任务语言模型

Cappy是一款小型模型,专门设计用于接收指令和候选完成,然后为完成度打分,以衡量其完成指令的程度。在这项任务上,Cappy的表现超越了许多更大的模型,这表明它可能作为训练和生成过程中的一个反馈机制。Cappy的成...

Read More
2024-03-18 talkingdev

pg_hint_plan:为PostgreSQL执行计划优化提供新策略

开源项目pg_hint_plan为开发者提供了一种新的方法,通过在SQL注释中使用提示来调整PostgreSQL的执行计划。在PostgreSQL中,规划器通过成本基优化器估算每个可能的执行计划的成本,并执行成本最低的计划。尽管Postgre...

Read More
2024-03-15 talkingdev

LiveCodeBench:对大型编程语言模型进行全面无污染的评估

评估训练编程语言模型的性能是一个具有挑战性的任务。大多数人使用OpenAI的HumanEval。然而,一些开放的模型似乎会过度拟合到这个基准。LiveCodeBench是一种测量编程性能的方法,同时减轻污染问题。

Read More
2024-03-15 talkingdev

Branch-Train-MiX:将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型。

Read More
2024-03-15 talkingdev

HTTP/2和HTTP/3详解

HTTP协议的第一个草案只有一种方法,即GET,没有头部或状态代码,唯一可用的数据格式是HTML。从那时起,协议已经发生了重大变化。 HTTP/3专为不稳定的连接而设计,因此需要在性能上做出一些权衡。 HTTP/2在可靠和稳...

Read More
2024-03-14 talkingdev

SemCity:通过3D扩散模型实现真实世界室外场景生成

由于室外数据的复杂性和空白性,真实世界的室外环境一直是3D场景生成中被忽视的挑战。SemCity通过专注于真实世界的室外环境,彻底颠覆了3D场景生成,实现了真实的室外场景生成。SemCity通过3D扩散模型,将真实世界的...

Read More
2024-03-14 talkingdev

MoAI:整合视觉任务信息的增强型语言模型

MoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...

Read More
  1. Prev Page
  2. 53
  3. 54
  4. 55
  5. Next Page