漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-20 talkingdev

语言模型推理经济学:为何当前扩展方法遭遇瓶颈

首份关于大语言模型(LLM)服务经济学的综合模型揭示,随着AI公司竞相部署高token消耗的推理模型和智能体,当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现,网络延迟而非带宽成为主要瓶颈,阻碍了公司通过简单...

Read More
2025-06-06 talkingdev

Tokasaurus:专为高吞吐量工作负载优化的大型语言模型推理引擎

Tokasaurus是一款针对高吞吐量工作负载优化的大型语言模型(LLM)推理引擎,由斯坦福大学Scaling Intelligence团队研发。该引擎通过创新的架构设计和算法优化,显著提升了LLM在批量处理任务时的计算效率,为需要大规...

Read More
2025-05-16 talkingdev

开源OpenThinkIMG:视觉语言模型推理与分布式部署工具库

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...

Read More
2025-05-01 talkingdev

[论文推荐]研究人员发现通过表征控制向量可调节大语言模型推理能力

最新研究表明,通过在大语言模型(LLM)的残差流中实施简单的表征控制向量干预,可显著调节其推理性能。这项发表于arXiv的突破性研究揭示了神经网络内部表征与逻辑推理能力的直接关联,为可解释AI领域提供了新工具。...

Read More
2025-03-17 talkingdev

[开源] Visual reasoning models:提升视觉语言模型推理能力的新工具包

近日,GitHub上发布了一个名为'Visual reasoning models'的开源工具包,旨在训练视觉语言模型(VLMs)以提升其基础逻辑和推理能力。该工具包由groundlight团队开发,主要专注于增强模型在处理复杂视觉数据时的理解和...

Read More
2025-02-17 talkingdev

CodeI/O:通过代码输入输出预测提升大语言模型推理能力

近日,CodeI/O技术通过将代码转换为输入输出预测格式,显著提升了大语言模型(LLM)的推理能力。该方法通过教授通用推理原则,而非依赖代码语法,从而在多种推理任务中实现了性能优化。此外,通过多轮修订进一步验证...

Read More
2024-12-25 talkingdev

AMD GPU优化助力大型语言模型推理性能

2023年,AMD针对其图形处理单元(GPU)进行了优化,以增强其在大型语言模型(LLM)推理任务中的竞争力。这项优化涉及到硬件和软件层面的协同工作,使得AMD的GPU在处理复杂的机器学习任务时能提供更好的性能和效率。...

Read More
2024-12-02 talkingdev

论文:预训练中的程序性知识提升LLM的推理能力

最新研究显示,大型语言模型(LLM)的推理能力得益于预训练阶段发展出的程序性知识。程序性知识指的是一系列规则和步骤,这些知识在预训练过程中被模型学习并内化,进而在后续任务中被用来指导推理。这一发现强调了...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page