漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-29 talkingdev

Agent Judge:为生产级智能体打造的长上下文评测新范式

在生产环境中部署基于大语言模型(LLM)的智能体(Agent)时,如何准确评估其在复杂、长上下文任务中的表现一直是个难题。传统LLM评测员(Judge)在处理涉及多步推理、状态验证和动态调整的Agent轨迹时,常出现事实...

Read More
2026-05-06 talkingdev

12百万token上下文窗口被打破:Subquadratic发布超长上下文AI模型

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日,初创公司Subquadratic宣布推出一款全新的AI模型,其上下文窗口达到了惊人的1200万token(约合1200万个单词或代码标记),远超过当前主流模...

Read More
2026-04-30 talkingdev

DeepSpeed整合AutoSP:自动序列并行技术,轻松训练超长上下文LLM

PyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
2026-04-29 talkingdev

Claude Opus 4.7新分词器上线:输入成本最高上涨27%,短提示词反降价

Anthropic近日通过引入全新分词器(Tokenizer),对其最新旗舰模型Claude Opus 4.7进行了核心升级。此次优化显著提升了模型对输入文本的理解精度,但同时也带来了一个直接影响用户的改变:成本结构调整。虽然模型的...

Read More
2026-04-23 talkingdev

AI推理新挑战:基准测试揭示智能体工作负载对引擎性能的深层影响

随着人工智能向智能体(Agent)方向演进,传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答,而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力,尤其...

Read More
2026-04-21 talkingdev

月之暗面发布Kimi K2.6系列模型,宣称多项基准超越GPT-5.4与Claude Opus

中国人工智能公司月之暗面(Moonshot AI)近日正式推出其新一代大模型系列Kimi K2.6,并已在Kimi Chat对话平台及API接口上线。该系列模型的核心突破在于强化了长上下文编程能力与智能体(Agent)执行支持,旨在为开...

Read More
2026-04-08 talkingdev

开源|TriAttention:基于三角函数的KV缓存压缩技术,助力大模型长上下文推理在内存受限GPU上本地部署

近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page