漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-30 talkingdev

Latent Diffusion突破文本推理瓶颈:苹果LaDiR框架让LLM思考更缜密

苹果机器学习研究团队提出了一种名为LaDiR(Latent Diffusion Reasoner)的创新推理框架,为大型语言模型(LLM)的文本推理能力带来了显著提升。LaDiR框架的核心在于巧妙地将连续潜在表示的强大表现力与潜在扩散模型...

Read More
2026-04-30 talkingdev

DeepSpeed整合AutoSP:自动序列并行技术,轻松训练超长上下文LLM

PyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...

Read More
2026-04-30 talkingdev

AI模型评估正成为新的算力瓶颈,成本高达数万美元

随着人工智能大模型规模的不断增长,模型评估(Eval)环节正在迅速演变为一个新的计算瓶颈,其成本在某些情况下甚至已经逼近甚至超过了模型训练的开销。根据最新的行业分析,一次全面的AI评估运行费用可能高达数万美...

Read More
2026-04-30 talkingdev

Mistral Medium 3.5发布:128B密集模型驱动云端异步编程,性能登顶SWE-Bench

Mistral AI最新发布了Mistral Medium 3.5模型,这是一款拥有1280亿参数的密集模型(128B dense model),专为驱动远程Vibe代理而设计,能够在云端执行长时间、异步的编码任务,用户可直接从命令行界面(CLI)或Le Ch...

Read More
2026-04-30 talkingdev

OpenAI 转向灵活算力租赁,星际之门巨型数据中心计划名存实亡

据最新报道,OpenAI 已实质上放弃了最初雄心勃勃的“星际之门”(Stargate)自建超大规模数据中心集群计划。该计划最初宣称要建设20个巨型数据中心,但据报道,由于项目合作方在数据中心的最终控制权上无法达成一致,...

Read More
2026-04-30 talkingdev

开源| Claude Code惊现“HERMES”魔咒:提交信息含此词竟触发额外计费

近日,一则关于Anthropic旗下AI编程工具Claude Code的严重Bug在开发者社区引发轩然大波。据GitHub Issue #53262报告,当用户在Git提交信息中写入“HERMES”一词时,Claude Code会错误地将本次请求路由至一个额外的、可...

Read More
2026-04-29 talkingdev

Poolside发布Laguna系列编程模型:开源XS.2小而强,旗舰M.1专注长周期任务

人工智能编程领域迎来新玩家,初创公司Poolside正式发布Laguna系列编程模型,包含Laguna M.1与Laguna XS.2两款产品。其中Laguna M.1作为该系列的旗舰基础模型,专为长周期、复杂推理的编程任务设计(Long-horizon co...

Read More
2026-04-29 talkingdev

NVIDIA发布Nemotron 3 Nano Omni:多模态AI新突破,长上下文处理能力引领文档、音频与视频智能分析

NVIDIA日前发布了名为Nemotron 3 Nano Omni的全新多模态模型,标志着其在长上下文多模态智能领域的重要进展。该模型专为文档、音频和视频分析设计,在MMlongbench-Doc和VoiceBench等多个权威基准测试中均取得了业界...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page