大语言模型的相关内容 - 漫话开发者

2026-01-08 talkingdev

AI评测平台LMArena被指为“行业毒瘤”：奖励形式而非事实，或致模型集体“幻觉”

近期，AI评测领域引发了一场关于评估标准与行业健康发展的激烈讨论。知名在线AI模型排行榜LMArena被批评为一个“破碎的系统”，其核心问题在于评估机制存在严重缺陷。该平台通过用户快速投票进行排名，但用户往往仅根...

2026-01-08 talkingdev

近日，研究人员推出了迄今为止最大规模的开源环境WebGym，专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性：人工合成或小规模任务集无法应对真实网站的多样性和非...

2026-01-07 talkingdev

近日，一个名为Pi Coding Agent的开源项目在GitHub上发布，为开发者提供了一个功能强大的终端AI编程助手。该项目旨在解决无头（headless）编程任务，支持在macOS、Linux和Windows三大主流操作系统上运行。其核心亮点...

2026-01-01 talkingdev

根据年度回顾分析，2025年是大语言模型（LLM）发展史上具有里程碑意义的一年。核心技术突破体现在模型获得了真正的“推理”能力，使其能够处理复杂的多步骤任务，这直接推动了高性能AI智能体的广泛应用。其中，“编码智...

2025-12-31 talkingdev

据《南华早报》记者Wency Chen援引知情人士消息，中国科技巨头字节跳动计划在2026年投入约140亿美元用于采购英伟达的人工智能芯片，这一预算较2025年预计支出增长约18%，折合人民币约1000亿元。这一巨额投资计划直接...

2025-12-25 talkingdev

据CNBC独家报道，全球人工智能芯片巨头英伟达（Nvidia）正在进行其有史以来规模最大的一笔收购，将以约200亿美元的现金，收购成立九年的AI芯片初创公司Groq的资产。这笔交易不仅刷新了英伟达自身的收购纪录，也成为...

2025-12-23 talkingdev

人工智能开源领域迎来重要进展。知名开源力量MiniMax推出的最新模型M2.1现已正式在Kilo平台上线。根据官方信息，M2.1在多项关键基准测试中表现优异，其性能已超越国内同行DeepSeek和Kimi等知名模型。更值得关注的是...

2025-12-23 talkingdev

近日，智谱AI正式发布了其通用语言模型系列的最新力作——GLM-4.7。作为一款高端基础模型，GLM-4.7的核心定位在于处理复杂的推理任务、专业级代码生成以及多模态工作负载。相较于前代版本，此次更新在多个维度实现了显...