模型的相关内容 - 漫话开发者

2025-12-23 talkingdev

字节跳动加码AI军备竞赛：计划2026年投入1600亿人民币，其中超120亿美元专攻AI处理器

据《金融时报》援引知情人士消息，TikTok母公司字节跳动已制定初步计划，将在人工智能领域进行大规模资本支出。根据该计划，字节跳动2026年用于AI的资本支出（capex）预计将达到约1600亿元人民币（约合230亿美元），...

2025-12-23 talkingdev

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注，该博客由jalammar撰写，通过大量直观的图示和清晰的解释，深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

2025-12-22 talkingdev

近日，GitHub Gist上出现了一项名为“Claude's frontend design skill”的AI技能，标志着生成式AI在专业前端开发领域的应用迈出了重要一步。该技能的核心目标在于解决当前AI生成界面普遍存在的“通用化美学”问题，即缺...

2025-12-22 talkingdev

人工智能领域知名专家安德烈·卡帕西（Andrej Karpathy）近期发布了其对2025年大语言模型（LLM）发展的年度回顾，系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出，技术演进的核心驱动力已从单纯追求模...

2025-12-22 talkingdev

在人工智能领域，基准测试分数已成为衡量模型性能和市场宣传的核心指标，但其解读却普遍存在误区。当前行业叙事往往暗示模型智能水平呈现普遍性提升，然而单一的基准分数可能具有误导性，无法全面反映模型在真实、复...

2025-12-22 talkingdev

当AI智能体协助用户处理横跨数百条消息的复杂任务时，一旦其上下文窗口耗尽，是能够继续高效工作，还是被迫从头开始？这直接决定了智能体的实用性与可靠性。Factory.ai的最新研究深入探讨了这一问题，并提出了一套评...

2025-12-22 talkingdev

Anthropic近日开源了名为Bloom的工具，这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率，能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...

2025-12-21 talkingdev

人工智能模型评估机构METR发布的最新数据显示，Anthropic公司推出的Claude Opus 4.5大型语言模型在任务处理时效性上取得了显著突破。根据METR的评估框架，Claude Opus 4.5的“50%任务完成时间视界”约为4小时49分钟，...