漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-23 talkingdev

字节跳动加码AI军备竞赛:计划2026年投入1600亿人民币,其中超120亿美元专攻AI处理器

据《金融时报》援引知情人士消息,TikTok母公司字节跳动已制定初步计划,将在人工智能领域进行大规模资本支出。根据该计划,字节跳动2026年用于AI的资本支出(capex)预计将达到约1600亿元人民币(约合230亿美元),...

Read More
2025-12-23 talkingdev

图解Transformer经典:让复杂架构一目了然

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

Read More
2025-12-22 talkingdev

开源|Claude技能库新突破:告别“AI美学”生成专业级前端界面

近日,GitHub Gist上出现了一项名为“Claude's frontend design skill”的AI技能,标志着生成式AI在专业前端开发领域的应用迈出了重要一步。该技能的核心目标在于解决当前AI生成界面普遍存在的“通用化美学”问题,即缺...

Read More
2025-12-22 talkingdev

卡帕西年度回顾:2025年大语言模型的五大范式变革

人工智能领域知名专家安德烈·卡帕西(Andrej Karpathy)近期发布了其对2025年大语言模型(LLM)发展的年度回顾,系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出,技术演进的核心驱动力已从单纯追求模...

Read More
2025-12-22 talkingdev

AI基准测试的真相:如何解读前沿模型发布的SOTA分数?

在人工智能领域,基准测试分数已成为衡量模型性能和市场宣传的核心指标,但其解读却普遍存在误区。当前行业叙事往往暗示模型智能水平呈现普遍性提升,然而单一的基准分数可能具有误导性,无法全面反映模型在真实、复...

Read More
2025-12-22 talkingdev

AI智能体记忆瓶颈破局:评估上下文压缩策略,结构化摘要表现优异

当AI智能体协助用户处理横跨数百条消息的复杂任务时,一旦其上下文窗口耗尽,是能够继续高效工作,还是被迫从头开始?这直接决定了智能体的实用性与可靠性。Factory.ai的最新研究深入探讨了这一问题,并提出了一套评...

Read More
2025-12-22 talkingdev

开源Bloom工具:自动化评估AI模型行为,提升安全性与可解释性

Anthropic近日开源了名为Bloom的工具,这是一个专门用于对AI模型进行自动化行为评估的开源解决方案。该工具通过创建特定场景并量化不同模型中的行为发生率,能够系统性地评估如自我偏好偏见、蓄意破坏等具体行为模式...

Read More
2025-12-21 talkingdev

评估报告:Claude Opus 4.5任务处理“半衰期”达4小时49分,性能较前代翻倍

人工智能模型评估机构METR发布的最新数据显示,Anthropic公司推出的Claude Opus 4.5大型语言模型在任务处理时效性上取得了显著突破。根据METR的评估框架,Claude Opus 4.5的“50%任务完成时间视界”约为4小时49分钟,...

Read More
  1. Prev Page
  2. 58
  3. 59
  4. 60
  5. Next Page