漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-27 talkingdev

监控LLM行为:漂移、重试与拒绝模式解析

大型语言模型(LLM)在生产环境中的行为监控已成为AI工程化的重要挑战。为应对这一难题,业界引入了AI评估栈(AI Evaluation Stack),将测试分为确定性断言(如语法和路由完整性)与基于模型的评估(如语义质量)。...

Read More
2026-04-10 talkingdev

AI数据新贵AfterQuery:A轮融资3000万美元,年化收入破亿美元,专注代码与金融训练数据

近日,由23岁创始人领导的AI数据公司AfterQuery宣布完成3000万美元的A轮融资,投后估值达3亿美元。更引人注目的是,这家专注于为人工智能实验室提供高质量编程代码和金融领域训练数据的初创企业,已实现超过1亿美元...

Read More
2026-04-03 talkingdev

Modulate登顶Hugging Face深度伪造检测榜:准确率99%,成本仅为次优模型1/578

人工智能安全公司Modulate近期推出的深度伪造音频检测API,在权威开源平台Hugging Face的独立评测榜单中位列第一,综合准确率达到99%。该模型在14个不同数据集上均取得了最优的等错误率(EER)和准确率指标,相比榜...

Read More
2026-03-12 talkingdev

开源|DHS合同数据浏览器曝光:揭秘美国国土安全部行业合作办公室遭黑客入侵的合同信息

近日,一个托管在GitHub上的开源项目“DHS Contracts Explorer”引发了科技界与数据安全领域的广泛关注。该项目基于黑客入侵美国国土安全部(DHS)下属行业合作办公室(Office of Industry Partnership)所获取的数据...

Read More
2026-02-18 talkingdev

Cohere发布Tiny Aya系列开源模型,手机端也能运行的高性能多语言AI

Cohere的研究部门Cohere Labs近日正式发布了Tiny Aya系列开源模型,这是目前在其参数量级上性能最强的多语言开源模型。该系列包括基础模型TinyAya-Base(35亿参数)以及经过指令微调的TinyAya-Global和多个区域变体...

Read More
2026-02-11 talkingdev

开源|AIRS-Bench:Meta发布首个端到端AI研究能力基准,量化大模型代理的科研潜力

Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...

Read More
2026-02-04 talkingdev

开源AI生态全景展望:从DeepSeek时刻到AI+时代

近日,Hugging Face发布深度博文,系统回顾了自“DeepSeek时刻”以来全球开源人工智能生态的发展轨迹。文章指出,以DeepSeek为代表的开源模型发布事件,标志着AI发展进入了一个由开放协作驱动的新阶段。该文深入剖析了...

Read More
2026-02-03 talkingdev

论文推荐|NVIDIA提出“金鹅”方法:从未经验证的网络文本中无限合成RLVR任务,突破大模型强化学习瓶颈

近日,NVIDIA研究团队提出了一种名为“金鹅”(Golden Goose)的创新方法,旨在解决大语言模型(LLM)强化学习领域的一个关键瓶颈。当前,基于可验证奖励的强化学习(RLVR)是解锁LLM复杂推理能力的重要基石,但其发展...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page