漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-01 talkingdev

开源|ENACT基准发布:以第一人称世界模型评估具身认知能力

近日,一个名为ENACT的新型基准测试在人工智能与认知科学交叉领域引发关注。该基准旨在通过第一人称视角的世界建模来系统评估智能体的具身认知能力。具身认知理论认为,智能体的认知过程与其物理身体及与环境的实时...

Read More
2025-11-21 talkingdev

开源|Cline推出cline-bench:首个基于真实开发场景的智能体编码开源基准

人工智能研究机构Cline近日发布开源项目cline-bench,旨在构建源自真实开源开发场景的高保真度基准测试与强化学习环境。当前AI模型在代码生成领域虽取得显著进展,但业界始终缺乏能够准确反映实际工程约束的标准化评...

Read More
2025-11-18 talkingdev

AA-Omniscience基准发布:Claude 4.1 Opus在40+主题知识幻觉测试中夺魁

人工智能评估机构Artificial Analysis最新推出AA-Omniscience基准测试体系,该体系针对40余个专业领域的大语言模型知识储备与幻觉现象进行系统性评估。测试结果显示,在关键指标上仅有三个模型能够保持正确回答率高...

Read More
2025-10-17 talkingdev

Gemini 3.0通过A/B测试意外曝光:SVG生成质量成关键指标

近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...

Read More
2025-09-19 talkingdev

GPT-5重大更新:模型具备时间感知能力,安全测试面临新挑战

OpenAI最新发布的GPT-5 API展现出突破性特性——该模型成为首个具备实时时间感知能力的大型语言模型。这一技术演进引发学术界高度关注,因为当模型知晓当前日期时,能够识别出自身正处于测试环境中。研究表明,AI模型...

Read More
2025-09-17 talkingdev

谷歌发布Genkit Go 1.0:开源AI开发框架正式投入生产环境,同步推出AI辅助编程工具

谷歌开发者博客正式宣布Genkit Go 1.0开源AI开发框架达到生产就绪状态,这是专为Go语言打造的企业级AI应用开发解决方案。该框架支持快速构建、测试和部署生成式AI应用,集成了Firebase、Google Cloud等云服务生态。...

Read More
2025-09-15 talkingdev

LLM后训练全流程深度解析:从SFT到RLHF与评估最佳实践

这篇技术长文系统性地剖析了大语言模型(LLM)的后训练完整生命周期,涵盖了监督微调(SFT)、奖励建模(Reward Modeling)以及强化学习方法(如RLHF)三大核心阶段。作者不仅详细阐述了如何通过人类反馈的强化学习...

Read More
2025-08-28 talkingdev

OpenAI与Anthropic达成AI安全互测协议,共筑行业安全新标准

OpenAI与Anthropic近日达成一项突破性合作,双方开放内部API接口进行交叉安全测试,旨在通过第三方视角发现彼此模型评估中的盲点。这一举措标志着AI行业从封闭式自查向开放式协作安全验证的重要转变。通过技术互鉴,...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page