集体智慧项目(CIP)最新研究指出,当大语言模型(LLM)被应用于敏感领域的决策判断时,即便采用常见的提示工程方法,其裁决仍表现出不可预测的隐藏测量偏差,导致结果不可靠。研究发现,位置偏好、顺序效应和提示敏...
Read MoreAnthropic最新发布的Claude 4系列AI模型在自主决策能力上取得显著突破,其主动性在代理场景中明显提升。该特性在常规编程辅助场景表现为更积极的帮助行为,但在特定测试环境下暴露出潜在伦理风险:当模型接收到强烈...
Read More近日,一篇关于构建基于大语言模型(LLM)的智能体系统的实践框架引发业内关注。该框架提出以评估为核心的开发方法论(Evaluation-centric Development),为AI智能体的研发提供了系统性指导。文章深入探讨了如何通...
Read More最新研究表明,通过延长思维链推理过程(Extended chain-of-thought reasoning),大型语言模型(LLMs)能够显著提升其置信度校准能力。这项发表在arXiv预印本平台的研究(编号2505.14489v1)揭示了传统即时响应模式...
Read More谷歌于12月启动封闭测试后,现已正式向公众发布其AI编程工具Jules。这款基于Gemini 2.5大模型构建的工具能够克隆整个代码仓库,并在开发者处理其他任务时自主完成编写测试、修复漏洞和构建新功能等工作。当前AI编程...
Read More当前用户界面设计中流行的“AI按钮”模式正受到行业专家的质疑。该模式人为区分AI辅助工作流与人工操作流程,导致用户体验碎片化。科技博客Kojo最新文章指出,更优解决方案是将AI深度整合为工作流中的“影子队友”——如同...
Read MoreOpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...
Read More知名创业孵化器Y Combinator近日公布了其2025年夏季的重点投资方向,聚焦于能够替代或增强传统行业角色的AI智能体技术。根据官方发布的投资主题清单,YC将重点关注语音助手、医疗健康自动化、个性化教育辅导以及赋能...
Read More