Meta(原Facebook)旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架,旨在系统性地量化大型语言模型(LLM)代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务,每个...
Read MoreCursor公司近日详细披露了其AI驱动的代码审查智能体Bugbot的系统性优化历程。Bugbot专为在代码拉取请求中识别逻辑错误、性能问题和安全漏洞而设计,其发展路径标志着AI辅助开发工具从依赖定性反馈到建立量化评估体系...
Read More近日,一个名为Open Chaos的开源项目在技术社区引发了广泛关注。该项目定位为一个“自我演化”的开源项目,其核心理念在于构建一个能够根据社区贡献、用户反馈和环境变化而自主适应、持续进化的软件系统。这标志着开源...
Read More一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...
Read More据《纽约时报》记者Lora Kelley报道,在人工智能技术迅猛发展的时代背景下,近期涌现出一股引人注目的企业战略转型浪潮。包括Airtable、Handshake和Opendoor在内的多家知名科技公司,相继公开宣布正在进行“重构”或“...
Read MoreOpenAI正在开发一项名为‘群聊’的新功能,将允许多个用户加入同一对话线程,实现用户间及用户与AI的实时互动。该功能突破传统单用户对话模式,支持团队通过定制系统提示词框定讨论方向,并可手动控制AI介入时机,例如...
Read More加州大学伯克利分校研究团队开发的进化编码智能体OpenEvolve,成功将大型语言模型转化为自主代码优化器,在混合专家模型负载平衡任务中取得重大突破。该系统通过模拟自然选择机制,使LLM能够自主探索算法空间,最终...
Read More在近期播客访谈中,OpenAI创始研究员、AI领域权威安德烈·卡帕西针对通用人工智能发展路径提出关键见解。他系统阐述了AGI实现时间线的技术瓶颈,指出当前模型仍处于‘动物级’感知智能阶段,距离具备抽象推理能力的‘幽...
Read More