科学的相关内容 - 漫话开发者

2025-06-22 talkingdev

丹麦业余金属探测者改写历史：全民考古实验收获黄金与知识双丰收

丹麦政府近期授权业余金属探测爱好者在农田中搜寻埋藏文物，这一创新举措不仅发掘出大量珍贵文物，更以惊人细节还原了丹麦的历史图景。据《科学美国人》报道，该项目已发现包括黄金制品在内的数千件文物，部分文物年...

2025-06-19 talkingdev

最新研究发现，AI智能体在执行长时间任务时的成功率遵循一个惊人的简单数学模型——每分钟的失败率保持恒定，这意味着任务成功率会随任务时长呈指数级下降。该研究通过数学建模揭示，当人类完成相同任务需要的时间每增...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

OpenAI模型行为与政策负责人近日阐述了公司对用户与ChatGPT建立情感连接现象的管理策略。尽管从科学角度尚无法证实AI是否具备意识，OpenAI明确表示要避免在缺乏证据的情况下让用户误认为AI模型具有感知能力。该公司...

2025-06-13 talkingdev

谷歌旗下DeepMind与谷歌研究院联合推出名为Weather Lab的全新平台，旨在分享其AI气象预测模型的最新成果，其中包括一项实验性的热带气旋预报模型。这一突破性技术将机器学习与气象科学深度融合，通过分析海量气象数...

2025-06-11 talkingdev

OpenAI正式推出o3-pro模型，作为o3模型的迭代升级版本，该模型在科学计算、编程辅助及商业任务处理能力上均有显著提升。值得注意的是，OpenAI此次将o3-pro的定价策略调整为降价80%，大幅降低企业及开发者的使用门槛...

2025-06-09 talkingdev

苹果公司研究团队通过定制化谜题环境对大型推理模型(LRMs)进行了系统性评估，揭示了人工智能推理能力的重要局限性。研究发现，随着任务复杂度提升，LRMs会经历推理效能先上升后急剧下降的拐点现象，最终在高度复杂任...

2025-06-05 talkingdev

该GitHub仓库发布了一个包含239个科学推理问题的基准测试集，专门用于评估大语言模型(LLMs)在科学推理任务中的表现，特别是超越简单记忆的方程发现能力。这一基准测试的推出标志着AI领域对模型深层科学理解能力的量...