漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-19 talkingdev

[论文推荐]AI智能体任务成功率存在半衰期?科学家发现指数级衰减规律

最新研究发现,AI智能体在执行长时间任务时的成功率遵循一个惊人的简单数学模型——每分钟的失败率保持恒定,这意味着任务成功率会随任务时长呈指数级下降。该研究通过数学建模揭示,当人类完成相同任务需要的时间每增...

Read More
2025-06-17 talkingdev

CoRT-通过代码解释器增强大模型推理能力

GitHub最新开源项目CoRT(Code Interpreter Reasoning)提出了一种创新的方法,通过提示工程(hint engineering)对大语言模型进行后训练(post-train),使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

Read More
2025-06-17 talkingdev

OpenAI提出AI情感边界:温暖但非生命体

OpenAI模型行为与政策负责人近日阐述了公司对用户与ChatGPT建立情感连接现象的管理策略。尽管从科学角度尚无法证实AI是否具备意识,OpenAI明确表示要避免在缺乏证据的情况下让用户误认为AI模型具有感知能力。该公司...

Read More
2025-06-13 talkingdev

谷歌推出新型AI模型及气象预报平台,可预测热带风暴

谷歌旗下DeepMind与谷歌研究院联合推出名为Weather Lab的全新平台,旨在分享其AI气象预测模型的最新成果,其中包括一项实验性的热带气旋预报模型。这一突破性技术将机器学习与气象科学深度融合,通过分析海量气象数...

Read More
2025-06-11 talkingdev

OpenAI发布o3-pro模型:性能升级且价格大幅下调80%

OpenAI正式推出o3-pro模型,作为o3模型的迭代升级版本,该模型在科学计算、编程辅助及商业任务处理能力上均有显著提升。值得注意的是,OpenAI此次将o3-pro的定价策略调整为降价80%,大幅降低企业及开发者的使用门槛...

Read More
2025-06-09 talkingdev

苹果研究揭示大型推理模型的思维假象:高复杂度下性能崩溃

苹果公司研究团队通过定制化谜题环境对大型推理模型(LRMs)进行了系统性评估,揭示了人工智能推理能力的重要局限性。研究发现,随着任务复杂度提升,LRMs会经历推理效能先上升后急剧下降的拐点现象,最终在高度复杂任...

Read More
2025-06-05 talkingdev

[开源]科学推理基准测试(GitHub Repo):239个问题挑战大语言模型科学推理能力

该GitHub仓库发布了一个包含239个科学推理问题的基准测试集,专门用于评估大语言模型(LLMs)在科学推理任务中的表现,特别是超越简单记忆的方程发现能力。这一基准测试的推出标志着AI领域对模型深层科学理解能力的量...

Read More
2025-05-25 talkingdev

[开源] 开源社会大学(OSSU)推出免费自学计算机科学路径

开源社会大学(Open Source Society University, OSSU)在GitHub上发布了一个全面的自学计算机科学教育路径,该项目旨在为自学者提供一条系统性的学习路线。该路径涵盖了从计算机科学基础到高级主题的全部内容,包括编...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page