漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-14 talkingdev

谷歌Deep Research API即将问世,AI驱动的复杂研究任务自动化时代来临

谷歌Gemini Deep Research团队正在开发名为Deep Research API的创新工具,该技术将彻底改变传统研究模式。这一API具备强大的自动化研究能力,可在几分钟内完成数百个网站的智能浏览、信息深度分析及生成多页洞察报告...

Read More
2025-08-04 talkingdev

Anthropic研究:人格向量技术实现语言模型性格特征的监测与控制

Anthropic研究人员通过对比神经网络在展现特定性格特征与未展现时的活动差异,成功提取出"人格向量",揭示了语言模型性格变化遵循可预测的数学规律。这一突破性发现促成了一种反直觉的"疫苗接种"式训练方法——在训练...

Read More
2025-07-28 talkingdev

CollabLLM:让语言模型从被动响应者转为主动协作的开源框架

CollabLLM是一个开源框架,旨在训练语言模型提出战略性问题和引导对话,而非做出假设。该框架采用了一种名为'多轮感知奖励'的创新机制,该机制基于对话结果的长期影响而非即时帮助性来评估响应。这一方法标志着对话...

Read More
2025-07-23 talkingdev

ARC-AGI-3:首个评估AI类人智能的基准测试即将于2026年推出

ARC-AGI-3是一项突破性的评估基准,旨在通过测量AI系统在新颖、未见过的环境中的技能获取效率,来评估其泛化能力和智能水平。该基准利用游戏环境作为测试媒介,为评估经验驱动的能力提供了丰富的平台。ARC-AGI-3的独...

Read More
2025-07-19 talkingdev

扎克伯格重金挖角OpenAI:向10余名研究员开出3亿美元四年薪酬包,并接触知名研究员Mark Chen

据《华尔街日报》报道,Meta CEO马克·扎克伯格近期发起了一场针对OpenAI顶尖研究人员的激烈挖角行动。消息人士透露,扎克伯格已向超过10名OpenAI研究人员提供了总额达3亿美元的四年期薪酬方案,平均每人每年可获得约...

Read More
2025-07-18 talkingdev

Hugging Face推出FutureBench:评估AI代理预测未来事件的能力

Hugging Face最新推出的FutureBench是一个专门用于测试AI代理在预测未来事件方面能力的基准测试平台。该平台覆盖科学、地缘政治和技术等多个领域,旨在评估AI系统在复杂多变的环境中预测未来趋势的准确性和可靠性。F...

Read More
2025-07-14 talkingdev

卡帕西观点:强化学习规模化应用前景广阔,S曲线机遇在大模型

深度学习领域知名专家安德鲁·卡帕西(Andrej Karpathy)近日就强化学习(RL)的规模化应用趋势发表了深刻见解,指出RL的扩展性已成为当前AI研究的焦点。他强调,强化学习在得当的运用下,能够展现出远超监督式微调的...

Read More
2025-07-08 talkingdev

[开源]Helicone推出开源LLM可观测性平台:一行代码实现监控、评估与实验

开源项目Helicone近日发布了一款专为大型语言模型(LLM)设计的可观测性平台,该平台仅需一行代码即可实现对LLM的监控、评估和实验功能。作为Y Combinator W23批次的入选项目,Helicone致力于为开发者和企业提供高效...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page