漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-28 talkingdev

CollabLLM:让语言模型从被动响应者转为主动协作的开源框架

CollabLLM是一个开源框架,旨在训练语言模型提出战略性问题和引导对话,而非做出假设。该框架采用了一种名为'多轮感知奖励'的创新机制,该机制基于对话结果的长期影响而非即时帮助性来评估响应。这一方法标志着对话...

Read More
2025-07-23 talkingdev

ARC-AGI-3:首个评估AI类人智能的基准测试即将于2026年推出

ARC-AGI-3是一项突破性的评估基准,旨在通过测量AI系统在新颖、未见过的环境中的技能获取效率,来评估其泛化能力和智能水平。该基准利用游戏环境作为测试媒介,为评估经验驱动的能力提供了丰富的平台。ARC-AGI-3的独...

Read More
2025-07-19 talkingdev

扎克伯格重金挖角OpenAI:向10余名研究员开出3亿美元四年薪酬包,并接触知名研究员Mark Chen

据《华尔街日报》报道,Meta CEO马克·扎克伯格近期发起了一场针对OpenAI顶尖研究人员的激烈挖角行动。消息人士透露,扎克伯格已向超过10名OpenAI研究人员提供了总额达3亿美元的四年期薪酬方案,平均每人每年可获得约...

Read More
2025-07-18 talkingdev

Hugging Face推出FutureBench:评估AI代理预测未来事件的能力

Hugging Face最新推出的FutureBench是一个专门用于测试AI代理在预测未来事件方面能力的基准测试平台。该平台覆盖科学、地缘政治和技术等多个领域,旨在评估AI系统在复杂多变的环境中预测未来趋势的准确性和可靠性。F...

Read More
2025-07-14 talkingdev

卡帕西观点:强化学习规模化应用前景广阔,S曲线机遇在大模型

深度学习领域知名专家安德鲁·卡帕西(Andrej Karpathy)近日就强化学习(RL)的规模化应用趋势发表了深刻见解,指出RL的扩展性已成为当前AI研究的焦点。他强调,强化学习在得当的运用下,能够展现出远超监督式微调的...

Read More
2025-07-08 talkingdev

[开源]Helicone推出开源LLM可观测性平台:一行代码实现监控、评估与实验

开源项目Helicone近日发布了一款专为大型语言模型(LLM)设计的可观测性平台,该平台仅需一行代码即可实现对LLM的监控、评估和实验功能。作为Y Combinator W23批次的入选项目,Helicone致力于为开发者和企业提供高效...

Read More
2025-06-30 talkingdev

[开源]Genesys:通过遗传编程自动发现更优语言模型架构的LLM智能体系统

艾伦人工智能研究所(Allen Institute for AI)近日开源了Genesys项目,这是一个基于分布式进化系统的创新框架。该系统利用大型语言模型(LLM)作为智能体,通过遗传编程技术自动探索和发现更优的语言模型架构。这一...

Read More
2025-06-27 talkingdev

Meta挖角OpenAI强化学习先驱,加速超级智能研发

据最新报道,Meta已秘密招募OpenAI前强化学习专家Trapit Bansal加入其新成立的AI超级智能部门。这一动作虽未获官方确认,但业内人士分析指出,Bansal的加盟将显著提升Meta在前沿推理模型领域的研发能力。作为深度强...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page