GPT的相关内容 - 漫话开发者

2025-04-21 talkingdev

[开源]ZeroSumEval Benchmark：多智能体对抗框架重塑大语言模型评估标准

Meta旗下Facebook Research团队推出的ZeroSumEval Benchmark在GitHub开源，这一动态评估框架通过竞争性多智能体模拟，为大语言模型（LLM）在推理、知识储备和规划任务等核心能力维度建立了全新测试范式。该框架创新...

2025-04-18 talkingdev

斯坦福大学研究团队最新推出的JudgeLRM模型家族，通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调（SFT）截然不同的训练范式，在需要深度逻辑分析的评估场景下，其综合表现显...

2025-04-18 talkingdev

近日，OpenAI的ChatGPT在知名地理定位游戏GeoGuesser中展现出卓越的表现，标志着其在空间理解和图像解析能力上的显著提升。GeoGuesser要求玩家根据随机提供的街景图像精确定位地理位置，而ChatGPT通过结合多模态学习...

2025-04-17 talkingdev

全球领先的人工智能研究实验室 OpenAI 最近发布了两款新型的模拟推理模型——o3和o4-mini。这两款模型不仅拥有模拟推理的能力，还首次集成了对各种ChatGPT工具的访问功能，包括网页浏览和编程等，这标志着OpenAI在推理...

2025-04-17 talkingdev

据CNBC报道，OpenAI正在洽谈以约30亿美元的价格收购AI编程工具初创公司Windsurf，此举旨在显著提升其生成式AI技术能力。Windsurf以其先进的AI辅助编程技术闻名，能够帮助开发者更高效地编写、优化和调试代码。此次收...

2025-04-17 talkingdev

GitHub最新开源的DeepMath数据集为人工智能领域带来突破性资源——该数据集包含10.3万道经过严格过滤和去污染的数学问题，专门用于提升大语言模型的逻辑推理能力。这一资源解决了当前数学推理训练数据质量参差不齐的核...

2025-04-17 talkingdev

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...

2025-04-16 talkingdev

OpenAI目前处于开发自家类似X社交媒体网络的初级阶段，该公司已有包含专注于ChatGPT图像生成的社交信息流的内部原型。尚不清楚OpenAI计划推出该社交网络作为独立应用程序，还是计划将其整合进ChatGPT应用中。拥有社...