一项突破性研究通过对比模型在随机数据(无法泛化)和真实文本上的训练表现,开发出区分记忆与泛化的新方法。研究发现,模型会先记忆训练数据直至容量饱和,随后转向学习通用模式。以GPT类Transformer为例,每个参数...
Read More近日,Kiln公司发布了一篇关于大型语言模型(LLM)微调的深度指南,引发了开发者社区的广泛讨论。文章详细探讨了在什么情况下需要对预训练的大型语言模型进行微调,以及如何开始这一过程的技术细节。随着ChatGPT等大模...
Read MoreOpenAI近日宣布其浏览器智能代理O3 Operator完成重大升级,原基于GPT-4o的模型架构已被全新的CUA(Cognitive Unified Architecture)技术体系取代。这一变革标志着OpenAI在轻量化AI代理领域取得突破性进展——CUA架构...
Read MoreOpenAI以65亿美元股权全资收购了与苹果前设计总监Jony Ive共同创立的合资公司io,标志着这家AI巨头正式进军硬件领域。此次收购不仅涉及巨额资金,更凸显了OpenAI从纯软件向软硬结合的战略转型。Jony Ive作为主导iPho...
Read MoreOpenAI近日发布了其AI编程助手Codex的研究预览版,这一突破性技术基于GPT-3模型,专门针对代码生成和编程任务进行了优化。Codex能够理解自然语言指令并将其转化为功能性代码,支持包括Python、JavaScript、Go等在内...
Read MoreOpenAI工程师团队近期披露了ChatGPT图像功能在3月发布时的技术挑战与解决方案。该功能上线首周即吸引1亿新用户,生成7亿张图像,其中印度市场每小时新增用户峰值达100万。面对同步图像生成系统无法承受的突发流量,...
Read MoreMeta最新推出的AI应用通过引入Discover信息流功能,为用户提供了与AI互动的社交化分享平台。这一创新设计不仅允许用户公开自己与AI的对话内容,还支持其他用户对这些内容进行评论、点赞甚至二次创作,旨在通过社交互...
Read More近日,一位长期使用大语言模型(LLM)的资深用户在个人博客中分享了他的使用心得。尽管生成式LLM(如GPT系列)在业界引起广泛关注,但该作者表示自己并不频繁使用这类模型。相反,他更倾向于将LLM应用于特定场景,如...
Read More