模型架构的相关内容 - 漫话开发者

2025-04-22 talkingdev

[论文推荐]AlphaGeometry 2：DeepMind新一代几何模型，正确率提升至84%

DeepMind近日发布了其几何模型AlphaGeometry的重大升级版本AlphaGeometry 2，该模型在解决几何问题上的正确率从先前方法的54%大幅提升至84%。这一突破性进展主要得益于Gemini语言模型的整合以及更高效的搜索算法。Al...

2025-04-15 talkingdev

[论文推荐]PixelFlow：像素空间生成模型的新突破

当前大多数针对连续信号的生成模型由于计算限制，通常需要在潜在空间中进行操作。然而，这项研究引入了一系列级联结构，使得生成过程可以直接在像素空间中进行。这一创新不仅显著提升了生成效率，还消除了对预训练变...

2025-03-28 talkingdev

揭秘大型语言模型的思维轨迹

随着人工智能技术的飞速发展，大型语言模型（LLM）的复杂性和能力不断提升，但其内部决策过程仍被视为“黑箱”。近日，研究人员通过先进的追踪技术，成功揭示了LLM在生成文本时的思维路径。这一突破不仅有助于提升模型...

2025-02-28 talkingdev

ModelScope推出Diffusion Studio：为扩散模型提供高效抽象平台

ModelScope近日发布了Diffusion Studio，这是一个基于GitHub的开源平台和代码库，旨在为多种类型的扩散模型及其相关的自动编码器提供高效的抽象支持。Diffusion Studio通过简化复杂模型的开发流程，帮助研究人员和开...

2025-02-27 talkingdev

LLM推理能力研究：System 2思维在大型语言模型中的应用

近期，一项针对OpenAI的o1/o3和DeepSeek的R1等推理型LLM的研究揭示了这些模型在逐步逻辑推理能力方面的表现。研究通过对比人类认知能力，对这些模型进行了基准测试。结果显示，尽管LLM在复杂任务中表现出色，但在需...

2025-02-26 talkingdev

LightningDiT：高效模块化扩散模型工具包助力生成式AI应用

近日，一款名为LightningDiT的高效模块化扩散模型工具包在GitHub上发布，旨在为生成式AI应用提供可扩展且多功能的解决方案。LightningDiT通过优化模型架构和训练流程，显著提升了生成式AI的性能和效率。该工具包支持...

2025-02-13 talkingdev

OpenAI公布GPT-5路线图：GPT-4.5将成最后非链式思维模型

OpenAI近日公布了其GPT系列模型的未来发展路线图，计划在推出GPT-5之前，先发布GPT-4.5作为最后一个非链式思维（non-chain-of-thought）模型。GPT-5将实现o-series与GPT-series模型的统一，标志着OpenAI在大型语言模...

2025-01-23 talkingdev

TREAD：无需修改架构的扩散模型高效训练新方法

近日，一项名为TREAD（Token Routing for Efficient Architecture-agnostic Diffusion Training）的新技术引起了广泛关注。该技术通过创新的Token Routing机制，显著提升了扩散模型（Diffusion Models）的样本效率，...