漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-17 talkingdev

开源|字节跳动Seed团队发布Depth Anything 3:通用单/多视图深度估计新突破

字节跳动Seed团队在GitHub开源了Depth Anything 3(DA3)项目,这是深度估计领域的重要进展。该模型通过纯Transformer架构和创新的深度射线表示法,实现了无需相机位姿信息的单视图或多视图图像空间一致性深度估计。...

Read More
2025-11-14 talkingdev

李飞飞与Yann LeCun为何同时押注“世界模型”?三大技术路径深度解析

在人工智能领域,世界模型(World Models)正成为新一代AI系统的核心研究方向。斯坦福大学教授李飞飞与图灵奖得主Yann LeCun近期分别提出了基于不同技术路径的世界模型架构。李飞飞团队聚焦于结合高斯溅射(Gaussian...

Read More
2025-11-11 talkingdev

Moonshot AI开源Kimi K2思维模型:320亿激活参数,性能达非思维模型前沿水平

近日,前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型,该模型采用混合专家架构,具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面,Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

Read More
2025-10-31 talkingdev

Kimi Linear技术报告发布:新型架构实现注意力机制效率突破

月之暗面(Moonshot AI)正式发布Kimi Linear技术报告,这项突破性架构通过创新设计实现了对传统全注意力机制的全面超越。该架构在保持同等性能水平下,将KV缓存使用量最高降低75%,在100万上下文长度场景中解码吞吐...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-10-12 talkingdev

论文推荐|Meta超智能实验室首篇论文意外突破:注意力机制新范式

Meta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文,引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径,而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...

Read More
2025-10-10 talkingdev

OpenAI宣布GPT-5模型政治偏见降低30%,应对敏感提示更稳健

OpenAI最新发布的GPT-5模型在政治偏见控制方面取得突破性进展。根据该公司与Axios共享的研究数据,GPT-5即时版(Instant)和思考版(Thinking)相较于前代模型,政治偏见水平降低了30%。这一改进源于模型架构的优化...

Read More
2025-10-02 talkingdev

Thinking Machines实验室推出Tinker API:革新语言模型微调技术

Thinking Machines实验室近日正式发布Tinker API,这一创新平台为开源权重语言模型的精细化调优提供了灵活接口。该技术通过抽象化底层基础设施复杂度,显著降低了开发者部署大型语言模型的技术门槛。特别值得关注的...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page