漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-10-14 talkingdev

大语言模型突破字符级文本处理瓶颈,GPT-5与Claude 4.5展现算法理解力跃升

最新研究表明,新一代大语言模型在字符级文本处理任务上取得显著突破。相比早期版本,GPT-5和Claude Sonnet 4.5等模型在字符计数、字符替换、密码解码等需要精细化文本操作的任务中表现出色。这一进步表明模型正在从...

Read More
2025-10-13 talkingdev

嵌入技术为何如此廉价?解析AI成本背后的经济逻辑

嵌入技术作为现代检索增强生成系统的核心组件,正引发行业对AI基础设施成本结构的深度思考。最新技术分析显示,嵌入向量的生成过程主要依赖矩阵乘法和注意力机制等张量运算,其计算成本可通过浮点运算次数与硬件效率...

Read More
2025-10-10 talkingdev

开源|Sora MCP:为大型语言模型接入Sora视频生成能力

近日GitHub平台出现名为Sora MCP的开源项目,该项目通过构建MCP(模型控制协议)服务器,首次实现大型语言模型直接调用Sora视频生成API的技术突破。该工具使LLMs具备创建Sora视频、实时查询生成状态、将生成视频下载...

Read More
2025-10-02 talkingdev

Thinking Machines实验室推出Tinker API:革新语言模型微调技术

Thinking Machines实验室近日正式发布Tinker API,这一创新平台为开源权重语言模型的精细化调优提供了灵活接口。该技术通过抽象化底层基础设施复杂度,显著降低了开发者部署大型语言模型的技术门槛。特别值得关注的...

Read More
2025-09-30 talkingdev

DeepSeek-V3.2-Exp发布:稀疏注意力机制突破长序列处理瓶颈

深度求索公司最新推出的DeepSeek-V3.2-Exp模型引入了创新的稀疏注意力机制,这一技术突破专门针对长上下文序列的训练和推理效率进行了深度优化。该机制通过智能选择关键注意力区域,显著降低了计算复杂度,使得模型...

Read More
2025-09-29 talkingdev

苹果内部测试'Veritas'聊天机器人,或为Siri AI升级铺路

据最新科技资讯披露,苹果公司正在内部测试代号为'Veritas'的专属员工聊天机器人,这被业界视为苹果对标ChatGPT的重要布局。该举措发生在苹果AI战略面临多重挑战的背景下:其Apple Intelligence功能市场反响平淡,Si...

Read More
2025-09-27 talkingdev

模块化流形:一种结合几何约束的神经网络优化器协同设计新框架

Thinking Machines公司近期发布的研究成果《模块化流形》提出了一种创新的几何框架,用于协同设计带有流形约束的神经网络优化器。该框架通过引入微分几何中的流形概念,将优化问题的约束条件自然地嵌入到神经网络训...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page