上下文窗口的相关内容 - 漫话开发者

2025-07-17 talkingdev

谷歌搜索迎来Gemini 2.5 Pro与深度搜索功能，AI订阅服务再升级

谷歌宣布为其AI Pro和AI Ultra订阅用户推出搜索功能的重大升级，集成Gemini 2.5 Pro模型并引入深度搜索（Deep Search）技术。这一更新标志着搜索引擎正式进入多轮复杂交互时代，支持用户提交更长查询语句及连续追问...

2025-06-18 talkingdev

MiniMax开源推理模型M1：混合专家架构+闪电注意力

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-04-17 talkingdev

OpenAI发布o3和o4-mini模型：集成多模态能力，推理速度与工具使用全面升级

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...

2025-04-15 talkingdev

OpenAI发布GPT-4.1系列模型：性能全面提升，支持百万级上下文窗口

OpenAI近日在其API中推出了三款全新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编码和指令遵循方面表现优异，全面超越了之前的GPT-4o和GPT-4o mini。新模型不仅具备更大的上下文窗口，支持高达100万toke...

2025-04-07 talkingdev

谷歌Gemini 2.5 Pro开放公测：AI Studio抢先体验，Vertex AI即将支持

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段，开发者现可通过Google AI Studio的Gemini API进行体验，而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本，2.5 Pro在跨模态理解、长...

2025-04-07 talkingdev

[论文推荐]Rope to Nope：混合注意力机制突破长上下文处理极限

Meta最新发布的Llama 4模型通过创新性的混合位置编码策略，实现了超过1000万tokens的上下文处理能力。该技术核心在于交替使用无位置嵌入（NoPE）和旋转位置嵌入（RoPE），在保持计算效率的同时显著扩展了上下文窗口...

2025-04-04 talkingdev

[开源]Nebius推出Kvax：基于JAX的Flash Attention优化实现，助力长上下文训练

Nebius近日开源了Kvax项目，这是一个基于JAX框架的Flash Attention实现，专门针对长上下文训练场景进行了优化。Kvax通过创新的上下文并行技术和高效的文档掩码计算，实现了更快的训练速度和更高的数据密度压缩，在性...

2025-02-06 talkingdev

谷歌发布全新AI模型Gemini 2.0，推动AI思考能力发展

谷歌本周三推出了Gemini 2.0 Pro Experimental实验版，并在其推理模型Gemini 2.0 Flash Thinking上进行了更新，用户可以在Gemini应用中使用。Gemini 2.0 Pro Experimental将在谷歌的AI开发平台Vertex AI和Google AI...