长上下文的相关内容 - 漫话开发者

2025-04-28 talkingdev

DeepSeek发布2025年新一代AI模型R2，引领大语言模型技术革新

DeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2，这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露，R2模型将采用创新的混合架构设计，整合了稀疏专家模型(MoE)与密...

2025-04-23 talkingdev

Cohere公司最新推出的Embed 4多模态嵌入模型，代表了企业级AI搜索与检索技术的重大突破。该模型具备三大核心优势：首先，在100多种语言中实现了领先的多模态与多语言处理能力，大幅提升跨语言业务场景的适用性；其次...

2025-04-18 talkingdev

近期，一项名为Cobra的创新性线稿上色技术框架引发行业关注。该技术通过构建高效的长上下文细粒度ID保留架构，为漫画线稿上色提供了高精度、高效率且灵活易用的解决方案。其核心突破在于能够有效整合广泛的上下文参...

2025-04-17 talkingdev

近日，知名开源社区Hugging Face对其HELMET基准测试进行了重要升级。这一更新不仅扩展了测试覆盖的模型范围，还提供了更深入的性能洞察，特别针对当前热门的Phi-4和Jamba 1.6等长上下文大语言模型（LLM）。HELMET基...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-04-17 talkingdev

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...

2025-04-15 talkingdev

OpenAI近日在其API中推出了三款全新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。这些模型在编码和指令遵循方面表现优异，全面超越了之前的GPT-4o和GPT-4o mini。新模型不仅具备更大的上下文窗口，支持高达100万toke...

2025-04-07 talkingdev

谷歌宣布其新一代多模态大模型Gemini 2.5 Pro正式进入公测阶段，开发者现可通过Google AI Studio的Gemini API进行体验，而企业级平台Vertex AI的支持也即将上线。作为Gemini系列的最强版本，2.5 Pro在跨模态理解、长...