模型架构的相关内容 - 漫话开发者

2026-07-27 talkingdev

美企AI策略急转弯：从“烧Token”到“极致省钱”，混合中国模型冲击OpenAI等实验室IPO估值

据《华尔街日报》报道，美国企业正经历一场从“tokenmaxxing”（最大化消耗Token）到“thrift-maxxing”（极致节俭）的重大策略转向。越来越多的公司不再单纯依赖 OpenAI 和 Anthropic 的高端模型，而是开始将更便宜的中...

2026-07-23 talkingdev

美国能源部与开放智能实验室Arcee AI宣布联合开发Genesis-Science-1（GS1），一个面向科学计算工作流的开放权重AI模型。该项目旨在解决科学研究中计算流程难以复现的长期痛点，通过透明、可定制的模型架构和开放权重...

2026-07-17 talkingdev

据The Information报道，微软正酝酿在本月发布一款全新的AI安全产品，内部代号为“Project Perception”。该产品被定位为网络安全公司Mythos的更具成本效益的替代方案，旨在抢占企业日益增长的网络防御支出市场。值得...

2026-07-12 talkingdev

Meta正式推出了新一代AI模型Muse Spark 1.1，在工具调用、代码生成、计算机交互和多模态推理等关键维度上实现了显著升级。该版本通过深度的模型架构优化与训练数据配比调整，让模型在理解复杂指令并自主操控外部工具...

2026-06-30 talkingdev

近日，一个名为 Ornith-1.0 的开源模型在开发者社区引起了广泛关注。该项目由 deepreinforce-ai 团队在 GitHub 上发布，其核心亮点在于专为“Agentic Coding”（自主代理编程）场景设计，并具备自我改进的能力。基于特...

2026-06-02 talkingdev

阿里巴巴通义千问团队近日发布了其最新的多模态智能体模型Qwen3.7-Plus，标志着通用人工智能在感知与行动融合层面迈出了重要一步。该模型将视觉识别与语言理解能力深度融合，构建了一个单一、通用的多模态智能体基础...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-04-23 talkingdev

在大型语言模型领域，一种新的视角正在引发讨论：将上下文视为“软件”，而将权重视为“硬件”。这种比喻揭示了模型运作的本质差异。上下文（如KV缓存）动态地调节模型的激活值，为特定任务提供临时性的“编程”，从而实现...