语言模型的相关内容 - 漫话开发者

2025-10-02 talkingdev

Thinking Machines实验室推出Tinker API：革新语言模型微调技术

Thinking Machines实验室近日正式发布Tinker API，这一创新平台为开源权重语言模型的精细化调优提供了灵活接口。该技术通过抽象化底层基础设施复杂度，显著降低了开发者部署大型语言模型的技术门槛。特别值得关注的...

2025-10-01 talkingdev

智谱AI正式推出新一代开源权重模型GLM-4.6，该模型最突出的特性是支持高达200K tokens的上下文窗口，使其能够处理更长的文档和复杂任务链。官方宣称在编程与逻辑推理任务上已接近Anthropic公司发布的Claude Sonnet 4...

2025-09-30 talkingdev

深度求索公司最新推出的DeepSeek-V3.2-Exp模型引入了创新的稀疏注意力机制，这一技术突破专门针对长上下文序列的训练和推理效率进行了深度优化。该机制通过智能选择关键注意力区域，显著降低了计算复杂度，使得模型...

2025-09-30 talkingdev

人工智能公司Anthropic近日在npm平台正式发布了Claude Code 2.0软件包，标志着AI辅助编程工具进入新的发展阶段。该工具基于Anthropic领先的大语言模型技术，专门针对代码生成、调试和优化等开发场景进行深度优化。在...

2025-09-29 talkingdev

据最新科技资讯披露，苹果公司正在内部测试代号为'Veritas'的专属员工聊天机器人，这被业界视为苹果对标ChatGPT的重要布局。该举措发生在苹果AI战略面临多重挑战的背景下：其Apple Intelligence功能市场反响平淡，Si...

2025-09-29 talkingdev

深度求索（DeepSeek）最新推出的DeepSeek-V3.1 Terminus模型标志着AI智能体技术迈入新阶段。该版本在工具调用（Tool Use）能力上实现重大突破，通过优化推理架构和指令遵循机制，显著提升了复杂任务执行的准确性和效...

2025-09-25 talkingdev

Meta公司最新推出了名为CWM（Code World Model）的开源大语言模型，该模型参数量达320亿，采用仅解码器架构。其创新之处在于训练数据融合了代码执行轨迹与复杂推理任务，旨在构建能够理解代码动态执行过程的‘世界模...

2025-09-24 talkingdev

在大型语言模型的技术架构中，采样与结构化输出是决定模型生成质量与可控性的两大核心技术。采样指模型根据概率分布从词汇表中选择下一个标记的过程，直接影响了文本生成的多样性和创造性。而结构化输出技术则赋予模...