大语言模型的相关内容 - 漫话开发者

2026-04-30 talkingdev

DeepSpeed整合AutoSP：自动序列并行技术，轻松训练超长上下文LLM

PyTorch官方博客近日发布了一项名为AutoSP的创新技术，该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码，用于长上下文大语言模型（LLM）的训练。AutoSP已与微软的DeepSpeed框架深度集成，使得开发者...

2026-04-30 talkingdev

Mistral AI最新发布了Mistral Medium 3.5模型，这是一款拥有1280亿参数的密集模型（128B dense model），专为驱动远程Vibe代理而设计，能够在云端执行长时间、异步的编码任务，用户可直接从命令行界面（CLI）或Le Ch...

2026-04-28 talkingdev

OpenAI最新发布的GPT-5.5模型系统卡（System Card）揭示了其性能表现与安全评估结果。这份详尽的报告显示，GPT-5.5在多项基准测试中表现出色，尤其在事实性查询、网络搜索和结构化任务执行上，已能与业界顶尖模型Cla...

2026-04-28 talkingdev

近期，一款名为Talkie的语言模型在技术社区引起了广泛关注。值得注意的是，该模型并非诞生于当前大模型竞赛的浪潮中，而是宣称其设计理念和数据源自1930年代的文献与知识体系，拥有13B参数。这一独特的“时间胶囊”式...

2026-04-24 talkingdev

OpenAI宣布推出其最新一代大语言模型GPT-5.5，号称是目前最智能的版本。该模型在推理能力、工具调用效率和多任务处理性能上均实现了显著提升。尽管保持了与前代模型相当的响应延迟，GPT-5.5在编程、知识检索和数据分...

2026-04-23 talkingdev

在大型语言模型领域，一种新的视角正在引发讨论：将上下文视为“软件”，而将权重视为“硬件”。这种比喻揭示了模型运作的本质差异。上下文（如KV缓存）动态地调节模型的激活值，为特定任务提供临时性的“编程”，从而实现...

2026-04-23 talkingdev

Broccoli 是一个新颖的开源工具，旨在通过AI代理（包括Claude和Codex）自动化软件开发中的工程工作流。其核心功能是可以直接将Linear项目管理工具中的工单（Tickets）自动转化为GitHub上的拉取请求（Pull Requests）...

2026-04-21 talkingdev

阿里云旗下通义千问团队近日发布了其大型语言模型的最新预览版本——Qwen3.6-Max-Preview。该版本在多个核心能力上实现了显著提升，尤其是在世界知识的掌握与指令遵循的准确性方面表现突出。更为关键的是，模型在广泛...