大型语言模型的相关内容 - 漫话开发者

2025-09-15 talkingdev

MCP第二波浪潮：为LLM而非开发者构建工具

Vercel最新技术博客揭示了MCP（模型控制协议）的重大范式转变：从面向开发者的API工具转向为大型语言模型量身定制的工作流工具。这一变革源于关键发现：LLM的操作逻辑与人类开发者截然不同，它们需要不断重新发现可...

2025-09-12 talkingdev

最新技术基准测试表明，云端分布式训练中基础设施配置对大型语言模型（LLM）训练效率具有决定性影响。专业分析显示，网络架构与存储方案的差异可能导致训练性能出现高达6-7倍的波动，直接关联数百万美元的计算成本。...

2025-09-11 talkingdev

Mini-o3作为新兴开源视觉推理模型，实现了与OpenAI o3类似的多轮交互能力，支持高达数十轮的连续对话推理。该项目完全公开训练流程，涵盖数据构建、模型架构与训练策略，为学术界和工业界提供可复现的视觉-语言智能...

2025-09-11 talkingdev

大型语言模型（LLM）推理过程中的非确定性问题正成为制约科学研究可重复性的关键障碍。即使将温度参数调整为0（贪婪采样模式），ChatGPT等模型仍无法保证输出结果的确定性。这种现象不仅存在于API服务中，即使在本地...

2025-09-04 talkingdev

清华大学团队开源AgentScope框架，为大型语言模型应用开发提供全新范式。该框架采用智能体导向编程（Agent-Oriented Programming）设计理念，显著提升LLM应用的透明度和实时可控性。其核心特性包括工具管理、长时记...

2025-09-03 talkingdev

提示注入攻击正成为大型语言模型面临的新型安全威胁，这种攻击通过操纵自然语言处理能力来利用系统漏洞，其原理类似于传统的SQL注入攻击。研究人员最新提出了六种核心设计模式来强化AI智能体的安全防护：行动选择器...

2025-08-27 talkingdev

微软通过GitHub开源项目yuniko-software/minecraft-mcp-server，推出基于Mineflayer API的Minecraft MCP服务器。该技术突破允许Claude等大型语言模型实时控制游戏角色，实现自然语言指令驱动的自动化建造、环境探索...

2025-08-27 talkingdev

当前大型语言模型（LLM）的上下文窗口容量（约100万token）已无法满足企业级代码库的处理需求，这暴露出AI编程工具在复杂场景下的架构瓶颈。为解决这一问题，行业正推动“上下文堆栈”架构的演进，该架构整合了仓库概...