语言模型的相关内容 - 漫话开发者

2025-07-23 talkingdev

[开源]Qwen3-Coder：全球领先的智能编码代理模型问世

通义千问团队正式发布Qwen3-Coder，这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构（Mixture-of-Experts），其中激活参数达350亿，并支持超长上下文处理。在智能编码、浏览器操作和工具...

2025-07-23 talkingdev

过去12个月中，AI市场格局已显著清晰化。在大型语言模型（LLM）领域，Anthropic、Google、Meta、xAI和OpenAI已成为明确领导者；垂直赛道方面，法律科技领域的Harvey和CaseText，以及编程领域的Microsoft/GitHub与Ope...

2025-07-22 talkingdev

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法，该方法摒弃了传统的OCR（光学字符识别）和解析技术，转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块，并利用视觉Transformer和语言模型，...

2025-07-22 talkingdev

月之暗面(MoonshotAI)团队最新发布的Kimi K2技术报告揭示了其大型语言模型系列的重大技术突破。该团队创新性地开发出MuonClip技术，通过将token高效的Muon优化器与新型QK-Clip技术相结合，成功解决了万亿参数模型训...

2025-07-22 talkingdev

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR（光学字符识别）、布局检测和解析流程上投入了大量精力和资金，却仍可能丢失最关键的信息。如今，视觉语言模型（Vision Language Models）已经足够强大，能够直...

2025-07-22 talkingdev

阿里云旗下通义千问(Qwen)团队近日宣布对Qwen3-235B-A22B模型进行重大更新，新版本编号为Qwen3-235B-A22B-2507。此次更新的核心变化是取消了原先的混合思维模式(hybrid thinking mode)，转而采用将指令模型(Instruct...

2025-07-18 talkingdev

Clerk最新发布的Next.js MCP服务器支持功能，为开发者提供了一种安全高效的方式将AI工具集成到应用中。该功能允许开发者在Next.js应用中快速添加符合规范的MCP端点，使大型语言模型（LLM）能够在用户同意的情况下访...

2025-07-18 talkingdev

一项名为“Power”注意力的创新技术通过引入超参数p，实现了对状态大小的独立控制，有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力，并支持定制GPU内核，在64k上下文长度下速度...