Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...
Read More月之暗面(MoonshotAI)团队最新发布的Kimi K2技术报告揭示了其大型语言模型系列的重大技术突破。该团队创新性地开发出MuonClip技术,通过将token高效的Muon优化器与新型QK-Clip技术相结合,成功解决了万亿参数模型训...
Read More从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...
Read More阿里云旗下通义千问(Qwen)团队近日宣布对Qwen3-235B-A22B模型进行重大更新,新版本编号为Qwen3-235B-A22B-2507。此次更新的核心变化是取消了原先的混合思维模式(hybrid thinking mode),转而采用将指令模型(Instruct...
Read MoreClerk最新发布的Next.js MCP服务器支持功能,为开发者提供了一种安全高效的方式将AI工具集成到应用中。该功能允许开发者在Next.js应用中快速添加符合规范的MCP端点,使大型语言模型(LLM)能够在用户同意的情况下访...
Read More一项名为“Power”注意力的创新技术通过引入超参数p,实现了对状态大小的独立控制,有效解决了长上下文训练中计算成本平衡的难题。该机制在长序列任务中表现优于标准注意力,并支持定制GPU内核,在64k上下文长度下速度...
Read More苹果公司近期在其机器学习研究官网发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告,正式公开了支撑Apple Intelligence功能的两大核心基础模型。报告显示,这两个模型具备多语言...
Read More谷歌宣布为其AI Pro和AI Ultra订阅用户推出搜索功能的重大升级,集成Gemini 2.5 Pro模型并引入深度搜索(Deep Search)技术。这一更新标志着搜索引擎正式进入多轮复杂交互时代,支持用户提交更长查询语句及连续追问...
Read More