Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...
Read More月之暗面(MoonshotAI)团队最新发布的Kimi K2技术报告揭示了其大型语言模型系列的重大技术突破。该团队创新性地开发出MuonClip技术,通过将token高效的Muon优化器与新型QK-Clip技术相结合,成功解决了万亿参数模型训...
Read More从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...
Read More埃隆·马斯克的健康科技公司Neuralink在4月24日提交的联邦文件中,将自己标记为“小型弱势企业”(small disadvantaged business),这可能使其在获取联邦机会时获得优先权。这一举措发生在公司估值达到90亿美元之前。N...
Read More由前OpenAI和DeepMind研究人员创立的Reflection AI公司,继三月成功融资1.3亿美元后,正式发布其突破性产品Asimov代码研究智能体。该智能体通过深度索引整个代码库及团队知识体系,能够精准回答工程问题并提供引用来...
Read More当前,以大型语言模型(LLM)为核心的AI技术正在引发新一轮产业变革。最新技术分析指出,AI代理系统通过LLM实现三大核心功能:情境评估、工具建议与调用、以及工具使用的流程控制。在客户支持和故障分类等实际场景中...
Read More近日,GitHub上出现了一个名为`react-native-apple-llm`的开源插件,该插件允许React Native开发者直接调用苹果设备端的Foundation Models(基础模型)来完成AI任务。这一技术突破为移动应用开发者提供了更便捷的AI...
Read MoreMistral AI近日发布了其首个开源音频模型套件Voxtral,标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本:24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模,可处理复杂语音...
Read More