漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-22 talkingdev

Morphik.ai提出视觉文档检索新方法:用图像替代传统OCR解析

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法,该方法摒弃了传统的OCR(光学字符识别)和解析技术,转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块,并利用视觉Transformer和语言模型,...

Read More
2025-07-22 talkingdev

[开源]MoonshotAI发布Kimi K2技术报告:突破万亿参数模型训练瓶颈

月之暗面(MoonshotAI)团队最新发布的Kimi K2技术报告揭示了其大型语言模型系列的重大技术突破。该团队创新性地开发出MuonClip技术,通过将token高效的Muon优化器与新型QK-Clip技术相结合,成功解决了万亿参数模型训...

Read More
2025-07-22 talkingdev

无需解析文档:直接使用图像进行RAG检索

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...

Read More
2025-07-18 talkingdev

Neuralink以“小型弱势企业”身份申请联邦优先权,估值达90亿美元

埃隆·马斯克的健康科技公司Neuralink在4月24日提交的联邦文件中,将自己标记为“小型弱势企业”(small disadvantaged business),这可能使其在获取联邦机会时获得优先权。这一举措发生在公司估值达到90亿美元之前。N...

Read More
2025-07-17 talkingdev

Reflection AI推出代码研究智能体Asimov,革新工程知识管理

由前OpenAI和DeepMind研究人员创立的Reflection AI公司,继三月成功融资1.3亿美元后,正式发布其突破性产品Asimov代码研究智能体。该智能体通过深度索引整个代码库及团队知识体系,能够精准回答工程问题并提供引用来...

Read More
2025-07-16 talkingdev

AI代理究竟能做什么?探索LLM驱动的智能工具应用场景

当前,以大型语言模型(LLM)为核心的AI技术正在引发新一轮产业变革。最新技术分析指出,AI代理系统通过LLM实现三大核心功能:情境评估、工具建议与调用、以及工具使用的流程控制。在客户支持和故障分类等实际场景中...

Read More
2025-07-16 talkingdev

React Native Apple LLM:让React Native应用接入苹果设备端基础模型

近日,GitHub上出现了一个名为`react-native-apple-llm`的开源插件,该插件允许React Native开发者直接调用苹果设备端的Foundation Models(基础模型)来完成AI任务。这一技术突破为移动应用开发者提供了更便捷的AI...

Read More
2025-07-16 talkingdev

Mistral AI推出开源音频模型Voxtral,开启语音理解新纪元

Mistral AI近日发布了其首个开源音频模型套件Voxtral,标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本:24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模,可处理复杂语音...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page