漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-24 talkingdev

开源|X-ray:Python库精准检测PDF文档中的“无效”信息涂黑

近日,一款名为X-ray的Python开源工具在技术社区引发关注。该项目由freelawproject开发,核心功能是自动检测PDF文档中是否存在“无效涂黑”问题。所谓“无效涂黑”,是指文档编辑者试图通过黑色矩形块遮盖敏感信息,但因...

Read More
2025-12-12 talkingdev

OpenAI发布GPT-5.2:专为专业工作与长期智能体设计的顶尖前沿模型

人工智能研究机构OpenAI正式发布了其最新的前沿模型GPT-5.2,该模型被定位为专为专业知识工作和长期运行的智能体(agents)而设计的最先进系统。根据官方介绍,GPT-5.2在多个关键领域树立了新的性能标杆,包括代码生...

Read More
2025-12-12 talkingdev

谷歌发布Gemini深度研究交互API,AI代理自主驾驭复杂信息搜索

谷歌近日正式向开发者开放了其强大的Gemini深度研究(Gemini Deep Research)功能,通过全新的交互API(Interactions API)提供服务。这一举措标志着AI在复杂信息处理与综合能力方面迈出了重要一步。Gemini深度研究...

Read More
2025-12-12 talkingdev

OpenAI发布GPT-5.2:专为专业工作与长期智能体优化的前沿模型

OpenAI正式推出其新一代前沿模型GPT-5.2,该模型被定位为专为专业工作场景和长期运行的智能体(agent)工作流而优化的最先进模型。相较于前代,GPT-5.2在多个关键维度实现了显著提升:其一,在知识工作领域,模型展...

Read More
2025-08-14 talkingdev

谷歌Deep Research API即将问世,AI驱动的复杂研究任务自动化时代来临

谷歌Gemini Deep Research团队正在开发名为Deep Research API的创新工具,该技术将彻底改变传统研究模式。这一API具备强大的自动化研究能力,可在几分钟内完成数百个网站的智能浏览、信息深度分析及生成多页洞察报告...

Read More
2025-07-10 talkingdev

Perplexity推出Comet:一款面向研究场景的AI浏览器

人工智能公司Perplexity近日发布了名为Comet的创新浏览器产品,该产品专为研究工作场景设计,深度整合了Perplexity自主研发的搜索与推理引擎技术。Comet浏览器通过AI能力重构了传统浏览器的交互范式,可同时支持工作...

Read More
2025-05-13 talkingdev

[开源]FastVLM:苹果发布高效视觉语言模型视觉编码方案,CVPR 2025论文实现

苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法,旨在优化视觉语言模型(VLM)中的视觉信息处...

Read More
2025-05-02 talkingdev

微软OmniParser v2.0:全新截图解析工具性能大提升

微软近日发布了其广受欢迎的截图解析工具OmniParser的重大版本更新——OmniParser v2.0。作为一款领先的视觉信息处理工具,新版本在Screenshot Pro基准测试中表现优异,展现了微软在计算机视觉和自然语言处理领域的技...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page