漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-13 talkingdev

开源|Vercel Labs发布agent-browser:为AI智能体赋能的浏览器自动化CLI工具

近日,Vercel Labs在GitHub上开源了名为agent-browser的项目,这是一个专为AI智能体设计的无头浏览器自动化命令行界面工具。该工具的核心价值在于,它能够使AI智能体直接控制浏览器实例,执行诸如页面导航、截图以及...

Read More
2026-01-08 talkingdev

开源|Hugging Face发布FinePDFs:从PDF中解放3万亿高质量训练令牌

在开源人工智能社区中,PDF文档长期以来被视为一座未被充分挖掘的高质量数据金矿。近日,Hugging Face团队正式发布了其开创性的预训练数据集项目——FinePDFs,成功从海量PDF文档中提取并构建了一个规模超过3万亿令牌...

Read More
2025-12-24 talkingdev

NotebookLM重磅更新:一键将文档源转化为结构化数据表格,AI知识管理迎来新范式

谷歌旗下AI研究助手NotebookLM近日推出了一项名为“数据表格”的核心新功能,标志着AI在信息处理和知识结构化领域迈出了重要一步。该功能能够智能解析用户上传的各类文档源(如研究论文、报告、文章等),并自动提取、...

Read More
2025-12-03 talkingdev

Perplexity推出BrowseSafe:为AI浏览器智能体构建实时防护盾,抵御提示注入攻击

人工智能研究公司Perplexity近日开源了其最新研究成果“BrowseSafe”,这是一个专门为保护AI浏览器智能体(AI Browser Agents)而设计的实时内容检测模型与基准测试套件。在开放世界的网页环境中,AI智能体在执行网页...

Read More
2025-09-21 talkingdev

揭秘NotebookLM:谷歌实验性AI笔记本的设计哲学与未来潜力

NotebookLM是谷歌实验室推出的一款革命性AI驱动笔记应用,其核心创新在于将大型语言模型与用户自有文档深度结合,打造个性化知识助手。该系统允许用户上传PDF、文档和笔记,通过AI技术实现智能内容分析、关键信息提...

Read More
2025-08-04 talkingdev

LangExtract:基于LLM的文本结构化信息提取

Google近日在GitHub开源了LangExtract项目,这是一个基于大语言模型(LLM)的Python库,专门用于从非结构化文本中提取结构化信息。该库允许用户通过自定义指令,将杂乱的文本数据转化为可靠的格式化输出。其核心技术...

Read More
2025-07-22 talkingdev

无需解析文档:直接使用图像进行RAG检索

从复杂的PDF中提取信息一直是个棘手的问题。行业在OCR(光学字符识别)、布局检测和解析流程上投入了大量精力和资金,却仍可能丢失最关键的信息。如今,视觉语言模型(Vision Language Models)已经足够强大,能够直...

Read More
2025-03-25 talkingdev

[论文推荐] UniHDSA:统一关系预测方法助力分层文档结构分析

近日,一篇发表在arXiv上的论文介绍了一种名为UniHDSA的统一关系预测方法,用于分层文档结构分析。该方法的核心创新在于通过一个单一模块同时处理多项任务,显著提高了文档结构分析的效率和准确性。UniHDSA技术的应...

Read More
  1. Next Page