Sentence Transformers最新升级引入对稀疏嵌入模型训练的支持,这一技术突破特别适用于混合搜索和重排序场景。该博客详细解析了模型的核心组件与训练步骤,并重点介绍了基于SPLADE架构的现成模型。稀疏编码技术通过...
Read More阿里巴巴近日开源了Qwen3 Embedding系列模型,其8B参数版本在权威的MTEB多语言排行榜上位列第一。这一系列模型为开发者提供了构建RAG系统、语义搜索引擎和文档检索应用的强大工具,支持超过100种语言的处理需求。模...
Read More近日,搜索引擎宣布已获得索引PDF文件格式的能力,这一功能将在未来几个月内逐步部署。然而,从PDF中提取文本信息的技术挑战远比表面看起来复杂。关键在于PDF并非文本格式,而是一种图形格式。它并不以传统方式存储...
Read More近日,一位长期使用大语言模型(LLM)的资深用户在个人博客中分享了他的使用心得。尽管生成式LLM(如GPT系列)在业界引起广泛关注,但该作者表示自己并不频繁使用这类模型。相反,他更倾向于将LLM应用于特定场景,如...
Read More中国人民大学自然语言处理实验室推出的WebThinker框架,标志着大语言模型(LRMs)向自主科研领域迈出关键一步。该开源项目通过构建深度研究架构,使LRMs具备三项突破性能力:1)智能化的全网信息检索系统,可自主定...
Read More开发者Adi和Arnav在尝试让大语言模型(LLM)处理研究论文和说明书中的问题时,发现现有RAG(检索增强生成)系统无法有效解析PDF中的图像和图表内容,甚至GPT-4o和O3模型也表现不佳。为此,他们开发了开源项目Morphik...
Read MoreOpenAI最新发布了名为BrowseComp的基准测试,包含1,266个问题,专门用于评估AI代理在互联网上搜集复杂且难以定位信息的能力。这一基准测试的推出标志着AI在信息检索领域的重要进展,尤其是在处理需要多步骤推理和跨...
Read More近日,Omnom发布了一款创新的自托管书签工具,该工具不仅支持传统的书签管理功能,还提供了可搜索的WYSIWYG(所见即所得)快照功能。用户可以通过Omnom轻松保存网页内容,并以快照形式存储,确保即使原始网页内容发...
Read More