漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-27 talkingdev

Allen AI推出OlmOCR:基于Qwen VL的PDF文本提取新突破

Allen AI近日宣布,其通过持续微调Qwen VL模型,成功训练出一款强大的PDF文本提取工具——OlmOCR。该模型基于超过20万份PDF文档进行训练,能够高效、精准地提取PDF中的文本内容。OlmOCR的推出标志着PDF文本提取技术的...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
2025-02-27 talkingdev

Vision Language Models或将取代OCR技术

随着Vision Language Models(VLMs)的快速发展,传统的光学字符识别(OCR)技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力,能够更准确地理解和解析图像中的文本内容。与OCR相比,VLMs不仅能识...

Read More
2025-02-26 talkingdev

R1-OneVision:多模态推理模型在复杂视觉任务中的突破

近日,R1-OneVision作为一种多功能的大型多模态模型,正式在GitHub上发布。该模型通过整合视觉与文本数据,在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

Read More
2025-02-25 talkingdev

Text4VPR:通过文本描述实现移动机器人地点识别

近日,一项名为Text4VPR的创新技术成功将视觉与语言结合,为移动机器人提供了仅通过文本描述即可实现地点识别的能力。这一技术突破了传统视觉定位的局限,使得机器人在复杂环境中能够更高效地识别和定位目标地点。Te...

Read More
2025-02-25 talkingdev

Moonshot推出Block Attention混合算法,提升长上下文LLM性能

近日,Moonshot发布了一项名为Block Attention混合算法的创新技术,该算法在长上下文语言模型(LLM)中的应用表现卓越,被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制,显著提升了模型在处理长文...

Read More
2025-02-24 talkingdev

谷歌发布SigLIP2:图像与文本编码模型的重大升级

SigLIP2作为SigLIP的升级版本,在多个方面实现了显著改进。SigLIP原本是一款广受欢迎的联合图像与文本编码模型,而SigLIP2在零样本分类性能上取得了重大突破,这一性能曾是CLIP模型的标志性成果。此次升级不仅提升了...

Read More
2025-02-21 talkingdev

LLM-Oasis:大规模数据集助力LLM输出事实性评估

近日,LLM-Oasis作为一个大规模数据集正式发布,旨在为训练和评估系统提供支持,以检测和提升LLM(大语言模型)输出的事实性。随着LLM在自然语言处理领域的广泛应用,其生成内容的准确性和可靠性成为业界关注的焦点...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page