OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准,使得科研人员和工程师们能够在相同的条件下,对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...
Read More近期,研究人员提出了一种名为隐式字符辅助学习(ICAL)的新方法,大幅提升了手写数学表达式的识别能力。ICAL 通过利用隐式字符信息,增强了模型对手写字符的理解和识别精度。传统的手写数学表达式识别方法通常依赖...
Read More正在从加密转向AI的Cognition Labs,正寻求20亿美元的估值为其AI编码工具Devin融资。在AI初创公司估值飙升的趋势中,Cognition的成功反映了行业的增长以及在数据和计算资源上进行重大投资的重要性。像Google和Micros...
Read MoreCognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。
Read MoreVisual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
Read More本研究利用视觉和语言工具,提高系统识别真实与虚假面孔的能力。在当前的科技发展中,面部识别技术已经被广泛应用于众多领域,包括安全监测、社交媒体以及各类身份验证等。然而,这种技术也面临着虚假面孔的挑战,通...
Read MoreDeepFakeFace (DFF) 是一个由先进技术生成的伪造名人照片的集合,旨在帮助我们更好地区分真实照片和伪造的照片。这个数据集集合了大量的伪造名人照片,这些照片的制作都运用了尖端的科技,如深度学习和人工智能等,...
Read More研究人员创造了一个名为SpeechTokenizer的工具,该工具通过使用一种混合不同语音方面的特殊架构,帮助模型以更有效的方式理解口语。通过这种方式,它尝试解决语音模型在理解和处理口语时面临的挑战。它的创新之处在...
Read More本研究公开了一个新的模型-DFER-CLIP,该模型对CLIP模型进行了改进,专门用于识别现实世界中变化的面部表情。CLIP模型是一个多模态的人工智能模型,它能够理解图像和文本之间的关系。这个新的DFER-CLIP模型,通过增...
Read More在一张图片中,计算机有时会将同一对象识别为多个。现在,一个新的项目开发出一种方法,帮助计算机识别并聚焦于对象的单一完整版本。这种方法的出现,将对计算机视觉和图像理解能力的提升起到关键作用,不仅可以优化...
Read More