Hugging Face Hub推出了新的基准数据集,名为Anime Bench,该数据集包含有关各种动漫角色以及引用的事实,旨在评估语言模型的性能。该数据集包含了来自动漫作品的超过10,000个引用,可以用于测试语言模型的能力,评...
Read More一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...
Read MoreMobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...
Read MoreAbacus AI开发的一款名为“Smaug-72B”的新型开源语言模型,源自阿里巴巴集团的Qwen团队开发的“Qwen-72B”,现在领导Hugging Face的自然语言处理排行榜。在各种基准测试中,Smaug-72B胜过了已经成熟的模型,如GPT-3.5和...
Read MoreLaxta是一个新的自然语言处理公司,为巴斯克语提供了一套新的语言模型。该模型使用了大约40亿个单词的语料库,并经过了特别调整,以更好地支持巴斯克语言。这种语言模型的使用可以提高文本生成、机器翻译、对话系统...
Read More针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...
Read MoreChatDB发布了一系列名为NaturalSQL的模型,这些模型在Text-to-SQL指令上表现出最新的性能。NaturalSQL是一个基于自然语言处理的SQL查询生成器,能够将自然语言指令转化为SQL查询语句。这个开源项目已经在GitHub上开...
Read MoreKahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...
Read More