漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-12 talkingdev

HF发布新基准数据集,用于评估语言模型表现

Hugging Face Hub推出了新的基准数据集,名为Anime Bench,该数据集包含有关各种动漫角色以及引用的事实,旨在评估语言模型的性能。该数据集包含了来自动漫作品的超过10,000个引用,可以用于测试语言模型的能力,评...

Read More
2024-02-09 talkingdev

论文:挑战多模态语言模型的新基准测试

一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

Read More
2024-02-09 talkingdev

MobileVLM,为移动设备量身打造的先进视觉语言模型

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

Read More
2024-02-09 talkingdev

Smaug-72B:开源AI模型的新王者

Abacus AI开发的一款名为“Smaug-72B”的新型开源语言模型,源自阿里巴巴集团的Qwen团队开发的“Qwen-72B”,现在领导Hugging Face的自然语言处理排行榜。在各种基准测试中,Smaug-72B胜过了已经成熟的模型,如GPT-3.5和...

Read More
2024-02-08 talkingdev

Laxta语言模型为巴斯克文提供支持

Laxta是一个新的自然语言处理公司,为巴斯克语提供了一套新的语言模型。该模型使用了大约40亿个单词的语料库,并经过了特别调整,以更好地支持巴斯克语言。这种语言模型的使用可以提高文本生成、机器翻译、对话系统...

Read More
2024-02-08 talkingdev

论文:新工具解决多模态LLM中的幻觉问题

针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...

Read More
2024-02-07 talkingdev

ChatDB发布NaturalSQL模型,Text-to-SQL指令性能达到最新水平

ChatDB发布了一系列名为NaturalSQL的模型,这些模型在Text-to-SQL指令上表现出最新的性能。NaturalSQL是一个基于自然语言处理的SQL查询生成器,能够将自然语言指令转化为SQL查询语句。这个开源项目已经在GitHub上开...

Read More
2024-02-07 talkingdev

论文:KTO一种新的AI对齐优化方法

Kahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

Read More
  1. Prev Page
  2. 26
  3. 27
  4. 28
  5. Next Page