评估框架的相关内容 - 漫话开发者

2025-04-04 talkingdev

[论文推荐]CLIP模型存在后门攻击漏洞：仅需少量数据即可实现近100%攻击成功率

最新研究发现，当前广泛应用的CLIP（Contrastive Language-Image Pretraining）多模态模型存在严重的安全隐患。根据arXiv最新论文披露，攻击者通过数据投毒（poisoning）方式植入后门，仅需污染0.5%的训练数据即可实...

2025-04-02 talkingdev

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试，为多模态大语言模型（MLLM）在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习（RL）和监督微调（SFT）等后训练方法，揭示了RL在视觉感知任务和数...

2025-03-28 talkingdev

最新发表于arXiv的论文提出两种利用扩散模型生成图像回归任务中反事实解释的创新方法。研究团队通过对比像素空间和潜在空间两种技术路径，系统性地揭示了不同方法在解释稀疏性和生成质量之间的权衡关系。该方法突破...

2025-03-25 talkingdev

LLaVA-MORE 是一项关于多模态大语言模型（Multimodal Large Language Models, MLLMs）的系统性研究，旨在评估不同语言模型和视觉骨干网络在 MLLMs 中的表现，并提供一个可复现的框架来比较这些架构。通过该研究，研...

2025-02-21 talkingdev

DeepEval是一个开源框架，专注于评估和测试大型语言模型系统。它整合了最新的研究成果，通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...

2024-06-12 talkingdev

CARES是一个全面的评估框架，用于评估医疗大视觉语言模型（Med-LVLMs）的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样，医疗大视觉语言模型的可信度是其成...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2023-12-19 talkingdev

DeepEval是一款全能的LLM应用评估框架，可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标，如幻觉、摘要、G-Eval、RAGAS等，供用户以Pytest样式或组件化方式评估整个数据集。