模型性能的相关内容 - 漫话开发者

2025-02-22 talkingdev

SWE-bench数据集存在关键问题，技术社区需警惕

近日，技术社区对SWE-bench数据集的使用提出了严重关切。该数据集被广泛用于评估软件工程领域的模型性能，但近期发现其存在多个关键问题，可能影响研究结果的准确性和可靠性。首先，数据集中部分样本的标注存在偏差...

2025-02-21 talkingdev

近日，LLM-Oasis作为一个大规模数据集正式发布，旨在为训练和评估系统提供支持，以检测和提升LLM（大语言模型）输出的事实性。随着LLM在自然语言处理领域的广泛应用，其生成内容的准确性和可靠性成为业界关注的焦点...

2025-02-21 talkingdev

DeepEval是一个开源框架，专注于评估和测试大型语言模型系统。它整合了最新的研究成果，通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...

2025-02-21 talkingdev

近日，BadSeek项目揭示了如何在大型语言模型（LLM）中植入后门的技术细节。该项目通过深入研究LLM的embedding机制，展示了如何在不影响模型整体性能的情况下，植入特定的触发机制，从而在特定条件下激活后门功能。这...

2025-02-11 talkingdev

近日，一项创新性研究提出了一种改进神经网络训练的新方法，该方法通过将回归任务重新构建为分类问题，利用学习到的目标编码器-解码器对来实现。与传统回归方法相比，这种新方法通过分布目标表示和平滑插值技术，显...

2025-01-30 talkingdev

近日，一款名为SmolGPT的轻量级PyTorch实现框架正式发布，旨在帮助开发者从零开始训练小型LLM（Large Language Model）。该框架以其简洁的设计和高效的性能吸引了广泛关注。SmolGPT通过优化模型结构和训练流程，显著...

2025-01-28 talkingdev

本文综述了基础模型的参数高效微调技术，深入探讨了在保持多样化任务性能的同时，如何最小化计算成本的方法。随着基础模型（如LLM）的广泛应用，参数高效微调技术（如LoRA、RAG等）成为研究热点。这些技术通过减少需...

2025-01-28 talkingdev

近日，一款名为ErisForge的Python库在技术社区中引起了广泛关注。该库由一位开发者独立创建，旨在为大型语言模型（LLM）的消融研究提供支持。ErisForge通过简化消融实验的流程，帮助研究人员更高效地分析和理解LLM的...