近日,技术社区对SWE-bench数据集的使用提出了严重关切。该数据集被广泛用于评估软件工程领域的模型性能,但近期发现其存在多个关键问题,可能影响研究结果的准确性和可靠性。首先,数据集中部分样本的标注存在偏差...
Read More近日,GitHub上出现了一款名为OllamaTalk的开源项目,该项目基于Flutter框架开发,旨在为Ollama提供一个简洁易用的前端界面。OllamaTalk的设计理念是简化用户与Ollama的交互过程,使其更加直观和高效。通过Flutter的...
Read More近日,LLM-Oasis作为一个大规模数据集正式发布,旨在为训练和评估系统提供支持,以检测和提升LLM(大语言模型)输出的事实性。随着LLM在自然语言处理领域的广泛应用,其生成内容的准确性和可靠性成为业界关注的焦点...
Read More近日,Open Reasoner Zero项目在GitHub上正式发布,该项目旨在复现零推理(Zero Reasoning)范式,并提供了完整的开源资源,包括训练数据、脚本和模型权重。零推理是一种新兴的人工智能推理方法,旨在通过简化推理过...
Read More近日,一项名为Model-Guidance(MG)的技术在扩散模型训练领域取得了突破性进展。该技术通过引入后验概率优化目标,显著提升了扩散模型的训练速度和推理效率。实验结果显示,采用MG技术的扩散模型在ImageNet 256基准...
Read More近日,一项创新的研究展示了使用3D Gaussian Splats渲染的逼真环境来训练端到端驾驶强化学习(RL)模型的潜力。该研究通过构建高度真实的虚拟驾驶场景,显著提升了模型的训练效果。实验结果表明,与传统方法相比,采...
Read More近日,BadSeek项目揭示了如何在大型语言模型(LLM)中植入后门的技术细节。该项目通过深入研究LLM的embedding机制,展示了如何在不影响模型整体性能的情况下,植入特定的触发机制,从而在特定条件下激活后门功能。这...
Read More微软近日发布了其首款量子计算芯片——Majorana 1,这标志着微软近二十年在量子计算领域的研究成果。微软宣称,为了构建这款芯片,他们创造了一种全新的物质态——拓扑态。这款芯片的所有部件均在美国制造,这得益于项目...
Read More