OpenAI的超对齐团队开发了一款名为Transformer Debugger的工具,以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。
Read MoreTransformer Debugger是一种工具,它通过将自动可解释性技术与稀疏自动编码器相结合,支持对小型语言模型的特定行为进行调查。
Read MoreBig Code项目发布了旗舰编码模型的另一个版本StarCoder v2。该模型具有16k上下文窗口,经过4T令牌的训练,性能强劲,但仍然低于DeepSeek编码器。StarCoder v2将在程序员社区和人工智能研究领域引起轰动,标志着Big C...
Read More音乐理解通常需要在语言模型中添加特定编码器,这往往既昂贵又不稳定。然而,一项新的研究发现,将音乐转换为ABC符号后,音乐理解能力显著提高,且不会影响基本的语言能力。
Read More近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...
Read More近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...
Read More近日,研究人员提出了一种名为共享网络预训练(SNP)的方法,用于提高视频和文本的联合学习效果。相较于以往的模型,这种方法更加高效和多功能,并且包含了一种独特的策略,称为显著语义强化(S3),以更好地理解句...
Read MoreHEDNet是一种新的编码器-解码器网络,旨在增强自动驾驶中的3D物体检测能力,特别是针对3D场景中稀疏点分布的挑战。该网络采用多分支设计,结合了高效的感受野对齐和多尺度信息融合技术,能够快速而准确地检测出道路...
Read MoreDepth Anything是一种新的单目深度估计方法,它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督,该模型实现了令人印象深刻的泛化能力,并在深度估计方面树立了新的标准...
Read More本文探讨了当前主流的预训练语言模型加入多模态功能的范式。即,在编码器和文本模型之间对齐嵌入。该方法能够让语言模型更好地理解来自视觉和听觉等多个模态的信息,从而提高其自然语言处理的能力。近年来,语言模型...
Read More