本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台,以优化模型训练的性能和...
Read More近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...
Read More据报道,OpenAI计划在进行漏洞测试和设置安全防护措施后,于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型,这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...
Read More这项研究介绍了一种创新的视频生成方法,使用状态空间模型(SSMs)克服了传统的基于注意力扩散模型的内存限制,重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中,SSMs能够创建具有竞争力质量的更长...
Read MoreMoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...
Read More互联网档案馆拥有超过2亿个OCR图书页面,可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...
Read MoreBonito是一种开源模型,旨在将未注释的文本转换为定制的训练数据集,从而增强大型语言模型对专业任务的适应性,而不需要预先存在的注释。
Read More这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...
Read More本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。
Read More