Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用,这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法,它优化了视觉和语言之间的协同工...
Read MoreOpenAI的GPT商店现已对所有用户开放,用户可以自由浏览和使用。OpenAI的GPT商店提供了一系列的GPT模型以供选择,包括GPT-3、GPT-2等。这些模型已被广泛应用于各种人工智能应用中,如聊天机器人、文本生成、自然语言...
Read MoreHopfield Boosting是一种技术,该技术利用现代Hopfield能量来增强在机器学习模型中对分布外(OOD)数据的检测。在机器学习中,处理OOD数据一直是一项挑战,因为这些数据往往不符合模型的预期分布。通过Hopfield Boos...
Read MoreNous Hermes发布了全新的Theta模型,该模型是Hermes 2 Pro和Llama 3 8B instruct的结合。它具有出色的函数调用能力,并在各种基准测试中表现强劲。Hermes 2 Pro是一款高性能的模型,而Llama 3 8B instruct则以其强大...
Read More近日,EfficientTrain++推出了一种新颖的课程学习策略,显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉,这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...
Read More扰动注意力指引(PAG)是一种提升扩散模型生成图像质量的新方法,无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制,PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...
Read More3D模型的生成一直是一个挑战。Coin3D提供了一个解决方案,允许用户首先输入一个粗糙的网格,然后运行生成,这使得用户可以更精细地控制模型,并提高模型的输出质量。这种方法不仅提高了模型的精度,也为用户节省了大...
Read More最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...
Read More