近日,人工智能研究实验室OpenAI宣布其最新一代的大型语言模型(LLM)O3在人工智能综合基准测试ARC-AGI-PUB中取得了显著成绩。这一测试旨在评估模型在理解和生成复杂语言任务中的能力,是衡量人工智能进步的关键指标...
Read MoreMARS是一种全新的文本到图像(T2I)生成框架,它引入了语义视觉-语言集成专家(SemVIE)的特征。这种新型框架的主要目标是改进现有的T2I生成技术,使其能更好地理解和处理复杂的视觉语言任务。借助SemVIE,MARS能够实现...
Read More近期,一种名为PartCraft的新型视觉AI生成方法引起了业界的广泛关注。不同于传统的文本或素描基础方法,PartCraft允许用户通过部分选择视觉概念。这一创新的方式为视觉AI生成提供了更多可能性,使得用户可以更灵活、...
Read More苹果公司近日发布了OpenELM,这是一套包含八种开源语言模型(LLM)的系列产品。这些模型可以高效地在单一设备上运行,用于文本生成任务,其参数大小范围从2.7亿到30亿。OpenELM的发布,标志着苹果在人工智能与机器学...
Read More谷歌在其Vertex AI平台上公开预览了最新一代生成型AI模型Gemini 1.5 Pro。该模型提供了高达100万个标记的大容量上下文窗口,这使得它能够处理更复杂的文本生成任务,同时保持高效的计算性能。此举进一步展示了谷歌在...
Read More微软的最新模型现已在HuggingFace上提供研究用途。Phi-2是一种基于Transformers的语言生成模型,它被训练用于生成各种文本,包括问答、对话和自然语言生成。该模型采用的是自回归模式,即在生成下一个单词或字符时,...
Read MorePixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...
Read More近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具,有效地将图像和视频输入转化为大型语言模型(LLM)的标记。使用MAGVIT-v2,LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容(如图像...
Read More