漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-12-20 talkingdev

OpenAI O3模型在ARC-AGI-PUB测试中取得突破性高分

近日,人工智能研究实验室OpenAI宣布其最新一代的大型语言模型(LLM)O3在人工智能综合基准测试ARC-AGI-PUB中取得了显著成绩。这一测试旨在评估模型在理解和生成复杂语言任务中的能力,是衡量人工智能进步的关键指标...

Read More
2024-07-15 talkingdev

MARS-基于全新视觉语言模型改进文生图技术

MARS是一种全新的文本到图像(T2I)生成框架,它引入了语义视觉-语言集成专家(SemVIE)的特征。这种新型框架的主要目标是改进现有的T2I生成技术,使其能更好地理解和处理复杂的视觉语言任务。借助SemVIE,MARS能够实现...

Read More
2024-07-09 talkingdev

PartCraft:突破传统的视觉AI生成控制新方法

近期,一种名为PartCraft的新型视觉AI生成方法引起了业界的广泛关注。不同于传统的文本或素描基础方法,PartCraft允许用户通过部分选择视觉概念。这一创新的方式为视觉AI生成提供了更多可能性,使得用户可以更灵活、...

Read More
2024-04-28 talkingdev

苹果发布开源LLM系列产品OpenELM

苹果公司近日发布了OpenELM,这是一套包含八种开源语言模型(LLM)的系列产品。这些模型可以高效地在单一设备上运行,用于文本生成任务,其参数大小范围从2.7亿到30亿。OpenELM的发布,标志着苹果在人工智能与机器学...

Read More
2024-04-11 talkingdev

谷歌Gemini Pro 1.5在Vertex AI平台上开启公开预览

谷歌在其Vertex AI平台上公开预览了最新一代生成型AI模型Gemini 1.5 Pro。该模型提供了高达100万个标记的大容量上下文窗口,这使得它能够处理更复杂的文本生成任务,同时保持高效的计算性能。此举进一步展示了谷歌在...

Read More
2023-12-15 talkingdev

微软轻量可部署本地的语言模型Phi-2发布

微软的最新模型现已在HuggingFace上提供研究用途。Phi-2是一种基于Transformers的语言生成模型,它被训练用于生成各种文本,包括问答、对话和自然语言生成。该模型采用的是自回归模式,即在生成下一个单词或字符时,...

Read More
2023-11-09 talkingdev

基于Transformer扩散模型的训练成本比基于UNet的模型便宜90%

PixArt是一种新的文本到图像模型,它使用T5文本编码、交叉注意力和扩散变压器,以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型,可以比使用UNet模型训练快90%。PixArt模型的训练...

Read More
2023-10-11 talkingdev

全新视频标记化工具MAGVIT-v2:提升视觉生成的重要武器

近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具,有效地将图像和视频输入转化为大型语言模型(LLM)的标记。使用MAGVIT-v2,LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容(如图像...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page