漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-16 talkingdev

文本驱动的图像编辑无需蒙版

研究人员开发了一种基于文本提示进行图像编辑的独特方法。这种方法使用文本到图像模型和边界框生成器来识别需要编辑的区域,从而无需蒙版或草图即可进行更改。该方法可实现文本驱动的图像编辑,可以大大提高图像编辑...

Read More
2024-02-16 talkingdev

研究人员发布关于LLM隐私的综合报告

研究人员对是否可能判断数据点是否用于训练大型语言模型进行了全面研究。他们测试了各种模型,并发现,在大多数情况下,这些攻击并不比随机猜测更好。

Read More
2024-02-16 talkingdev

Facebook发布开源音频生成模型MaGNET

近日,Facebook发布了一款最先进的开源音频模型MaGNET,该模型速度是其他替代品的7倍,而且不会影响音频质量。MaGNET模型可以生成音乐和音效。MaGNET模型的论文已经发布,更多详情请访问GitHub仓库。

Read More
2024-02-16 talkingdev

LWM-视频语言模型可回答长达小时的视频问题

近期,一种新型的视频语言模型已经问世,可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型,能够在检索基准测试中表现极其准确,胜过商业化视频语言模型

Read More
2024-02-16 talkingdev

Google发布Lumiere文本到视频模型

Google最近推出了一种新的文本到视频模型Lumiere,该模型可以将图像和风格作为输入,并使用一种新颖的“空时UNet”同时扩散所有内容。该模型采用了深度学习技术,可以将文本内容转换为相对应的视频,并且不需要任何人...

Read More
2024-02-16 talkingdev

SEINE:将短视频制作成长视频

SEINE是一种创新的视频传播模型,其通过文本描述来引导短的AI生成视频剪辑,将其扩展为无缝且具有想象力的场景过渡,形成更长的、故事级别的视频序列。

Read More
2024-02-16 talkingdev

OpenAI终止国家赞助的行为

OpenAI发现并终止了与国家相关联的账户,这些账户使用GPT模型进行恶意行为。

Read More
2024-02-16 talkingdev

谷歌推出下一代AI模型Gemini 1.5,开发者和企业用户可以提前体验

谷歌推出了Gemini 1.5,开发者和企业用户可以提前体验,而消费者版的全面推出还需要等待。新版Gemini的性能高端,与谷歌最近推出的高端Gemini Ultra相媲美。Gemini 1.5采用了专家混合技术,使得模型对于用户而言更快...

Read More
  1. Prev Page
  2. 282
  3. 283
  4. 284
  5. Next Page