漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-08 talkingdev

EGIInet引领多模态点云补全新方法开源

EGIInet最近推出了一种新的点云补全方法,通过几何任务引导有效地结合了两种模态。这种方法的核心在于,通过几何任务引导,可以使两种模态的结合更为有效,从而达到更好的点云补全效果。EGIInet在GitHub上公开了这种...

Read More
2024-07-08 talkingdev

SDXL全新训练,搭载全套LLM嵌入器(Hugging Face Hub)

SDXL是一款出色且开放的扩散模型,其搭载了全套LLM嵌入器(Hugging Face Hub),能够展现出强大的文本理解能力。这款模型的训练过程是从零开始的,开发者们通过将LLM嵌入到模型中,来增强其对文本内容的理解和解析能...

Read More
2024-07-06 talkingdev

Fabric:开源框架可利用人工智能增强人类能力

Fabric是一款由加拿大滑铁卢大学团队开发的开源框架,旨在利用人工智能技术来增强人类的认知和行为能力。该框架结合了人工智能、机器学习、智能传感器等技术,可用于开发各种可穿戴设备和智能环境。使用Fabric,人们...

Read More
2024-07-05 talkingdev

FlexiFilm-新扩散模型助力长视频生成

FlexiFilm 是一种专门为生成超过30秒的长视频而设计的扩散模型,它能够保证生成的视频具有高度的一致性和质量。这一新模型的出现,将在视频制作领域开启新的可能性。视频长度不再受限,而且模型生成的视频质量也得以...

Read More
2024-07-05 talkingdev

SEMamba:一种基于Mamba状态空间模型的语音增强系统

SEMamba是一款全新的语音增强系统,它利用了Mamba状态空间模型来提高语音信号的清晰度。这款语音增强系统的主要目标是通过去噪和清晰的语音信号处理,来提高人们的语音识别和理解。SEMamba系统具有高度的灵活性,能...

Read More
2024-07-05 talkingdev

OpenStreetView:一个全球图像街景定位数据集开放

OpenStreetView-5M是一个重要的开放获取数据集,包含超过500万张来自225个国家的地理标签街道图像。该数据集旨在通过测试图像定位能力,推动计算机视觉的极限。OpenStreetView-5M不仅覆盖了全球范围内的街道图像,也...

Read More
2024-07-05 talkingdev

Magic Insert-谷歌开源图像语义对象插入技术

谷歌近日推出了一种名为'Magic Insert'的新方法,该方法可以通过扩散方式将语义对象插入到图像中。这种新技术打破了传统的图像处理方式,能够将语义对象与图像进行深度融合,从而产生更为逼真的视觉效果。谷歌同时也...

Read More
2024-07-05 talkingdev

论文:CELLO-增强因果理解的全新数据集

CELLO是一种全新的数据集,包含了14,094个因果问题,旨在提升AI对因果关系理解的能力,超越了常识推理的层次。这个数据集的构建,旨在推动AI技术在处理更复杂问题时,具有更深沉的因果关系理解。由此,可以有效提升...

Read More
  1. Prev Page
  2. 210
  3. 211
  4. 212
  5. Next Page