漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-08 talkingdev

高斯混合解算器为扩散模型提供更清晰的图像

高斯混合解算器可以增强扩散模型,解决图像合成中的速度-质量平衡问题,为图像的细节和清晰度设定新标准。它基于高斯混合模型,通过聚类技术来确定数据的分布,进而提高图像质量。使用高斯混合模型可以更好地理解图...

Read More
2023-11-02 talkingdev

微软通过重大突破推动小型AI模型的界限

微软研究院已在其较小的语言模型Phi 1.5上增强了多模态能力,使其能够像OpenAI更大的GPT-4模型一样解释图像,但计算成本更低。Phi 1.5模型结合了文本和视觉信息,可以推断出对应的文本或图像。该模型在多个数据集上...

Read More
2023-10-25 talkingdev

Meta推出Habitat 3.0,为智能AI机器人训练模拟真实环境

Meta的FAIR团队推出了Habitat 3.0,这是一个增强的AI模拟环境,用于训练机器人在真实场景中导航。

Read More
2023-10-25 talkingdev

cola,利用视觉语言模型增强视觉推理

Cola是一个使用大型语言模型来协调各种视觉语言模型(VLM)以改进视觉推理的系统。该代码库已经在GitHub上发布。

Read More
2023-10-23 talkingdev

Nvidia推出生成式AI,提升机器人平台兼容性

Nvidia的Deepu Talla强调了生成式AI在机器人领域的进展,该公司在Jetson生成式AI实验室推出了工具,以提高生产力,启用自然语言接口,并增强边缘AI部署。这些工具将有助于开发人员创建更加智能的机器人系统,从而提...

Read More
2023-10-18 talkingdev

4K4D:开源实时4K分辨率下的4D视图合成

随着虚拟现实和增强现实技术的发展,实时的高分辨率图像合成变得越来越重要。美国科罗拉多州立大学的研究人员提出了一种名为4K4D的技术,它可以在4K分辨率下实现实时的4D视图合成。4K4D技术使用了一种新型半透明光场...

Read More
2023-10-17 talkingdev

增强地球观测工具开源

一项新的研究介绍了一种结合不同时间的数字地形模型(DSM)数据和航拍图像的方法,以改进超越2D视角的变化检测。

Read More
2023-10-13 talkingdev

whispering-llama:最新开源多模态融合技术以增强语音识别

研究人员开发了一种新技术,将声音信息和语言数据结合起来,纠正自动语音识别系统中的错误。该技术基于交叉模态融合,使用视觉和语言信息来提供更准确的识别结果。此外,该技术还可以提供更好的语音合成能力。研究人...

Read More
  1. Prev Page
  2. 66
  3. 67
  4. 68
  5. Next Page