这篇论文介绍了一种名为ICTC的基于文本条件的图像聚类方法,该方法利用视觉语言模型根据用户提供的文本描述对图像进行排序。ICTC方法使用了预训练的视觉语言模型来生成图像和文本之间的嵌入,然后使用这些嵌入来聚...
Read MoreOpenAI的Whisper Large v2音频转录模型发布了。这个模型采用了非常先进的技术,可以在不到10分钟的时间内转录出300分钟的音频。这一速度远远超过了之前的音频转录模型,对于信息的获取和处理提供了极大的便利。这个...
Read MoreStable Diffusion的团队推出了开放共情项目,旨在促进开源人工智能系统中的情感检测能力,以实现更真实的AI-人类交互。该项目的目标是推动AI系统开发,使其能够识别和适应用户的情感状态,并相应地作出反应。该项目...
Read More近日,一项名为‘Real-Time Depth Estimation for Underwater Vehicles’的研究成果在GitHub上发布。该研究提出了一种针对水下车辆的模型,可以通过结合稀疏深度细节从单个图像中实时估计深度。该模型是通过深度学习框...
Read More研究人员发现,当前领先的开源文本图像模型SDXL在推理时间上有了显著的加速,其速度提升了60%,同时体积缩小了50%。研究人员声称,在使用中,图像质量只有轻微的降低。
Read MorePolyfire是一个开源的后端管理平台,为AI应用提供一站式的解决方案。它包括数据管理、模型管理、部署和监控等功能,可以帮助开发团队快速搭建和管理AI应用的后端。Polyfire支持多种框架和语言,例如PyTorch、TensorF...
Read More近日,研究人员开源了名为AgentTuning的GitHub仓库。该仓库提供了一种新的方法来调整语言模型。这种方法通过多个智能体任务中的交互轨迹来训练和调整语言模型,从而更好地适应不同的任务和场景。这种方法可以提高语...
Read MoreDeepSparse是一种CPU推理运行时,它利用稀疏性加速神经网络推理。稀疏性是指神经网络中有很多权重为零的连接,DeepSparse利用这些零权重的连接,跳过不必要的计算,从而实现推理加速。DeepSparse是一个开源项目,可...
Read More