近日,一项名为RGL的模块化框架在arXiv上发布,专为图结构数据的检索增强生成(RAG)流程提供了全新的解决方案。RGL通过其模块化设计和性能优化,显著提升了传统方法的效率,据称其速度提升了高达143倍。这一突破性...
Read MoreOpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...
Read MoreSISO(Single Image Iterative Subject-driven Generation and Editing)是一种无需训练的推理时优化方法,能够从单张图像中个性化生成或编辑图像内容。该技术通过高效的优化算法,直接在推理阶段实现对图像主体的个...
Read More视觉几何基础Transformer(Visual Geometry Grounded Transformer,简称VGGT)是一种前馈神经网络,能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性,包括外部和内部相机参数、点云图、深度图以...
Read MoreFastCuRL-1.5B-Preview 是一种基于课程强化学习(Curriculum Reinforcement Learning)的慢思维推理模型,该模型在较少的训练步骤中实现了最先进的性能,展示了其在复杂推理任务中的潜力。相比传统方法,FastCuRL 通...
Read More近日,Dereflection Any Image(DAI)项目推出了一种基于扩散模型的图像反反射新技术,该技术利用高质量数据集和渐进式训练方法,显著提升了图像反反射的效果。反反射技术一直是计算机视觉领域的重要研究方向,尤其...
Read MoreVideo T1 是一种创新的视频处理技术,通过使用引导模型来拒绝不符合物理规律或用户指定提示的帧路径,显著提升了视频生成的质量。该技术的核心在于测试时计算(test time compute),这一方法在性能基准测试中表现出...
Read MoreFFaceNeRF是一种基于NeRF(神经辐射场)的3D人脸编辑技术,通过克服传统NeRF方法中固定蒙版的限制,显著提升了3D人脸编辑的灵活性和精度。NeRF作为近年来计算机视觉领域的热门技术,能够在3D场景重建中生成高质量的...
Read More