漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-23 talkingdev

[论文推荐]字节跳动发布开源多模态基础模型BAGEL,支持跨模态理解与生成

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务,在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力,包括图像编辑、3D场景操作和世界导航等复杂...

Read More
2025-04-18 talkingdev

[论文推荐]3D CoCa:融合视觉语言对比学习与场景描述的统一3D场景理解框架

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架,这一突破性技术通过整合视觉语言对比学习(Contrastive Learning)与场景描述(Captioning)两大前沿方向,实现了对三维场景的多模态联合理解。该框...

Read More
2025-03-26 talkingdev

[开源] 视觉几何基础Transformer (VGGT) GitHub 项目发布

视觉几何基础Transformer(Visual Geometry Grounded Transformer,简称VGGT)是一种前馈神经网络,能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性,包括外部和内部相机参数、点云图、深度图以...

Read More
2025-03-26 talkingdev

[论文推荐] FFaceNeRF:突破NeRF方法中的固定蒙版限制,实现更高效的3D人脸编辑

FFaceNeRF是一种基于NeRF(神经辐射场)的3D人脸编辑技术,通过克服传统NeRF方法中固定蒙版的限制,显著提升了3D人脸编辑的灵活性和精度。NeRF作为近年来计算机视觉领域的热门技术,能够在3D场景重建中生成高质量的...

Read More
2025-03-20 talkingdev

Stability发布沉浸式3D视频生成技术:Stable Virtual Camera

近日,Stability推出了一项名为Stable Virtual Camera的创新技术,该技术基于一种多视角扩散模型,能够从单张或多张2D图像中生成沉浸式3D视频。这一技术允许用户自定义或预设相机轨迹,从而实现对3D场景的灵活控制。...

Read More
2025-03-19 talkingdev

Niagara推出单视图3D场景重建新框架

近日,一项名为Niagara的创新框架在3D场景重建领域取得了重要进展。该框架通过从单张图像中重建户外3D场景,结合深度和法线估计,以及几何仿射场和3D高斯解码技术,显著提升了重建的精确度和效率。这一技术不仅解决...

Read More
2025-02-25 talkingdev

Cast4技术突破:单张RGB图像生成完整3D场景

近日,一项名为Cast4的技术在3D场景生成领域取得了重要突破。该技术通过复杂的算法流程,能够从单张RGB图像中生成完整的3D场景,尤其适用于室内场景的建模。传统方法在从单张图像生成3D场景时面临诸多挑战,而Cast4...

Read More
2024-12-26 talkingdev

蒙特卡洛光线追踪器:WebGPU实现glTF场景渲染

技术爱好者在Hacker News上展示了其最新成果,一款基于蒙特卡洛光线追踪技术的WebGPU版本,用于渲染glTF格式的场景。glTF是一种用于3D场景的运行时资产传输格式,而WebGPU则是一个旨在提供现代GPU功能的Web标准,包...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page