3D场景的相关内容 - 漫话开发者

2025-05-23 talkingdev

[论文推荐]字节跳动发布开源多模态基础模型BAGEL，支持跨模态理解与生成

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务，在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力，包括图像编辑、3D场景操作和世界导航等复杂...

2025-04-18 talkingdev

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架，这一突破性技术通过整合视觉语言对比学习（Contrastive Learning）与场景描述（Captioning）两大前沿方向，实现了对三维场景的多模态联合理解。该框...

2025-03-26 talkingdev

视觉几何基础Transformer（Visual Geometry Grounded Transformer，简称VGGT）是一种前馈神经网络，能够直接从场景的一个、几个甚至数百个视角中推断出所有关键的3D属性，包括外部和内部相机参数、点云图、深度图以...

2025-03-26 talkingdev

FFaceNeRF是一种基于NeRF（神经辐射场）的3D人脸编辑技术，通过克服传统NeRF方法中固定蒙版的限制，显著提升了3D人脸编辑的灵活性和精度。NeRF作为近年来计算机视觉领域的热门技术，能够在3D场景重建中生成高质量的...

2025-03-20 talkingdev

近日，Stability推出了一项名为Stable Virtual Camera的创新技术，该技术基于一种多视角扩散模型，能够从单张或多张2D图像中生成沉浸式3D视频。这一技术允许用户自定义或预设相机轨迹，从而实现对3D场景的灵活控制。...

2025-03-19 talkingdev

近日，一项名为Niagara的创新框架在3D场景重建领域取得了重要进展。该框架通过从单张图像中重建户外3D场景，结合深度和法线估计，以及几何仿射场和3D高斯解码技术，显著提升了重建的精确度和效率。这一技术不仅解决...

2025-02-25 talkingdev

近日，一项名为Cast4的技术在3D场景生成领域取得了重要突破。该技术通过复杂的算法流程，能够从单张RGB图像中生成完整的3D场景，尤其适用于室内场景的建模。传统方法在从单张图像生成3D场景时面临诸多挑战，而Cast4...

2024-12-27 talkingdev

技术爱好者在Hacker News上展示了其最新成果，一款基于蒙特卡洛光线追踪技术的WebGPU版本，用于渲染glTF格式的场景。glTF是一种用于3D场景的运行时资产传输格式，而WebGPU则是一个旨在提供现代GPU功能的Web标准，包...