漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-28 talkingdev

Pippo开源:单张图生成高分辨率多视角3D模型

Meta研究院推出的Pippo项目突破传统三维重建技术限制,开发了一套无需预训练模型的虚拟人体生成系统。该系统仅需输入单张二维人像,即可输出具有高保真细节的多视角3D人体表征,其核心技术可能涉及神经辐射场(NeRF...

Read More
2025-04-22 talkingdev

Magewell推出革命性Eco M.2 HDMI采集卡:PCIe直连超低延迟

专业视频技术厂商Magewell近日发布业界首款采用M.2接口的Eco系列HDMI采集卡,该产品通过PCIe 3.0 x1接口直接与主板连接,实现4K30fps/1080p60fps的视频采集能力,端到端延迟低于0.1帧。相比传统USB采集方案,M.2接口...

Read More
2025-04-19 talkingdev

Raspberry Pi推出高精度Lidar扫描仪,开启低成本3D感知新纪元

近日,Raspberry Pi基金会正式发布基于其单板计算机的Lidar扫描解决方案,该设备通过脉冲激光测距技术可实现毫米级精度的三维环境建模。这款兼容Raspberry Pi 4/5的Lidar模块采用TOF(飞行时间)原理,最大测距达12...

Read More
2025-04-18 talkingdev

跨平台游戏引擎Defold:开发者新选择

Defold作为一款轻量级、高性能的跨平台游戏引擎,正逐渐成为全球开发者的新宠。其支持2D和3D游戏开发,并具备一键发布至多平台的能力,包括iOS、Android、HTML5、Windows、macOS和Linux等。Defold采用Lua脚本语言,...

Read More
2025-04-18 talkingdev

Meta发布多项AI新成果:图像编码器、视觉语言模型及3D物体定位系统

Meta公司近日重磅推出四项人工智能领域的重要技术成果:1)高性能图像编码器,可优化视觉数据的特征提取效率;2)视觉语言模型(VLM),实现跨模态理解与生成;3)基于联合嵌入预测架构(JEPA)的3D物体定位模型,突...

Read More
2025-04-18 talkingdev

[论文推荐]3D CoCa:融合视觉语言对比学习与场景描述的统一3D场景理解框架

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架,这一突破性技术通过整合视觉语言对比学习(Contrastive Learning)与场景描述(Captioning)两大前沿方向,实现了对三维场景的多模态联合理解。该框...

Read More
2025-04-17 talkingdev

HDR技术赋能Emoji:新一代高动态范围表情符号亮相

近日,技术领域迎来一项创新突破——HDR-Infused Emoji正式发布。这一技术将高动态范围(HDR)成像应用于Emoji设计,显著提升了表情符号的色彩表现力和视觉冲击力。传统Emoji受限于标准动态范围(SDR),色彩层次和亮...

Read More
2025-04-15 talkingdev

[论文推荐]InteractVLM:基于2D基础模型的3D交互推理新突破

InteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page