漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-19 talkingdev

谷歌新型机器人AI实现精细折纸与拉链袋无损操作

谷歌DeepMind近日发布了Gemini Robotics和Gemini Robotics-ER两款AI模型,显著提升了机器人的精细运动技能和现实应用中的适应性。Gemini Robotics整合了视觉、语言与行动能力,使机器人能够完成如折纸等复杂任务。初...

Read More
2025-03-19 talkingdev

在浏览器中训练XGBoost:基于WASM加速的训练系统

这篇博客文章详细介绍了如何构建一个基于浏览器并通过WebAssembly(WASM)加速的XGBoost训练系统。XGBoost作为一种高效的机器学习算法,广泛应用于数据科学和人工智能领域。通过利用WASM技术,开发者能够在浏览器环...

Read More
2025-03-19 talkingdev

[开源] MaTVLM:融合Mamba-2层的混合视觉语言模型

MaTVLM是一个创新的混合视觉语言模型,通过将Mamba-2层集成到预训练的视觉语言模型(VLM)中,显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注,也为工业界的应用带来了新的可能性。视觉语...

Read More
2025-03-19 talkingdev

[开源] Stability AI发布多视角虚拟相机系统,支持新颖视图合成

Stability AI近日发布了一款强大的多视角虚拟相机系统,该系统能够实现新颖视图合成(Novel View Synthesis),为用户提供了一种高效且非商业化的解决方案。虽然该技术尚未达到行业最先进水平,但其优势在于仅需两次...

Read More
2025-03-19 talkingdev

[论文推荐]reWordBench:揭示奖励模型在提示词重述下的脆弱性

近期,一项名为reWordBench的研究揭示了当前流行的奖励模型在面对提示词(prompt)的简单重述时表现出的脆弱性。该研究不仅提出了一个基准测试,还探讨了一种潜在的策略,以增强这些模型的鲁棒性。奖励模型在人工智...

Read More
2025-03-19 talkingdev

[论文推荐]SmolDocling:极小型高效文档OCR模型

近日,一款名为SmolDocling的新型文档OCR(光学字符识别)模型引发广泛关注。该模型以其极小的规模和高效的性能脱颖而出,成为文档处理领域的最新突破。SmolDocling不仅能够实现闪电般的处理速度,还具备足够的准确...

Read More
2025-03-19 talkingdev

Niagara推出单视图3D场景重建新框架

近日,一项名为Niagara的创新框架在3D场景重建领域取得了重要进展。该框架通过从单张图像中重建户外3D场景,结合深度和法线估计,以及几何仿射场和3D高斯解码技术,显著提升了重建的精确度和效率。这一技术不仅解决...

Read More
2025-03-19 talkingdev

Roblox开源其生成式3D模型Cube,革新虚拟世界创作

Roblox近日宣布开源其生成式AI系统Cube,该系统专注于3D和4D模型的生成。Cube的Beta版本将被集成到Roblox Studio中,并作为Lua API供开发者使用。这一重大技术突破不仅展示了Roblox在生成式AI领域的深厚积累,更预示...

Read More
  1. Prev Page
  2. 26
  3. 27
  4. 28
  5. Next Page