漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-13 talkingdev

[开源]LM-Implicit-Reasoning:探究语言模型的逐步隐式推理能力

近日,GitHub开源项目LM-Implicit-Reasoning引发了广泛关注。该研究深入探讨了语言模型在逐步隐式推理方面的表现,揭示了其在处理包含变量作为减数的表达式时的泛化能力不足的问题。语言模型在自然语言处理(NLP)领...

Read More
2025-03-13 talkingdev

[论文推荐]TaylorSeer提出基于泰勒级数扩展的扩散模型未来特征预测方法

近日,TaylorSeer团队提出了一种利用泰勒级数扩展来预测扩散模型中未来时间步特征的新方法,显著减少了特征缓存中的误差。扩散模型在生成图像、声音和其他复杂数据方面表现出色,但其计算复杂度和资源消耗一直是制约...

Read More
2025-03-13 talkingdev

谷歌发布开源权重模型Gemma 3,性能接近Gemini 1.5 Pro

谷歌近日发布了Gemma 3模型的权重和技术报告,这一模型共有四种规模,其性能与Gemini 1.5 Pro相当。Gemma 3不仅在多语言处理上表现出色,能够理解超过140种语言,还被认为是接近当前最先进的密集模型之一。这一发布...

Read More
2025-03-12 talkingdev

感知高效重建(GitHub Repo):文本查询与3D重建的融合

在计算机视觉和人工智能领域,3D重建技术一直是一个重要的研究方向。最近,GitHub上出现了一个名为“Perception Efficient Reconstruction”(PE3R)的项目,该项目将文本查询功能与从图像中进行3D重建的技术相结合,...

Read More
2025-03-12 talkingdev

YoloE:实现实时开放词汇检测的小型视觉模型

YoloE 是一种创新的小型视觉模型,能够通过多种方式进行提示,以实现开放词汇检测。这意味着用户可以使用类别、图像和文本来决定模型应该检测的内容。特别值得一提的是,YoloE 的运行速度高达 300 帧每秒(fps),使...

Read More
2025-03-12 talkingdev

Hugging Face推出LeRobot平台扩展,发布最大开源多模态汽车AI数据集

Hugging Face与Yaak合作推出了L2D数据集,这是目前最大的开源多模态数据集,专为汽车人工智能(AI)领域设计。该数据集包含了从驾驶学校收集的专家和学生驾驶策略,并通过自然语言指令增强了空间智能模型的能力。这...

Read More
2025-03-12 talkingdev

AI生成语音证据在法庭中引发安全隐患

随着人工智能技术的快速发展,AI生成的语音证据逐渐进入司法领域,但其潜在的安全隐患也引发了广泛关注。专家指出,AI生成的语音可以高度模仿真实人声,甚至达到以假乱真的程度,这可能导致法庭在审理案件时误判。尤...

Read More
2025-03-11 talkingdev

微软探索为Copilot开发3D游戏体验

微软正在为Copilot开发基于浏览器的3D游戏体验,重点关注Babylon.js、three.js和Unity等引擎。这一举措表明微软在人工智能助手领域不断扩展其功能,结合游戏技术为用户带来更丰富、更具交互性的体验。这不仅展示了微...

Read More
  1. Prev Page
  2. 133
  3. 134
  4. 135
  5. Next Page