漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-04 talkingdev

李飞飞:空间智能将成为AI领域的下一个前沿方向[视频]

斯坦福大学教授、AI领域权威专家李飞飞在最新演讲中指出,空间智能(Spatial Intelligence)是人工智能发展的下一个关键突破口。这段发布在YouTube的演讲视频(观看量已超26万)引发了技术社区的广泛讨论,Hacker Ne...

Read More
2025-06-02 talkingdev

谷歌低调发布AI Edge Gallery应用:支持本地运行Hugging Face模型

谷歌近日悄然推出一款名为AI Edge Gallery的应用程序,该应用允许用户直接在安卓设备上查找、下载并运行来自Hugging Face的兼容AI模型,且无需联网即可使用。这一突破性进展标志着移动端AI技术的重大进步,使得高性...

Read More
2025-05-16 talkingdev

开源OpenThinkIMG:视觉语言模型推理与分布式部署工具库

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...

Read More
2025-05-14 talkingdev

TikTok推出AI Alive功能:静态照片秒变动态视频

TikTok近日正式发布名为AI Alive的创新功能,该技术通过智能编辑工具将用户上传的静态照片转化为具有动态效果的短视频,并应用于Stories板块。这一功能依托于先进的图像识别与生成式AI技术,能够自动分析照片内容并...

Read More
2025-05-05 talkingdev

谷歌推出开源AI模型SpeciesNet,助力生物多样性监测

谷歌近日发布了开源AI模型SpeciesNet,该模型专为通过相机陷阱图像识别动物物种而设计。SpeciesNet此前已应用于Wildlife Insights平台,其开源将显著提升全球生物多样性监测的规模与效率。这一技术突破结合了计算机...

Read More
2025-03-25 talkingdev

Unsloth团队成功优化Gemma 3模型,提供免费Colab训练实例

近日,Unsloth团队宣布已成功解决了来自DeepMind的新开源权重模型——Gemma 3的一些技术难题。通过与Unsloth的工具包集成,开发者现在可以在免费的Google Colab实例上对Gemma 3进行微调训练。这一突破性进展不仅降低了...

Read More
2025-03-17 talkingdev

[开源] Visual reasoning models:提升视觉语言模型推理能力的新工具包

近日,GitHub上发布了一个名为'Visual reasoning models'的开源工具包,旨在训练视觉语言模型(VLMs)以提升其基础逻辑和推理能力。该工具包由groundlight团队开发,主要专注于增强模型在处理复杂视觉数据时的理解和...

Read More
2025-03-12 talkingdev

DeepMind推出革命性图像-文本模型TIPS,刷新多领域性能标杆

DeepMind近日发布了名为TIPS的新型图像-文本模型,专为密集型和全局视觉任务设计。该模型通过结合对比学习与掩码图像建模技术,并利用合成字幕进行训练,显著提升了空间感知能力。在多项基准测试中,TIPS的表现均超...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page