漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-25 talkingdev

[开源] Magnitude:基于视觉大模型的Web应用测试框架,开源发布

开发者Anders和Tom近日在Hacker News上宣布推出Magnitude,一个完全开源的、基于视觉大模型(VLM)的端到端Web应用测试框架。该框架旨在解决传统浏览器代理测试工具速度慢、成本高且结果不一致的问题。Magnitude采用...

Read More
2025-04-24 talkingdev

xAI聊天机器人Grok新增视觉识别功能,iOS用户可体验

马斯克旗下人工智能公司xAI推出的Grok聊天机器人近日迎来重要升级,新增了视觉识别能力。这一功能允许iOS用户上传图片或通过摄像头捕捉画面,随后向Grok提问关于所看到内容的问题。该功能与OpenAI的ChatGPT和谷歌的G...

Read More
2025-04-21 talkingdev

Gemini图像分割技术揭秘:轻松实现精准视觉识别

Gemini作为谷歌推出的多模态AI模型,其视觉能力一直备受业界关注。最新研究发现,Gemini在图像分割这一计算机视觉核心任务上展现出惊人的易用性。图像分割技术可将数字图像分解为多个具有语义意义的区域,是自动驾驶...

Read More
2024-09-19 talkingdev

3000个免费SVG图标,助力热门品牌形象提升

近日,设计师社区发布了3000个免费的SVG图标,专为热门品牌设计。这些图标涵盖了广泛的行业和用途,旨在为设计师、开发者以及品牌营销人员提供灵活的视觉资源。SVG格式的优势在于其可缩放性,使得这些图标在不同尺寸...

Read More
2024-04-15 talkingdev

xAI发布Grok-1.5视觉预览,性能媲美顶尖模型

xAI公司近日宣布,其最新旗舰模型Grok-1.5已具备视觉功能,与现有最先进模型相比肩,甚至在某些方面超越。Grok-1.5的推出,标志着xAI在人工智能视觉识别领域迈出了重要一步。该模型利用深度学习技术和大量图像数据进...

Read More
2023-09-14 talkingdev

instaflow-利用流校正技术实现文本到图像生成的超速进程

研究人员已经找到一种方法,通过使用名为校正流(Rectified Flow)的技术,加快将文本转化为图像的过程。校正流技术是一种新颖的方法,它可以加速和优化图像的生成过程。这种方法凭借其高效的性能,为文本到图像的快...

Read More
2023-09-11 talkingdev

通过一张照片,精准定位篮球在3D空间的位置

本研究的作者们开发了一种新方法,只需要一张照片,就能准确地确定篮球在3D空间中的位置。这对于体育分析和机器人技术等领域来说,具有重大意义。对于传统的3D定位技术,通常需要多个相机或传感器才能实现精确定位,...

Read More
2023-08-08 talkingdev

AI与人类视觉对齐数据集——AI是否能像人类一样“看”图像?

本研究引入了一种数据集,用于探究AI是否能像人类一样“看”图像。该数据集主要分为三个组别——Must-Act、Must-Abstain和Uncertain——设计用于测试AI在清晰、不清晰或模糊图像上的决策能力。Must-Act组中的图像是明确的...

Read More
  1. Next Page