漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-24 talkingdev

xAI聊天机器人Grok新增视觉识别功能,iOS用户可体验

马斯克旗下人工智能公司xAI推出的Grok聊天机器人近日迎来重要升级,新增了视觉识别能力。这一功能允许iOS用户上传图片或通过摄像头捕捉画面,随后向Grok提问关于所看到内容的问题。该功能与OpenAI的ChatGPT和谷歌的G...

Read More
2025-04-23 talkingdev

Cohere发布Embed 4:面向企业的多模态搜索新标杆

Cohere公司最新推出的Embed 4多模态嵌入模型,代表了企业级AI搜索与检索技术的重大突破。该模型具备三大核心优势:首先,在100多种语言中实现了领先的多模态与多语言处理能力,大幅提升跨语言业务场景的适用性;其次...

Read More
2025-04-23 talkingdev

π0.5:具备开放世界泛化能力的视觉语言模型新突破

近日,科技社区热议的π0.5(Pi-0.5)模型在开放世界泛化能力上取得重要进展。该视觉语言模型(VLA)通过创新架构设计,在未见过的新场景中展现出超越同类模型的零样本学习能力。技术博客透露,其核心突破在于动态多...

Read More
2025-04-21 talkingdev

Gemini Advanced用户现可通过Veo 2模型生成高清电影级视频

谷歌最新宣布,Gemini Advanced用户即日起可利用Veo 2模型实现文本到视频的AI生成能力。这项突破性技术可将自然语言描述直接转化为1080P分辨率、具有电影质感的动态影像,标志着多模态AI在视频创作领域的重大进展。V...

Read More
2025-04-21 talkingdev

Gemini图像分割技术揭秘:轻松实现精准视觉识别

Gemini作为谷歌推出的多模态AI模型,其视觉能力一直备受业界关注。最新研究发现,Gemini在图像分割这一计算机视觉核心任务上展现出惊人的易用性。图像分割技术可将数字图像分解为多个具有语义意义的区域,是自动驾驶...

Read More
2025-04-18 talkingdev

ChatGPT在GeoGuesser游戏中表现卓越,地理定位能力再升级

近日,OpenAI的ChatGPT在知名地理定位游戏GeoGuesser中展现出卓越的表现,标志着其在空间理解和图像解析能力上的显著提升。GeoGuesser要求玩家根据随机提供的街景图像精确定位地理位置,而ChatGPT通过结合多模态学习...

Read More
2025-04-17 talkingdev

OpenAI发布o3和o4-mini模型:集成多模态能力,推理速度与工具使用全面升级

OpenAI正式推出新一代o3和o4-mini模型,标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力,显著提升了ChatGPT的复杂任务处理水平。技术层面,o4...

Read More
2025-04-16 talkingdev

HP AI Studio:多模态大语言模型如何重塑医学研究与诊断

惠普AI Studio正通过多模态大语言模型技术推动医学研究与诊断的范式变革。该平台突破性地整合了文本、影像、基因序列等异构医疗数据,利用先进的跨模态表征学习算法,实现了对复杂医学信息的统一解析与深度挖掘。临...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page