马斯克旗下人工智能公司xAI推出的Grok聊天机器人近日迎来重要升级,新增了视觉识别能力。这一功能允许iOS用户上传图片或通过摄像头捕捉画面,随后向Grok提问关于所看到内容的问题。该功能与OpenAI的ChatGPT和谷歌的G...
Read MoreCohere公司最新推出的Embed 4多模态嵌入模型,代表了企业级AI搜索与检索技术的重大突破。该模型具备三大核心优势:首先,在100多种语言中实现了领先的多模态与多语言处理能力,大幅提升跨语言业务场景的适用性;其次...
Read More近日,科技社区热议的π0.5(Pi-0.5)模型在开放世界泛化能力上取得重要进展。该视觉语言模型(VLA)通过创新架构设计,在未见过的新场景中展现出超越同类模型的零样本学习能力。技术博客透露,其核心突破在于动态多...
Read More谷歌最新宣布,Gemini Advanced用户即日起可利用Veo 2模型实现文本到视频的AI生成能力。这项突破性技术可将自然语言描述直接转化为1080P分辨率、具有电影质感的动态影像,标志着多模态AI在视频创作领域的重大进展。V...
Read MoreGemini作为谷歌推出的多模态AI模型,其视觉能力一直备受业界关注。最新研究发现,Gemini在图像分割这一计算机视觉核心任务上展现出惊人的易用性。图像分割技术可将数字图像分解为多个具有语义意义的区域,是自动驾驶...
Read More近日,OpenAI的ChatGPT在知名地理定位游戏GeoGuesser中展现出卓越的表现,标志着其在空间理解和图像解析能力上的显著提升。GeoGuesser要求玩家根据随机提供的街景图像精确定位地理位置,而ChatGPT通过结合多模态学习...
Read MoreOpenAI正式推出新一代o3和o4-mini模型,标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力,显著提升了ChatGPT的复杂任务处理水平。技术层面,o4...
Read More惠普AI Studio正通过多模态大语言模型技术推动医学研究与诊断的范式变革。该平台突破性地整合了文本、影像、基因序列等异构医疗数据,利用先进的跨模态表征学习算法,实现了对复杂医学信息的统一解析与深度挖掘。临...
Read More