马斯克旗下xAI团队开发的Grok模型即将迎来重大更新,内部版本号V7已完成预训练。此次升级的核心突破在于原生多模态能力的实现,模型可直接处理音频和视频输入,标志着通用人工智能在跨模态理解领域迈出关键一步。值...
Read MoreQwen-Image作为一款200亿参数的MMDiT架构图像基础模型,在复杂文本渲染和精准图像生成领域取得重大突破。该模型不仅能实现多语言(包括字母文字和表意文字)的多行文本布局和段落级语义生成,还能保持编辑过程中的语...
Read More中国宇树科技(Unitree Robotics)近日推出革命性产品R1人形机器人,以5900美元(约合人民币4.2万元)的定价震撼业界,创下同类产品最低售价记录。这款重25公斤的机器人搭载先进的多模态人工智能系统,能够实现环境感...
Read MoreTimeScope是一个全新的开源基准测试工具,专门用于评估视觉大模型在处理长视频方面的能力。它不仅测试模型的检索能力,还涵盖了视频合成、时间定位以及细粒度运动分析等多个维度,从而提供对模型时间理解能力的全面...
Read MoreVoxtral团队最新发布了Voxtral Mini和Voxtral Small两款多模态音频聊天模型,在语音理解和文本处理方面均达到业界领先水平。这两款模型能够同时处理语音音频和文本文档,在多项音频基准测试中取得了最先进的性能表现...
Read MoreOpenAI最新推出的ChatGPT Agent标志着人工智能助手能力的重大飞跃。该产品深度融合了Operator的网页浏览功能和Deep Research的分析能力,并配备专属虚拟计算机系统,能够自主完成多步骤复杂任务。从技术架构来看,Ch...
Read More开发者Henry和Roman近日推出开源项目Cactus,这是一个专为智能手机设计的跨平台框架,支持本地部署大型语言模型(LLM)、视觉语言模型(VLM)和文本转语音(TTS)模型。与Ollama专注于笔记本和边缘服务器不同,Cactu...
Read MoreSakana AI最新发布的TreeQuest技术通过创新的多模型协作框架(Multi-LLM AB-MCTS),实现了比单一大型语言模型(LLM)性能提升30%的突破。该技术采用自适应分支蒙特卡洛树搜索(Adaptive Branching Monte Carlo Tree...
Read More