漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-11 talkingdev

[开源]LLaVA-STF:高效多模态推理技术实现75%的视觉令牌压缩

LLaVA-STF项目通过创新的相邻令牌合并技术和多区块令牌融合模块,成功将视觉令牌序列压缩75%,显著提升了多模态推理效率。该技术突破性地解决了视觉语言模型中长序列处理带来的计算资源消耗问题,通过动态合并语义相...

Read More
2025-06-10 talkingdev

Hugging Face推出ScreenSuite:标准化评估GUI智能体的新基准套件

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...

Read More
2025-05-30 talkingdev

[开源]Meta提出零样本嫁接技术:降低VLM训练成本45%

Meta研究团队最新提出的零样本嫁接(zero-shot grafting)方法,通过从大型语言模型(LLM)的浅层中提取小型代理模型来训练视觉编码器,实现了视觉语言模型(VLM)训练成本降低约45%的突破。该技术不仅显著降低了计...

Read More
2025-05-29 talkingdev

DeepSeek-R1-0528:开源大模型新突破

DeepSeek团队在Hugging Face平台发布了最新的大语言模型DeepSeek-R1-0528,引发了技术社区的广泛关注。该模型在Hacker News上获得了330个点赞和148条评论,显示出业界对其技术价值的认可。作为开源大模型领域的重要...

Read More
2025-05-27 talkingdev

[论文推荐]ICYM2I框架:基于逆概率加权的多模态学习缺失模态评估新方法

来自arXiv的最新研究提出ICYM2I框架,通过逆概率加权技术解决多模态模型在数据缺失场景下的信息增益评估偏差问题。该研究针对医疗影像、自动驾驶等依赖多源数据融合的前沿领域,首次系统性地建立了缺失模态条件下的...

Read More
2025-05-26 talkingdev

谷歌Veo AI视频技术亮相Flow TV平台,展示用户生成内容新形态

谷歌旗下实验室推出的Flow TV平台,通过持续流媒体形式展示由用户生成的AI视频片段及其对应提示词,并按主题频道进行分类。该平台基于谷歌最新Veo AI视频生成技术,标志着生成式AI在影视内容创作领域的重大突破。Veo...

Read More
2025-05-26 talkingdev

新型多模态基准套件SpatialScore发布,评估大模型3D空间推理能力

研究人员近日推出名为SpatialScore的多模态基准测试套件,专门用于评估大型模型在3D空间理解方面的能力。这一创新性基准整合了来自12个不同数据集的28,000个样本,为衡量AI系统的空间推理性能提供了全面且标准化的评...

Read More
2025-05-26 talkingdev

OpenAI推出O3 Operator升级版:CUA驱动的浏览器代理取代GPT-4o模型

OpenAI近日宣布其浏览器智能代理O3 Operator完成重大升级,原基于GPT-4o的模型架构已被全新的CUA(Cognitive Unified Architecture)技术体系取代。这一变革标志着OpenAI在轻量化AI代理领域取得突破性进展——CUA架构...

Read More
  1. Prev Page
  2. 17
  3. 18
  4. 19
  5. Next Page