漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-15 talkingdev

[论文推荐]InteractVLM:基于2D基础模型的3D交互推理新突破

InteractVLM作为新一代视觉语言模型(VLM),实现了从2D到3D的交互推理跨越。该模型通过创新性地利用强大的基础模型,结合多视角渲染技术,将2D推理能力提升至3D空间,能够精准分析人类与物体在三维环境中的接触关系。...

Read More
2025-04-15 talkingdev

字节跳动团队发布Seaweed-7B:以低成本训练高性能视频生成基础模型

字节跳动团队最新发布的论文展示了如何在655k H100小时的“适度”计算预算下,训练出一个具有竞争力的70亿参数视频生成模型Seaweed-7B。该模型在多项时间敏感任务中表现出色,展现了强大的视频生成能力。这一突破不仅...

Read More
2025-04-02 talkingdev

[论文推荐]Open-Reasoner-Zero:探索基础模型在强化学习推理中的规模化应用

强化学习(RL)领域长期存在一个关键问题:是否需要一个足够强大的基础模型来支持涌现式推理能力的形成?最新研究Open-Reasoner-Zero通过系统性实验验证了基础模型对RL推理的重要作用。该研究在多种规模化的RL训练场...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-03-24 talkingdev

[开源] 高效遥感模型:DynamicVis

DynamicVis 是一种用于遥感动态视觉感知的基础模型,能够高效解析超大型图像,同时显著降低内存和计算需求。该模型通过先进的算法优化,使得处理大规模遥感数据变得更为经济和高效,因此在遥感技术领域具有重要的应...

Read More
2025-02-27 talkingdev

Magma:多模态AI agent的基础模型在Hugging Face Hub发布

近日,Hugging Face Hub发布了一款名为Magma的新型基础模型,专为视觉agent任务设计,尤其在视频理解和UI导航方面表现出色。Magma模型以其易于调优的特性,为开发者提供了强大的工具,以应对复杂的多模态AI任务。该...

Read More
2025-01-28 talkingdev

论文:基础模型参数高效微调技术综述

本文综述了基础模型的参数高效微调技术,深入探讨了在保持多样化任务性能的同时,如何最小化计算成本的方法。随着基础模型(如LLM)的广泛应用,参数高效微调技术(如LoRA、RAG等)成为研究热点。这些技术通过减少需...

Read More
2025-01-22 talkingdev

SurgeNet:开创性手术基础模型引领外科计算机视觉新标杆

近日,GitHub上发布了一款名为SurgeNet的创新性手术基础模型,该模型在外科计算机视觉领域树立了新的标杆。SurgeNet通过先进的深度学习技术,能够高效处理复杂的手术场景数据,为外科医生提供更精准的视觉辅助。该模...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page