多模态基础模型的相关内容 - 漫话开发者

2025-10-02 talkingdev

开源|OpenTSLM：突破时序数据理解瓶颈，开启基础模型新前沿

斯坦福大学联合苏黎世联邦理工学院、谷歌、亚马逊等机构的研究团队今日发布开源项目OpenTSLM，首次实现时间序列与文本的多模态统一建模。该模型通过交叉注意力架构突破长时序数据处理瓶颈，在睡眠分期任务中实现准确...

2025-07-18 talkingdev

苹果公司近期在其机器学习研究官网发布了《Apple Intelligence Foundation Language Models Tech Report 2025》技术报告，正式公开了支撑Apple Intelligence功能的两大核心基础模型。报告显示，这两个模型具备多语言...

2025-07-03 talkingdev

谷歌最新发布的视频生成模型Veo 3展现出突破性潜力，其技术路线可能为游戏开发领域带来革新。与传统视频生成模型不同，世界模型（World Models）的核心在于模拟真实环境的动态交互机制，而Veo 3虽尚未达到完整世界模...

2025-05-23 talkingdev

字节跳动最新发布的开源多模态基础模型BAGEL在技术领域引发广泛关注。该模型原生支持多模态理解与生成任务，在开源统一模型中表现优异。BAGEL展现出先进的跨模态推理能力，包括图像编辑、3D场景操作和世界导航等复杂...

2025-05-13 talkingdev

Hugging Face最新技术报告揭示了视觉语言模型(VLM)领域的重大突破。研究表明，通过架构优化，新一代模型在保持较小参数量的同时，显著提升了多模态理解能力。这些进步主要体现在三个方面：复杂场景的推理能力、动态...