近日,一项名为Niagara的创新框架在3D场景重建领域取得了重要进展。该框架通过从单张图像中重建户外3D场景,结合深度和法线估计,以及几何仿射场和3D高斯解码技术,显著提升了重建的精确度和效率。这一技术不仅解决...
Read More近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...
Read MoreMMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...
Read MoreOWL(Optimized Workforce Learning Agent)是一个新兴的智能体框架,以其高效性和灵活性吸引了业界的广泛关注。该框架不仅在设计上体现出高度的合理性,而且在性能上也表现出色。OWL 允许开发人员通过简单的方式进...
Read MoreHiRAG(Hierarchical Retrieval-Augmented Generation)是一种创新的分层知识增强生成方法,旨在提升检索增强生成(RAG)技术在特定领域任务中的语义理解和索引能力。RAG技术通过将外部知识库与大型语言模型(LLM)...
Read More近日,GitHub上发布了一个名为'Visual reasoning models'的开源工具包,旨在训练视觉语言模型(VLMs)以提升其基础逻辑和推理能力。该工具包由groundlight团队开发,主要专注于增强模型在处理复杂视觉数据时的理解和...
Read MoreOpen Sora项目自模型首次发布以来,一直在积极推进,并以低于20万美元的成本训练出了一个具有竞争力的模型。此次,项目团队全面公开了所有代码和模型权重,旨在帮助研究人员和开发者复现其实验结果。尽管模型的动态...
Read More近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...
Read More