漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-17 talkingdev

[开源] Visual reasoning models:提升视觉语言模型推理能力的新工具包

近日,GitHub上发布了一个名为'Visual reasoning models'的开源工具包,旨在训练视觉语言模型(VLMs)以提升其基础逻辑和推理能力。该工具包由groundlight团队开发,主要专注于增强模型在处理复杂视觉数据时的理解和...

Read More
2025-03-16 talkingdev

Docs:开源版Notion与Outline的强劲替代品

在知识管理和团队协作工具领域,Docs作为一款开源解决方案,正逐渐成为Notion和Outline的有力竞争者。Docs不仅提供了类似Notion的丰富功能,如文档编辑、任务管理和数据库集成,还通过开源模式赋予了用户更高的自定...

Read More
2025-03-15 talkingdev

Briar:去中心化的加密通讯新选择

Briar 是一款基于 Peer to Peer(P2P)技术的加密通讯应用,旨在为用户提供高度隐私保护的通讯体验。与传统的即时通讯工具不同,Briar 不依赖中央服务器,而是通过直接连接设备实现消息传输,从而避免了数据被第三方...

Read More
2025-03-14 talkingdev

Briar:去中心化的加密通讯新选择

Briar 是一款基于 Peer to Peer(P2P)技术的加密通讯工具,旨在为用户提供高度隐私保护的通讯体验。与传统的即时通讯应用不同,Briar 不依赖中央服务器,而是通过直接连接设备实现消息传输,从而避免了数据被第三方...

Read More
2025-03-14 talkingdev

Nous Research推出API,为开发者提供OpenAI和Anthropic未构建的AI模型访问权限

Nous Research近日推出了Inference API,旨在为开发者和研究人员提供其个性化的、无限制的语言模型访问权限。该API支持两种模型:Hermes 3 Llama 70B和DeepHermes-3 8B Preview,并通过候补名单系统管理需求,增加其...

Read More
2025-03-14 talkingdev

[开源] Open Sora项目发布代码与模型权重,低成本训练成果引人瞩目

Open Sora项目自模型首次发布以来,一直在积极推进,并以低于20万美元的成本训练出了一个具有竞争力的模型。此次,项目团队全面公开了所有代码和模型权重,旨在帮助研究人员和开发者复现其实验结果。尽管模型的动态...

Read More
2025-03-14 talkingdev

[开源]统一视觉解码:REF-VLM革新多模态大模型任务

近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...

Read More
2025-03-14 talkingdev

[开源] Audio Flamingo 2:基于Qwen的最先进音频理解模型

Audio Flamingo 2 是一个基于Qwen架构构建的最新音频理解模型,其独特之处在于几乎完全使用了合成数据进行训练。这一突破性进展不仅提升了模型在音频处理和理解任务中的表现,还展示了合成数据在AI训练中的巨大潜力...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page