漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-23 talkingdev

OMG-Seg全能图像和视频分割模型

OMG-Seg是一种新的模型,可以使用单个高效的系统执行各种图像和视频分割任务。与使用每个任务的不同模型的传统方法不同,OMG-Seg从图像语义到交互式视频分割处理所有内容,是一个一站式解决方案,降低了复杂性并增强...

Read More
2024-01-23 talkingdev

深度解析文本到视频技术原理

将文本描述转化为视频是当前研究的热门领域,最近几周出现了许多强大的模型。Hugging Face团队的这篇博客概述了这一任务、当前面临的挑战以及研究的现状。虽然不是完全全面的,但对于进一步阅读提供了良好的起点。

Read More
2024-01-23 talkingdev

机器学习工程开源书籍发布

机器学习工程开源书籍发布,该项目是一个开放的方法论集合,旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令,以使读者能够快速解决问题。该...

Read More
2024-01-22 talkingdev

Meta发布音乐和声音生成模型(HuggingFace Hub)

Meta最近推出了一系列令人难以置信的音乐和声音生成模型,并发布了推理代码。这些模型是通过机器学习训练的,可以生成高质量的音乐和声音效果。该公司表示,这些模型可以用于广泛的应用场景,包括游戏声音、虚拟现实...

Read More
2024-01-22 talkingdev

HuggingFace发布Haiku DPO数据集,助力模型写出正确的俳句

HuggingFace于近日发布了Haiku DPO数据集,旨在帮助AI模型写出正确的日本俳句。该数据集由多位专业诗人参与标注,包含数千条俳句及其正确的音律和形式,涵盖了从传统到现代的各个风格。据悉,该数据集可以用于训练和...

Read More
2024-01-22 talkingdev

如何提高AI解释的可信度

本项目通过引入两个新版本:Smooth MPRT和Efficient MPRT,改进了模型参数随机化测试,这是eXplainable AI(XAI)中的关键工具。

Read More
2024-01-22 talkingdev

腾讯开源PhotoMaker生成风格化人像

生成式图像模型最受欢迎的用途之一是个性化风格的图像生成。历史上,这需要训练LoRA或使用DreamBooth。现在,通过使用ID嵌入,您可以在仅使用单张图像的情况下大大提高质量并降低计算成本。

Read More
2024-01-22 talkingdev

Diffusion模型可用于内容超分辨率

随着最近将扩散模型用于各种其他视觉任务的趋势,本研究改进了超分辨率的训练稳定性和缩放。

Read More
  1. Prev Page
  2. 301
  3. 302
  4. 303
  5. Next Page