学习的相关内容 - 漫话开发者

2024-01-25 talkingdev

开源RPG框架，改进文本到图像生成质量

最近，由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成，将复杂的图像创建任务分解为更简单的任务，从而在处理多个...

2024-01-25 talkingdev

据报道，谷歌的CEO桑达尔·皮查伊发出的备忘录曝光，透露了公司今年的七大目标。今年，谷歌的目标是提供全球最先进、安全、负责任的人工智能；提高知识、学习、创造力和生产力；构建最有用的个人计算平台和设备；使组...

2024-01-24 talkingdev

Depth Anything是一种新的单目深度估计方法，它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督，该模型实现了令人印象深刻的泛化能力，并在深度估计方面树立了新的标准...

2024-01-24 talkingdev

最近，一种名为DiverseEvol的新方法在GitHub上发布，它可以让AI模型选择自己的训练数据，使其在不需要人工或其他先进AI系统的帮助下变得更好。DiverseEvol方法包括两个步骤：第一步是从数据集中选择用于训练模型的样...

2024-01-24 talkingdev

LoRA是一种低秩适配器，可让您仅微调语言模型中的少量参数。它们可以显着改善和改变这些模型的性能。

2024-01-24 talkingdev

本文介绍了一些前沿的机器人创业公司和实验室，这些公司和实验室让比尔·盖茨感到兴奋。在过去的一年中，人工智能的进步已经导致了能够创建、计算、处理、理解、决策、识别模式和学习的程序，这些程序的学习方式类似...

2024-01-23 talkingdev

针对图像-文本训练中使用的视觉基础模型，研究人员提出了一种名为ViSFT的新方法，以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先，该模型使用大规模的无监督预训练来学习图像...

2024-01-23 talkingdev

将文本描述转化为视频是当前研究的热门领域，最近几周出现了许多强大的模型。Hugging Face团队的这篇博客概述了这一任务、当前面临的挑战以及研究的现状。虽然不是完全全面的，但对于进一步阅读提供了良好的起点。