预训练的相关内容 - 漫话开发者

2023-07-03 talkingdev

多视角扩散技术提供全景图像生成能力

这项工作允许您使用一张单一的图像和一个预训练的生成模型来生成全景图像或图像的多个视角。

2023-06-23 talkingdev

FlagAI（Fast Large-scale General AI models）是一个快速、易于使用且可扩展的大规模模型工具包。它提供了一整套功能强大的工具和库，用于开发和部署大规模人工智能模型。FlagAI的设计目标是使开发人员能够快速构建...

2023-06-15 talkingdev

近日，一种开源代码模型在编码任务中表现超越ChatGPT等语言模型。封闭模型之所以强大，是因为它们实际上是伪装成语言模型的代码模型。很多开放式语言模型表现不佳，因为它们无法从大规模的代码预训练中获得推理能力...

2023-06-09 talkingdev

近日，一份论文发布了有关优酷视频数据集Youku-mPLUG的介绍，这是目前公开的最大中文视频-文本数据集。该数据集由来自视频共享平台Youku的一千万个精选视频-文本对组成。在研究人员的努力下，借助这个数据集和创新的...

2023-06-08 talkingdev

近日，研究人员在GitHub上发布了一篇名为“Hiera：简化视觉变换器，加速和提高图像和视频识别准确性”的论文。以下是该论文的三个核心要点： - Hiera是一种简化的视觉变换器，通过使用一个强大的视觉预文本任务（MAE...

2023-06-06 talkingdev

## 概述该指南分享了使用GPT时获得更好结果的策略和技巧。 ## 主要内容 - GPT简介 - 改进GPT结果的方法和技巧 - 最佳实践 ## GPT简介 - GPT是一种自然语言处理技术，可生成高质量的文本。 - GPT的工作原理是基于...

2023-06-02 talkingdev

内容摘要： - 研究介绍了一种名为“Occ-BEV”的自动驾驶预训练方法，旨在充分利用多个相机视角，而不仅仅是一个，从而捕捉周围环境的更准确理解。 - 该技术使用独特的3D解码器来预测环境的三维几何形状。 - 这一技术的...

2023-06-01 talkingdev

利用预训练的图像-文本扩散模型和生成对抗网络（GAN）进行训练，作者提出了一种创新的方法来创建高质量、个性化的3D头像。通过使用这些先进的模型，我们可以创建各种风格的多视角头像图像，从而实现多样性。 ## 核...