Compose and Conquer公司推出了一种条件扩散模型,该模型在生成的图像中的三维空间中放置物体方面表现出色。该模型可用于生成逼真的图像,例如虚拟世界中的景观和人物。条件扩散模型的优点在于其可以对图像进行分层...
Read More近日,AI系统Vlogger在GitHub上推出了自己的仓库,为用户提供分钟级别的视频博客制作服务。Vlogger的制作流程分为四个阶段:脚本、演员、节目制作和配音,每个阶段都代表着视频制作的不同方面。用户只需要向Vlogger...
Read MoreMeta的CEO马克·扎克伯格正在进入开发人工通用智能(AGI)的竞争,旨在增强Meta的应用程序和用户体验。他强调了AI人才和计算能力的需求,并考虑采用开源方法进行AI开发,与其他公司更封闭的方法形成对比。
Read MoreAnimateAnyone 是一款非常优秀的视频控制模型,它接受图像和骨架动作作为输入,然后将人物动画应用到控制图像上。这个开源仓库是对这项工作的复现,它实现了 AnimateAnyone 的主要功能,并在开发者社区中广受好评。
Read More最近,一位技术爱好者开发了一个名为AutoNarrate的GitHub Repo,它使用GPT4-V和最先进的文本转语音技术,加上一些屏幕录制软件,可以让像David Attenborough这样的人自动记录你生活中的所有事情。该技术可用于个人日...
Read More排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...
Read MoreMiniMA项目致力于将大型语言模型压缩成小型学生模型的挑战。研究人员发现了不同学生模型的一致最优容量差,并利用这一发现创建了MiniMA,它是从一个7B教师模型中压缩出来的3B模型。MiniMA在效率和性能方面创造了新的...
Read More