Diff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。
Read MoreMossFormer2模型是MossFormer的改进版,该模型在单声道语音分离方面具有更好的性能。在MossFormer2中,通过引入一个基于复数的非线性激活函数和一个基于深度可分离卷积的上下采样结构,从而提高了模型的分离能力。此...
Read More新的3D-LFM模型采用变压器从2D标记点重建3D结构,无需“对应”3D数据。这种方法是首个这样处理不同点数量、遮挡并且具有泛化能力的方法。
Read MoreGoogle的Gemini语言模型项目已经发表了一篇850多位作者的论文。该论文详细阐述了Gemini语言模型的研究成果,但缺乏关键的架构和数据集细节。该论文还提供了有关归因和评估的详细信息。
Read MoreZoo Dev(前身为Kitty Cad)进行了重新品牌推广并发布了一项新的文本转CAD功能。这是一个功能强大的平台,可以生成可用于打印或零件的3D资产。
Read MoreMidjourney V6已经发布alpha版。此次更新大幅提高了图像质量,并使模型能够在图像中生成易读文本。它还配备了全新的提示方法,更加灵敏,更加擅长理解用户。如果用户习惯于Midjourney V5提示,他们可能需要重新学习...
Read More苹果研究员使用一种创新的闪存利用技术,为在具有有限内存的苹果设备上部署大型语言模型打开了关键突破。该方法使用窗口化和行列捆绑技术来最小化数据传输,最大化闪存吞吐量。它使得 AI 模型在标准处理器上运行速度...
Read More