Meta的首席技术官安德鲁·博斯沃思(Andrew Bosworth)表示,人工智能热潮正在推动Meta改变其策略。在接受采访时,博斯沃思表示,人工智能的发展给Meta带来了新的机遇和挑战。他指出,Meta一直在探索如何将人工智能应...
Read MoreDiff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。
Read More近日,WhisperPlus正式发布。据悉,该开源项目采用了先进的语音转文字处理技术,能够实现高质量、高准确性的语音转文字功能。此外,该项目还支持多种语言和方言,可广泛应用于语音转写、智能客服等领域。WhisperPlus...
Read MoreMossFormer2模型是MossFormer的改进版,该模型在单声道语音分离方面具有更好的性能。在MossFormer2中,通过引入一个基于复数的非线性激活函数和一个基于深度可分离卷积的上下采样结构,从而提高了模型的分离能力。此...
Read More阿里巴巴推出了一项名为FontDiffuser的技术,该技术是一种基于扩散的自动字体生成方法,特别擅长处理复杂字符和大规模风格变化。它采用多尺度内容聚合块来更好地保留笔画,并配备了风格对比细化模块来进行风格转移。...
Read More新的3D-LFM模型采用变压器从2D标记点重建3D结构,无需“对应”3D数据。这种方法是首个这样处理不同点数量、遮挡并且具有泛化能力的方法。
Read MoreGoogle的Gemini语言模型项目已经发表了一篇850多位作者的论文。该论文详细阐述了Gemini语言模型的研究成果,但缺乏关键的架构和数据集细节。该论文还提供了有关归因和评估的详细信息。
Read MoreWaymo的研究人员表示,与人类驾驶员相比,其无人驾驶汽车的报警率和导致伤害事故的发生率显著降低。Waymo正在广泛推动国际标准化,以对自动驾驶汽车碰撞数据进行有效分析。
Read More