漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-22 talkingdev

Meta首席技术官谈AI热潮如何促使公司改变

Meta的首席技术官安德鲁·博斯沃思(Andrew Bosworth)表示,人工智能热潮正在推动Meta改变其策略。在接受采访时,博斯沃思表示,人工智能的发展给Meta带来了新的机遇和挑战。他指出,Meta一直在探索如何将人工智能应...

Read More
2023-12-22 talkingdev

论文:Diff-Text,无需训练的多语言场景文本生成技术

Diff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。

Read More
2023-12-22 talkingdev

WhisperPlus,高质量语音转文字技术开源

近日,WhisperPlus正式发布。据悉,该开源项目采用了先进的语音转文字处理技术,能够实现高质量、高准确性的语音转文字功能。此外,该项目还支持多种语言和方言,可广泛应用于语音转写、智能客服等领域。WhisperPlus...

Read More
2023-12-22 talkingdev

MossFormer2模型在单声道语音分离方面取得新进展

MossFormer2模型是MossFormer的改进版,该模型在单声道语音分离方面具有更好的性能。在MossFormer2中,通过引入一个基于复数的非线性激活函数和一个基于深度可分离卷积的上下采样结构,从而提高了模型的分离能力。此...

Read More
2023-12-22 talkingdev

FontDiffuser:开源一键式字体生成技术

阿里巴巴推出了一项名为FontDiffuser的技术,该技术是一种基于扩散的自动字体生成方法,特别擅长处理复杂字符和大规模风格变化。它采用多尺度内容聚合块来更好地保留笔画,并配备了风格对比细化模块来进行风格转移。...

Read More
2023-12-22 talkingdev

论文:使用2D标记点进行3D结构重建的新模型问世

新的3D-LFM模型采用变压器从2D标记点重建3D结构,无需“对应”3D数据。这种方法是首个这样处理不同点数量、遮挡并且具有泛化能力的方法。

Read More
2023-12-22 talkingdev

谷歌公布850+人联合论文,阐述Gemini语言模型的研究成果

Google的Gemini语言模型项目已经发表了一篇850多位作者的论文。该论文详细阐述了Gemini语言模型的研究成果,但缺乏关键的架构和数据集细节。该论文还提供了有关归因和评估的详细信息。

Read More
2023-12-22 talkingdev

Waymo的无人驾驶汽车“显著优于”人类驾驶员

Waymo的研究人员表示,与人类驾驶员相比,其无人驾驶汽车的报警率和导致伤害事故的发生率显著降低。Waymo正在广泛推动国际标准化,以对自动驾驶汽车碰撞数据进行有效分析。

Read More
  1. Prev Page
  2. 815
  3. 816
  4. 817
  5. Next Page