漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-10 talkingdev

OpenAI与新闻界:AI训练使用公共内容是合理的

近日,OpenAI回应《纽约时报》的诉讼,强调与新闻机构的合作,声称使用公共内容进行AI训练是合理的,承诺消除其模型中偶尔出现的内容重复问题,并表达了对诉讼的惊讶,因为他们一直在努力解决相关问题。OpenAI与新闻...

Read More
2024-01-09 talkingdev

V*搜索:提高GPT-V验证码识别性能的视觉算法

V*是一种新的基于图像的搜索算法,可以显著提高GPT-V(和其他VLM)验证码识别性能。这项技术的开发者表示,V*可以通过大量的图像数据来训练模型,从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...

Read More
2024-01-09 talkingdev

深入浅出学习Transformer

Transformer是自然语言处理中非常重要的模型,但对于初学者来说可能有些困难。然而,这篇文章提供了一个非常好的介绍,对于具有基本数学和Python技能的人来说非常易于理解。作者详细解释了Transformer的工作原理,并...

Read More
2024-01-09 talkingdev

探讨如何打造具有思考能力的人工智能

本文深入探讨了如何打造一种具有人类思维过程的人工智能。在过去的几十年中,人工智能一直是计算机科学领域的一个热门话题。尽管现在已经有了许多成功的应用程序,但我们远远没有达到完全模拟人类思维过程的目标。本...

Read More
2024-01-09 talkingdev

论文:Phi-2语言模型助力多模态LLaVA-Phi发布

LLaVA-Phi是一款创新的多模态助手,它使用Phi-2语言模型。尽管参数只有2.7B,但LLaVA-Phi在多模态对话中表现出色,结合了文本和视觉。该助手可以在多个领域内使用,例如智能家居和自动驾驶等。

Read More
2024-01-09 talkingdev

用提示增强的视觉语言模型开源

这项项目介绍了一种方法,可以适应各种任务的类似CLIP的视觉语言模型,同时保留其泛化能力。该方法从LLM数据中学习提示,避免了需要标记图像的需求。

Read More
2024-01-09 talkingdev

DiffusionEdge,最新边缘检测模型开源

DiffusionEdge是一种新颖的边缘检测模型,它集成了扩散概率模型,可以在资源有效的同时提供更准确和清晰的边缘图。传统的边缘检测模型对于噪声和边缘不清晰的情况表现得不够稳定。DiffusionEdge的扩散模型可以帮助减...

Read More
2024-01-09 talkingdev

论文:基于级联扩散模型的文本驱动人体动作合成技术

近日,一种名为GUESS的框架被引入,用于从文本中创建人体动作。该框架将复杂的人体姿态简化为各个层次上的更抽象形式,从而使从文本合成动作更加简洁稳定。

Read More
  1. Prev Page
  2. 309
  3. 310
  4. 311
  5. Next Page