漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-18 talkingdev

OpenAI意外泄露下一代ChatGPT升级版GPT-4.5 Turbo?

近日,OpenAI疑似意外发布了一篇博客文章,该文章被Bing和DuckDuckGo索引后迅速被撤下。文章似乎是关于GPT-4.5 Turbo的公告,这是一个新的模型,其速度、准确性和可扩展性均超越了GPT-4 Turbo。缓存的描述中提到了20...

Read More
2024-03-15 talkingdev

ViT-CoMer:新神经网络模型增强Vision Transformers的密集预测任务能力

近日,一项名为ViT-CoMer的神经网络模型问世,增强了Vision Transformers(ViT)在密集预测任务中的表现,而无需预训练。这项研究由卡内基梅隆大学的学者领导,他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

Read More
2024-03-15 talkingdev

Skyvern:基于LLMs和计算机视觉的浏览器自动化工具

近日,Skyvern项目在GitHub上发布,该项目利用LLMs和计算机视觉技术自动化浏览器流程。Skyvern提供了一个简单的API端点,可以完全自动化手动工作流程,替代脆弱或不可靠的自动化解决方案。其实现原理是利用LLMs提供...

Read More
2024-03-15 talkingdev

Branch-Train-MiX:将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型。

Read More
2024-03-14 talkingdev

谷歌发布SIMA,可在3D游戏中遵循自然语言指令

谷歌DeepMind的SIMA是一个通用的AI代理,可在各种电子游戏环境中遵循自然语言指令。它标志着将AI系统变得更加多才多艺、可指导的转变。此前,AI系统只能在特定的环境中工作,现在SIMA可以在多种环境下工作,这是一项...

Read More
2024-03-13 talkingdev

FastV: 优化视觉语言模型效率方法开源

该项目提出了一种改善大型视觉语言模型(例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA)效率的方法,解决了“低效的注意力”问题。使用FastV这种新方法,通过修剪视觉令牌和学习自适应注意力模式来优化这些模型,从而显著...

Read More
2024-03-13 talkingdev

V3D开源-视频扩散模型增强3D生成技术

这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...

Read More
2024-03-13 talkingdev

物理智能公司Pi筹建机器人大脑

物理智能公司(Pi)已经从隐蔽状态中浮出水面,获得了7000万美元的种子融资。该公司由一群知名的机器人和人工智能专家创立,旨在开发基础模型和学习算法,为各种机器人和具有物理驱动装置的设备提供动力。

Read More
  1. Prev Page
  2. 71
  3. 72
  4. 73
  5. Next Page