漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-04 talkingdev

Genie世界模型:可生成交互式环境

Google DeepMind的Genie是一个基础的世界模型,通过在互联网视频上进行训练,可以从合成图像、照片甚至草图中生成各种可玩(动作可控)的环境。该模型使用了深度强化学习和生成式建模技术,可以为游戏开发、虚拟现实...

Read More
2024-03-04 talkingdev

本周苹果将发布iPad系列新产品

据报道,苹果计划本周发布新产品。据传闻,该公司将发布新款iPad Pro、iPad Air和MacBook Air型号,以及针对部分iPad的新款Magic Keyboard和Apple Pencil配件。此外,苹果可能还会宣布iPhone 15和iPhone 15 Plus的新...

Read More
2024-03-01 talkingdev

论文:视频框架成为现实决策的新语言

一篇令人惊叹的论文将视频框架作为人工智能与人类用户交互的一种潜在更好的方法。它展示了视频模型可以用作规划器、代理、计算引擎和环境模拟器。以视频为基础的人工智能可以模拟现实世界,更好地支持人类决策。

Read More
2024-02-29 talkingdev

UCSD-训练更具表现力的人形机器人

来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...

Read More
2024-02-28 talkingdev

VSP-LLM可视化语音识别框架开源

Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

Read More
2024-02-27 talkingdev

Snap的视频生成模型速度提升3倍

Snap研究开发了一种视频生成模型,其速度比之前的最先进模型快3倍(排除Sora)。该模型可以生成高质量的视频,并且在处理速度方面具有显著优势。Snap的这项技术将对视频制作、社交媒体、游戏等领域产生重大影响。

Read More
2024-02-27 talkingdev

R2R:快速部署生产级RAG系统的框架

R2R是一个半正式框架,旨在快速部署生产级RAG系统。它旨在弥合实验性RAG模型和生产就绪系统之间的差距。R2R为在生产环境中部署、适应和维护RAG管道提供了简单的路径。现已提供短视频演示。

Read More
2024-02-26 talkingdev

WoVoGen-高质量街景视频生成器开源

世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

Read More
2024-02-26 talkingdev

特斯拉分享Optimus机器人行走技术提升的更多画面

特斯拉最新的Optimus机器人片段显示其在其测试设施中平稳行走。该机器人目前可以以每秒0.6米的速度行走,相比机器人上次亮相时增加了30%的速度。特斯拉的目标是让机器人最终能够达到每小时五英里的速度。文章中提供...

Read More
2024-02-23 talkingdev

多视角扩散+:生成引人入胜的3D视图

最近,一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图,然后将它们拼接在一起,形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分,然后在每个部分上...

Read More
  1. Prev Page
  2. 17
  3. 18
  4. 19
  5. Next Page