MagicLab发布了MagicBot,这是一款能够烤棉花糖和跳舞的人形机器人。该机器人具有出色的平衡性和灵巧性——它能够完成空翻动作。MagicBot具有亚毫米级定位精度和几公斤的承重能力。本文提供了该机器人的视频展示。
Read MoreSummarize.ing是一款使用人工智能技术的产品,可以在一分钟内为YouTube视频生成摘要。这款产品可以帮助用户快速了解视频内容,不必花费大量时间观看整个视频。Summarize.ing使用基于深度学习的算法来分析视频内容,...
Read MoreDrive-WM可以生成高质量的多视角视频,预测未来情景,从而使自动驾驶汽车做出更安全、更高效的驾驶决策。该技术可以根据车辆周围的环境生成准确的预测模型,为自动驾驶汽车提供更高质量的输入数据。此外,Drive-WM还...
Read More这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...
Read MoreUniVS是一种用于视频分割的统一架构,采用新颖的基于提示的方法应对各种分割任务的挑战。通过将提示特征作为查询并引入目标感知的提示交叉注意力层,UniVS消除了启发式的帧间匹配需求,可以无缝适应不同的视频分割场...
Read MoreGoogle DeepMind的Genie是一个基础的世界模型,通过在互联网视频上进行训练,可以从合成图像、照片甚至草图中生成各种可玩(动作可控)的环境。该模型使用了深度强化学习和生成式建模技术,可以为游戏开发、虚拟现实...
Read More据报道,苹果计划本周发布新产品。据传闻,该公司将发布新款iPad Pro、iPad Air和MacBook Air型号,以及针对部分iPad的新款Magic Keyboard和Apple Pencil配件。此外,苹果可能还会宣布iPhone 15和iPhone 15 Plus的新...
Read More一篇令人惊叹的论文将视频框架作为人工智能与人类用户交互的一种潜在更好的方法。它展示了视频模型可以用作规划器、代理、计算引擎和环境模拟器。以视频为基础的人工智能可以模拟现实世界,更好地支持人类决策。
Read More来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...
Read MoreVisual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。
Read More