漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-16 talkingdev

VideoAnnotator开源:结合人类专业知识的注释方法提高视频分类精度

近日,一种名为Video Annotator的框架已经在GitHub上发布。该框架通过将领域专家直接融入注释过程中,利用零样本学习和主动学习技术提高模型的精度和效率。这种注释方法不仅提高了模型的分类准确度,而且可以更好地...

Read More
2024-02-16 talkingdev

LWM-视频语言模型可回答长达小时的视频问题

近期,一种新型的视频语言模型已经问世,可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型,能够在检索基准测试中表现极其准确,胜过商业化视频语言模型。

Read More
2024-02-16 talkingdev

Google发布Lumiere文本到视频模型

Google最近推出了一种新的文本到视频模型Lumiere,该模型可以将图像和风格作为输入,并使用一种新颖的“空时UNet”同时扩散所有内容。该模型采用了深度学习技术,可以将文本内容转换为相对应的视频,并且不需要任何人...

Read More
2024-02-16 talkingdev

SEINE:将短视频制作成长视频

SEINE是一种创新的视频传播模型,其通过文本描述来引导短的AI生成视频剪辑,将其扩展为无缝且具有想象力的场景过渡,形成更长的、故事级别的视频序列。

Read More
2024-02-16 talkingdev

NVIDIA推出本地运行聊天机器人Chat with RTX,无需云处理即可分析和汇总个人数据

NVIDIA推出了Chat with RTX的演示版本,这是一款本地运行的PC聊天机器人,可以分析和汇总各种文件格式的个人数据,甚至整合来自YouTube视频的知识,旨在创建更个性化的数字助手体验。这种创新不需要云处理或互联网连...

Read More
2024-02-15 talkingdev

MagicLab发布人形机器人 MagicBot:烤棉花糖、叠衣服、跳舞样样行

MagicLab发布了人形机器人MagicBot,它可以烤棉花糖、跳舞。该机器人具有卓越的平衡和手臂灵活性,能够执行空翻动作。MagicBot具有亚毫米级定位精度和承重能力达数公斤。文章中提供了该机器人的视频演示。

Read More
2024-02-13 talkingdev

Google研究:从人脑中读取音乐

Google最近发布了一段7分钟的视频,介绍了他们的Brain2Music项目,该项目旨在通过读取人脑信号来生成音乐。该项目使用深度学习技术来识别人脑中与音乐有关的信号,并将其转换为音乐的元素,如节拍、旋律和和弦。该技...

Read More
2024-02-12 talkingdev

1X机器人演示

1X是一家机器人公司,通过视频输入控制模型取得了进展。该公司展示了其机器人执行许多任务,所有任务都由神经网络驱动,从视频输入发出10hz控制信号。1X机器人演示了通过视频输入和神经网络控制的机器人的潜力,这是...

Read More
2024-02-12 talkingdev

JSONL工具箱

工具箱是一个终端应用程序,用于查看、追踪、合并和搜索日志文件和JSONL。它具有实时追踪日志文件、常见web服务器日志格式的语法高亮显示、漂亮的JSONL文件打印、.bz和.bz2文件的支持,以及通过自动检测时间戳进行合...

Read More
2024-02-12 talkingdev

如何制作虚假的机器人演示视频

机器人和CGI技术的发展越来越让人难以分辨真假。即使视频真实,演示视频也往往是最佳表现的片段,每个视频背后可能都有数小时的视频没有进入最终剪辑。 CES缺乏酷炫的机器人演示,但有许多惊人的视频。观众应该用辨...

Read More
  1. Prev Page
  2. 19
  3. 20
  4. 21
  5. Next Page