漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-05 talkingdev

100x将FFmpeg嵌入浏览器代理:实现无服务器视频处理

科技公司100x近期实现了一项技术突破,通过将FFmpeg多媒体处理工具直接集成到Chrome扩展的浏览器代理中,使得复杂媒体处理流程彻底摆脱了对服务器、API或文件上传的依赖。这一创新将FFmpeg转化为浏览器代理的标准化...

Read More
2025-10-03 talkingdev

开源|Edge264:面向8K超高清的极简高性能H.264软件解码器

近日,GitHub开源社区涌现出一款名为Edge264的轻量级H.264/AVC视频解码器,其以极致性能与精简代码为核心设计理念。该项目采用C语言结合128位向量扩展指令集开发,通过代码块优化、树状分支预测及寄存器饱和SIMD技术...

Read More
2025-08-11 talkingdev

Grok V7升级版完成预训练,原生多模态支持音视频处理

马斯克旗下xAI团队开发的Grok模型即将迎来重大更新,内部版本号V7已完成预训练。此次升级的核心突破在于原生多模态能力的实现,模型可直接处理音频和视频输入,标志着通用人工智能在跨模态理解领域迈出关键一步。值...

Read More
2025-07-29 talkingdev

2025年前端性能优化终极清单:打造超高速Web应用

在当今追求极致速度的数字化时代,性能优化已成为企业获取商业成功的关键因素之一。Crystallize团队发布的这份2025年前端性能优化清单,全面涵盖了从HTML、CSS、JavaScript到多媒体资源处理等各个技术维度的优化策略...

Read More
2025-07-24 talkingdev

TimeScope:你的视频大模型能处理多长的视频?

TimeScope是一个全新的开源基准测试工具,专门用于评估视觉大模型在处理长视频方面的能力。它不仅测试模型的检索能力,还涵盖了视频合成、时间定位以及细粒度运动分析等多个维度,从而提供对模型时间理解能力的全面...

Read More
2025-04-16 talkingdev

Gemini与Whisk平台集成Veo 2,开启视频生成新纪元

近日,Gemini和Whisk两大平台宣布集成Veo 2技术,为用户提供更强大的视频生成能力。Veo 2作为新一代视频生成工具,通过先进的AI算法,能够快速生成高质量的视频内容,满足用户在营销、教育、娱乐等多领域的需求。此...

Read More
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-26 talkingdev

[开源] Video T1:利用引导模型提升视频帧路径物理一致性

Video T1 是一种创新的视频处理技术,通过使用引导模型来拒绝不符合物理规律或用户指定提示的帧路径,显著提升了视频生成的质量。该技术的核心在于测试时计算(test time compute),这一方法在性能基准测试中表现出...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page