计算机视觉的相关内容 - 漫话开发者

2025-07-22 talkingdev

Morphik.ai提出视觉文档检索新方法：用图像替代传统OCR解析

Morphik.ai公司创新性地提出了一种基于视觉的文档检索方法，该方法摒弃了传统的OCR（光学字符识别）和解析技术，转而采用文档页面的图像作为处理对象。通过将文档图像分割成小块，并利用视觉Transformer和语言模型，...

2025-07-10 talkingdev

视觉AI平台服务商Bria近日在Hugging Face发布新一代开源文本生成图像模型BRIA-3.2，其技术突破引发行业关注。该模型仅用4B参数即实现与Adobe Firefly 4.0和Flux[Dev]相当的图像生成质量，且模型体积缩小至三分之一，...

2025-07-07 talkingdev

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型，仅需单张静态图像和语音输入，即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

2025-07-04 talkingdev

斯坦福大学教授、AI领域权威专家李飞飞在最新演讲中指出，空间智能（Spatial Intelligence）是人工智能发展的下一个关键突破口。这段发布在YouTube的演讲视频（观看量已超26万）引发了技术社区的广泛讨论，Hacker Ne...

2025-06-27 talkingdev

FLUX.1 Kontext [dev]作为一款拥有120亿参数的开源模型，突破性地在消费级硬件上实现了媲美商业闭源软件的图像编辑性能。该模型采用FLUX.1非商业许可协议开放权重，为学术研究和非商业应用提供免费访问权限。技术亮...

2025-06-27 talkingdev

视觉AI平台服务商Bria推出新一代开源文本生成图像（T2I）模型，其技术突破引发行业关注。该模型仅用4B参数即实现与Adobe Firefly 4.0和Flux[Dev]相当的生成质量，同时模型体积缩减67%。核心技术亮点包括：集成Contro...

2025-06-25 talkingdev

NVIDIA实验室最新发布的PS3技术，通过选择性编码（selective encoding）实现了高达4K分辨率的视觉预训练，为VILA-HD模型提供了技术基础。这一突破显著提升了计算机视觉领域的高分辨率数据处理能力，解决了传统方法在...

2025-06-12 talkingdev

Meta近日正式推出V-JEPA 2视觉世界模型，该技术突破性实现了AI代理对物理环境的动态推理能力。作为Yann LeCun团队世界模型研究的最新成果，V-JEPA 2通过自监督学习架构，使AI系统能够基于视频输入预测物理交互结果。...