漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-12-02 talkingdev

开源|苹果发布STARFlow与STARFlow-V:基于Transformer自回归流的图像与视频生成新突破

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...

Read More
2025-11-26 talkingdev

Nano Banana Pro突破AI图像生成边界:工具调用实现智能信息图创作

人工智能研究领域迎来重大突破——Nano Banana Pro通过工具调用技术重新定义了信息图生成的边界。该模型能够主动抓取多源数据并进行智能合成,在保持原始数据准确性的基础上,通过算法优化生成具有视觉表现力的信息图...

Read More
2025-11-24 talkingdev

Nano Banana Pro发布:新一代AI图像生成工具现可体验

谷歌AI工作室最新推出的Nano Banana Pro标志着AI图像生成技术进入新阶段。该工具集成了多模态推理、实时网络搜索和4K超高清渲染三大核心能力,能够根据复杂指令自动获取知识并生成高质量视觉内容。与传统图像生成模...

Read More
2025-11-12 talkingdev

AI图像生成模型大比拼:OpenAI、Gemini与Seedream在600次测试中展现各自优势

近日,长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试,系统评估了OpenAI的gpt-image-1、Google的nanoBanana(Gemini)以及S...

Read More
2025-11-12 talkingdev

空间智能:AI从语言大师迈向世界构建者的下一前沿

当前大型语言模型虽在文本生成领域表现卓越,却存在根本性认知缺陷——缺乏人类与生俱来的空间智能。最新研究指出,构建具备几何一致性与物理规律模拟能力的“世界模型”将成为突破这一瓶颈的关键。这类模型能通过处理图...

Read More
2025-10-30 talkingdev

Cursor发布Composer:基于强化学习的快速前沿代码生成模型

Cursor公司最新推出的Composer模型标志着AI辅助软件开发领域的重大突破。这款基于混合专家架构的智能体模型,通过强化学习训练实现了前沿代码生成能力,其执行速度达到同类模型的四倍。Composer的核心创新在于其多工...

Read More
2025-10-28 talkingdev

《2025生成式媒体调查报告》发布:图像生成个人应用领先,企业投资回报周期缩短至12个月

最新发布的《2025生成式媒体调查报告》揭示了生成式媒体技术发展的关键趋势。报告显示,当前图像生成技术在个人用户中的普及度显著高于视频生成,其中谷歌Gemini系列模型在图像生成领域占据领先地位,而视频生成领域...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page