漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-17 talkingdev

Gemini 3.0通过A/B测试意外曝光:SVG生成质量成关键指标

近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...

Read More
2025-10-03 talkingdev

开源|Vision-Zero:基于视觉博弈策略的自监督VLM训练框架

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式,通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏,使模型在无需人工标注的情况下,通过策略性自我博弈持续优化...

Read More
2025-09-23 talkingdev

阿里发布通义千问Qwen3-Omni:开源多模态AI模型可处理文本、音频、图像及视频输入并生成文本与语音输出

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型,该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力,并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破,Qwen...

Read More
2025-09-21 talkingdev

挑战Scale AI!Surge AI年收入12亿美元并盈利,CEO陈德伟正以300亿估值融资10亿

根据《福布斯》杂志2025年10/11月刊的深度报道,由前谷歌、Facebook和Twitter资深技术专家Edwin Chen(陈德伟)创立的Surge AI在2024年实现12亿美元营收并实现盈利,现正以300亿美元估值进行10亿美元规模的融资。Sur...

Read More
2025-09-12 talkingdev

开源|Nano Banana图像生成示例集:展示Gemini-2.5-flash图像模型的创意潜力

GitHub热门项目「Awesome-Nano-Banana-images」近期引发人工智能社区广泛关注,该项目通过精心策划的示例库,展示了基于Gemini-2.5-flash图像生成模型「Nano Banana🍌」的多样化应用场景。该仓库收录了包括超现实主义...

Read More
2025-09-11 talkingdev

字节跳动发布AI图像模型Seedream 4.0,正面对决谷歌DeepMind「Nano Banana」

字节跳动最新推出的AI图像生成模型Seedream 4.0引发行业关注。该公司宣称,在内部评测基准MagicBench中,该模型在提示词遵循度、图像对齐能力和美学质量三个核心维度上超越了谷歌DeepMind的Gemini 2.5 Flash Image模...

Read More
2025-09-10 talkingdev

英伟达发布Rubin CPX GPU,专为超长上下文推理任务打造

英伟达正式推出全新Rubin CPX GPU,该芯片专为处理超过100万token的超长上下文窗口而设计,标志着人工智能推理基础设施迈向新阶段。采用“分解式推理”架构理念,Rubin CPX针对视频生成、复杂软件开发等长序列上下文任...

Read More
2025-09-09 talkingdev

开源|Jaaz:全球首个开源多模态创意助手,本地运行的Canva与Manus替代品

GitHub上新出现的Jaaz项目标志着创意工具领域的重要突破。作为全球首个开源的多模态创意助手,Jaaz专注于隐私保护并支持完全本地化运行,无需依赖云端服务。该项目采用先进的多模态AI技术,能够根据文本提示生成高质...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page