多模态的相关内容 - 漫话开发者

2025-11-23 talkingdev

Fourty.News：用AI重现40年前新闻，在历史中寻找当下焦虑的解药

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术：首先通过OCR将旧报纸扫描件转为文本，随后运用包含戏剧...

2025-11-22 talkingdev

据《华尔街日报》报道，中国人工智能公司月之暗面（Moonshot AI）正启动新一轮数亿美元规模的融资，估值预计达40亿美元。该公司开发的Kimi智能助手凭借超长上下文处理能力成为行业焦点，目前已向潜在投资者透露计划...

2025-11-20 talkingdev

Meta公司最新开源的Segment Anything Model 3（SAM 3）标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力，用户既可通过文字描述指定分割目标，也能通过点击、框选等视觉交互方式精...

2025-11-19 talkingdev

谷歌正式推出其迄今最智能的AI模型Gemini 3，标志着人工智能技术进入全新发展阶段。该模型通过突破性的多模态推理能力，可帮助用户将任意创意转化为现实解决方案。Gemini 3在核心AI基准测试中全面超越前代产品，其创...

2025-11-13 talkingdev

百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模，但通过创新的动态路由架构，在推理时仅激活30亿参数，即可在多项任务性能上媲美甚至超越规...

2025-11-12 talkingdev

近日，长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试，系统评估了OpenAI的gpt-image-1、Google的nanoBanana（Gemini）以及S...

2025-11-12 talkingdev

当前大型语言模型虽在文本生成领域表现卓越，却存在根本性认知缺陷——缺乏人类与生俱来的空间智能。最新研究指出，构建具备几何一致性与物理规律模拟能力的“世界模型”将成为突破这一瓶颈的关键。这类模型能通过处理图...

2025-11-12 talkingdev

OpenAI正在开发一项名为‘群聊’的新功能，将允许多个用户加入同一对话线程，实现用户间及用户与AI的实时互动。该功能突破传统单用户对话模式，支持团队通过定制系统提示词框定讨论方向，并可手动控制AI介入时机，例如...