多模态AI的相关内容 - 漫话开发者

2025-11-30 talkingdev

专访诺奖得主John Jumper：AlphaFold的创造性“超范围应用”与LLM融合前瞻

在《麻省理工科技评论》的深度访谈中，谷歌DeepMind诺奖得主John Jumper揭示了AlphaFold超越传统蛋白质结构预测的突破性应用。这位2017年刚获得理论化学博士学位的科学家，如今正引领团队探索AlphaFold在药物设计、...

2025-11-30 talkingdev

开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型（代号Nano Banana）推出开源CLI工具Nano PDF，实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像，结合用户文本提示调用多模态AI...

2025-11-23 talkingdev

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术：首先通过OCR将旧报纸扫描件转为文本，随后运用包含戏剧...

2025-11-20 talkingdev

Meta公司最新开源的Segment Anything Model 3（SAM 3）标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力，用户既可通过文字描述指定分割目标，也能通过点击、框选等视觉交互方式精...

2025-11-13 talkingdev

百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模，但通过创新的动态路由架构，在推理时仅激活30亿参数，即可在多项任务性能上媲美甚至超越规...

2025-11-12 talkingdev

近日，长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试，系统评估了OpenAI的gpt-image-1、Google的nanoBanana（Gemini）以及S...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-11-11 talkingdev

Meta近日发布了名为'全语种自动语音识别'（Omnilingual Automatic Speech Recognition）的AI模型套件，这项突破性技术将自动语音识别能力扩展到1600多种语言，覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...