漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-30 talkingdev

专访诺奖得主John Jumper:AlphaFold的创造性“超范围应用”与LLM融合前瞻

在《麻省理工科技评论》的深度访谈中,谷歌DeepMind诺奖得主John Jumper揭示了AlphaFold超越传统蛋白质结构预测的突破性应用。这位2017年刚获得理论化学博士学位的科学家,如今正引领团队探索AlphaFold在药物设计、...

Read More
2025-11-30 talkingdev

NanoPDF:用Gemini Nano Banana模型通过自然语言编辑PDF演示文稿

开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型(代号Nano Banana)推出开源CLI工具Nano PDF,实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像,结合用户文本提示调用多模态AI...

Read More
2025-11-23 talkingdev

Fourty.News:用AI重现40年前新闻,在历史中寻找当下焦虑的解药

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术:首先通过OCR将旧报纸扫描件转为文本,随后运用包含戏剧...

Read More
2025-11-20 talkingdev

Meta开源SAM 3:多模态提示实现智能分割新突破

Meta公司最新开源的Segment Anything Model 3(SAM 3)标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力,用户既可通过文字描述指定分割目标,也能通过点击、框选等视觉交互方式精...

Read More
2025-11-13 talkingdev

百度开源多模态AI模型ERNIE-4.5:28B参数动态激活3B,宣称超越GPT-5与Gemini

百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模,但通过创新的动态路由架构,在推理时仅激活30亿参数,即可在多项任务性能上媲美甚至超越规...

Read More
2025-11-12 talkingdev

AI图像生成模型大比拼:OpenAI、Gemini与Seedream在600次测试中展现各自优势

近日,长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试,系统评估了OpenAI的gpt-image-1、Google的nanoBanana(Gemini)以及S...

Read More
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-11-11 talkingdev

Meta推出全语种自动语音识别系统,支持超1600种语言

Meta近日发布了名为'全语种自动语音识别'(Omnilingual Automatic Speech Recognition)的AI模型套件,这项突破性技术将自动语音识别能力扩展到1600多种语言,覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page