人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型,该系列包含两大技术路线:一是三款不同规模的密集模型(参数规模分别为140亿、80亿和30亿),二是备受瞩目的Mistral Large 3稀疏混...
Read More近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...
Read More在《麻省理工科技评论》的深度访谈中,谷歌DeepMind诺奖得主John Jumper揭示了AlphaFold超越传统蛋白质结构预测的突破性应用。这位2017年刚获得理论化学博士学位的科学家,如今正引领团队探索AlphaFold在药物设计、...
Read More开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型(代号Nano Banana)推出开源CLI工具Nano PDF,实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像,结合用户文本提示调用多模态AI...
Read More近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术:首先通过OCR将旧报纸扫描件转为文本,随后运用包含戏剧...
Read MoreMeta公司最新开源的Segment Anything Model 3(SAM 3)标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力,用户既可通过文字描述指定分割目标,也能通过点击、框选等视觉交互方式精...
Read More百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模,但通过创新的动态路由架构,在推理时仅激活30亿参数,即可在多项任务性能上媲美甚至超越规...
Read More近日,长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试,系统评估了OpenAI的gpt-image-1、Google的nanoBanana(Gemini)以及S...
Read More