漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-09 talkingdev

论文推荐|无需人工标注!新型自训练框架让视觉语言模型学会自我评判

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...

Read More
2025-12-03 talkingdev

Mistral AI发布Mistral 3系列开源模型:含稀疏MoE巨兽与多款密集模型

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型,该系列包含两大技术路线:一是三款不同规模的密集模型(参数规模分别为140亿、80亿和30亿),二是备受瞩目的Mistral Large 3稀疏混...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-11-30 talkingdev

专访诺奖得主John Jumper:AlphaFold的创造性“超范围应用”与LLM融合前瞻

在《麻省理工科技评论》的深度访谈中,谷歌DeepMind诺奖得主John Jumper揭示了AlphaFold超越传统蛋白质结构预测的突破性应用。这位2017年刚获得理论化学博士学位的科学家,如今正引领团队探索AlphaFold在药物设计、...

Read More
2025-11-30 talkingdev

NanoPDF:用Gemini Nano Banana模型通过自然语言编辑PDF演示文稿

开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型(代号Nano Banana)推出开源CLI工具Nano PDF,实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像,结合用户文本提示调用多模态AI...

Read More
2025-11-25 talkingdev

从GPT-3到Gemini 3:三年实现从聊天机器人到智能体的跨越

Gemini 3的发布标志着人工智能领域的重要转折——从基础对话系统升级为具备自主行动能力的智能体模型。该模型已能独立完成复杂编程任务、设计用户界面及开展学术研究,其能力达到博士级研究水平。虽然仍需人类指导,但...

Read More
2025-11-24 talkingdev

Nano Banana Pro发布:新一代AI图像生成工具现可体验

谷歌AI工作室最新推出的Nano Banana Pro标志着AI图像生成技术进入新阶段。该工具集成了多模态推理、实时网络搜索和4K超高清渲染三大核心能力,能够根据复杂指令自动获取知识并生成高质量视觉内容。与传统图像生成模...

Read More
2025-11-23 talkingdev

Gemini 3横空出世:基准测试全面超越OpenAI,谷歌重新夺回AI竞赛领先地位

谷歌最新发布的Gemini 3大模型在多项基准测试中表现突出,全面超越了OpenAI及其他竞争对手的模型,标志着谷歌在激烈的人工智能竞赛中实现重要突破。该模型在自然语言理解、代码生成和逻辑推理等核心能力上展现出显著...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page