漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-08 talkingdev

论文推荐|WebGym:为视觉网页智能体构建近30万真实任务的大规模训练场,性能超越GPT-4o

近日,研究人员推出了迄今为止最大规模的开源环境WebGym,专门用于训练能够处理真实世界网页任务的视觉智能体。该环境的核心价值在于解决了现有训练集的局限性:人工合成或小规模任务集无法应对真实网站的多样性和非...

Read More
2025-12-15 talkingdev

Tinker全面开放并集成视觉输入能力,推理模型Kimi K2 Thinking正式上线

人工智能平台Tinker今日宣布结束等待名单,正式向所有用户开放,并同步推出多项重要技术更新。本次更新的核心亮点包括:引入全新的推理模型Kimi K2 Thinking,该模型拥有万亿级参数,专为处理长链条复杂推理和工具调...

Read More
2025-12-05 talkingdev

Hugging Face新技能:Claude AI现已能微调开源大语言模型

Hugging Face平台近日推出了一项名为“Hugging Face Skills”的新功能,该功能赋予了Anthropic公司的Claude AI模型直接微调开源大语言模型的能力。这项技术突破意味着,用户现在可以通过Claude的对话界面,直接提交模...

Read More
2025-11-26 talkingdev

Nano Banana Pro突破AI图像生成边界:工具调用实现智能信息图创作

人工智能研究领域迎来重大突破——Nano Banana Pro通过工具调用技术重新定义了信息图生成的边界。该模型能够主动抓取多源数据并进行智能合成,在保持原始数据准确性的基础上,通过算法优化生成具有视觉表现力的信息图...

Read More
2025-11-11 talkingdev

Moonshot AI开源Kimi K2思维模型:320亿激活参数,性能达非思维模型前沿水平

近日,前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型,该模型采用混合专家架构,具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面,Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-10-17 talkingdev

Anthropic推出Claude Skills:模块化技能包重塑AI工作流

人工智能公司Anthropic正式发布Claude Skills功能,通过模块化技能包体系实现AI工作流程的深度定制。该技术将特定任务所需的指令集、脚本和资源封装为独立技能单元,仅在任务触发时动态加载相关上下文,显著提升Clau...

Read More
2025-10-15 talkingdev

表征自编码器革新扩散Transformer:多模态预训练模型驱动图像生成质量突破

近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page