漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-03-24 talkingdev

[开源] 探索潜在多跳推理:大语言模型的多知识连接能力研究

近期,一项关于大语言模型(LLMs)的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现,这种潜在的推理过程确实存在,尤其在初始步骤中表现明显。然而,模型对连接知识的...

Read More
2025-03-24 talkingdev

[开源]Tokenize an Image as a Set:基于集合标记化的图像生成新框架

近日,GitHub上发布了一个名为“Tokenize an Image as a Set”的开源项目,该项目提出了一种全新的图像生成框架。该框架通过集合标记化(set-based tokenization)和新型离散扩散方法(discrete diffusion method),...

Read More
2025-03-24 talkingdev

SynCity:无需训练,从文本生成精细3D世界的创新系统

SynCity是一种革命性的系统,能够直接从文本提示生成详细的3D世界,而无需任何训练。该系统结合了2D图像生成器和3D生成器的优势,前者确保了艺术质量,后者则提供了精确的几何结构。SynCity以分块的方式构建场景,并...

Read More
2025-03-20 talkingdev

[论文推荐] KoLMogorov 测试:通过代码生成实现压缩

Meta 最近引入了一种新的基准测试,用于评估语言模型的推理能力和知识水平。该测试向语言模型提供一个长序列数据,并要求模型输出能够重新生成该序列并停止运行的最短程序。这一过程被称为 Kolmogorov 压缩,且在多...

Read More
2025-03-20 talkingdev

Zoom的AI进化:从基础会议工具到基于LLMs和SLMs的智能生产力平台

Zoom正通过开发一套自主AI基础设施,将其业务从视频会议扩展到行动导向的工作流程。这一创新包括AI Companion 2.0,它提供了任务管理和文档创建等功能,以及通过新的AI Studio定制的AI代理。Zoom采用联合方法,将公...

Read More
2025-03-20 talkingdev

Concierge AI:用自然语言与你的应用程序对话

随着人工智能技术的飞速发展,Concierge AI 提供了一个创新的解决方案,使用户能够通过自然语言无缝连接和操作各种应用程序。无论是电子邮件、日历、文件管理还是支付系统,用户只需选择其偏好的 AI 模型(如 GPT、C...

Read More
2025-03-19 talkingdev

谷歌新型机器人AI实现精细折纸与拉链袋无损操作

谷歌DeepMind近日发布了Gemini Robotics和Gemini Robotics-ER两款AI模型,显著提升了机器人的精细运动技能和现实应用中的适应性。Gemini Robotics整合了视觉、语言与行动能力,使机器人能够完成如折纸等复杂任务。初...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page