漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-28 talkingdev

Decart推出实时唇形同步API:打造会说话的虚拟数字人

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作,推出开源实时唇形同步API技术。该技术通过实时音频流输入,可生成精准同步的虚拟人像视频与语音输出,支持任意语音引擎与自定义角色配置。这项突破性技术...

Read More
2025-10-27 talkingdev

突破性发现:Claude神经元实现跨模态视觉特征识别,SVG与ASCII艺术触发相同概念响应

Anthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现:其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明,当模型处理文字“眼睛”时激活的特定神经元,在遇到用@符号排列...

Read More
2025-10-23 talkingdev

开源|Open Notebook:开源版Notebook LM,支持16+AI提供商与多模态研究

近日,GitHub平台上线开源项目Open Notebook,该项目作为谷歌Notebook LM的开源替代方案,在数据自主性与功能扩展性上实现重要突破。该平台允许用户完全掌控个人数据,并集成超过16家主流AI服务提供商(如OpenAI、An...

Read More
2025-10-23 talkingdev

开源|LightMem:轻量化高效记忆增强生成框架发布

浙江大学团队推出的LightMem开源项目,为大型语言模型智能体提供了一套轻量级记忆增强生成解决方案。该系统通过创新的记忆管理架构,实现了长期记忆的存储、检索和更新功能,显著降低了传统记忆模块的计算开销。技术...

Read More
2025-10-23 talkingdev

World-in-World:首个闭环环境世界模型基准平台发布

近日,研究团队推出开创性基准平台World-in-World,这是首个专门针对闭环交互环境设计的开放评测框架。该平台突破传统世界模型仅关注视觉保真度的局限,将评估核心转向具身智能体在动态环境中的任务完成能力。通过构...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-10-17 talkingdev

Gemini 3.0通过A/B测试意外曝光:SVG生成质量成关键指标

近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...

Read More
2025-10-16 talkingdev

开源|Dedalus发布官方Python SDK,加速AI智能体平台开发

人工智能基础设施领域迎来重要更新——Dedalus Labs正式推出专为其AI智能体平台打造的官方Python SDK。该开发工具包通过系统化的API接口和开发工具,为开发者提供了构建、管理和交互自主智能体及工作流的核心能力。在...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page