多模态AI的相关内容 - 漫话开发者

2025-10-28 talkingdev

Decart推出实时唇形同步API：打造会说话的虚拟数字人

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作，推出开源实时唇形同步API技术。该技术通过实时音频流输入，可生成精准同步的虚拟人像视频与语音输出，支持任意语音引擎与自定义角色配置。这项突破性技术...

2025-10-27 talkingdev

Anthropic研究团队在《Circuits Updates – October 2025》中披露了令人振奋的发现：其大型语言模型Claude的内部神经元展现出跨模态理解能力。实验表明，当模型处理文字“眼睛”时激活的特定神经元，在遇到用@符号排列...

2025-10-21 talkingdev

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术，探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

2025-10-17 talkingdev

近日，开发者通过Google AI Studio的A/B测试功能，意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准，通过对比不同版本模型的输出质量，间接验证了新一代模型在复杂结构化数据...

2025-10-03 talkingdev

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式，通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏，使模型在无需人工标注的情况下，通过策略性自我博弈持续优化...

2025-09-23 talkingdev

阿里巴巴正式推出通义千问Qwen3-Omni系列开源人工智能模型，该模型实现了对文本、音频、图像和视频四类模态数据的统一处理能力，并能同步生成文本与语音输出。作为中国科技企业对抗美国科技巨头的重要技术突破，Qwen...

2025-09-21 talkingdev

根据《福布斯》杂志2025年10/11月刊的深度报道，由前谷歌、Facebook和Twitter资深技术专家Edwin Chen（陈德伟）创立的Surge AI在2024年实现12亿美元营收并实现盈利，现正以300亿美元估值进行10亿美元规模的融资。Sur...

2025-09-12 talkingdev

GitHub热门项目「Awesome-Nano-Banana-images」近期引发人工智能社区广泛关注，该项目通过精心策划的示例库，展示了基于Gemini-2.5-flash图像生成模型「Nano Banana🍌」的多样化应用场景。该仓库收录了包括超现实主义...