实时交互的相关内容 - 漫话开发者

2026-06-18 talkingdev

NVIDIA XR AI公测：为AR眼镜与XR设备打造AI Agent的开源利器

NVIDIA近日宣布其XR AI平台进入公开测试阶段，为增强现实（AR）眼镜和扩展现实（XR）头显开发者提供了一个关键的底层基础设施。该平台是一个开源库，旨在填补当前硬件就绪但缺乏集成本地AI体验的空白。它允许开发者...

2026-05-20 talkingdev

英伟达（NVIDIA）最新开源了LongLive 1.0框架，旨在解决长视频生成领域长期面临的实时交互难题。该框架通过引入流式注意力（Streaming Attention）和KV缓存优化（KV-cache optimization）技术，实现了对超长视频序列...

2026-05-12 talkingdev

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览，旨在通过音频、视频和文本三种模态，实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”，能够持续处理与交换多模态信息，彻底打破...

2026-05-08 talkingdev

谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升，成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”（Speculative Decoding）技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...

2026-05-06 talkingdev

Google最新发布的Gemma 4模型通过引入多Token预测（Multi-Token Prediction, MTP）草案机制，显著降低了延迟瓶颈，提升了开发者的交互响应体验。该技术利用一种专门的投机性解码（Speculative Decoding）架构，在不...

2026-04-08 talkingdev

近日，一个名为Clicky的开源项目在GitHub上发布，为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”，能够实时“看到”用户屏幕内容，并通过语音与用户交流，甚至能直接“指...

2026-03-06 talkingdev

欧洲领先的医疗科技公司Doctolib近期分享了其在移动端构建可靠AI聊天功能的实践经验。该公司最初以医疗预约应用起家，近年来正转型为更全面的健康伴侣平台。在开发过程中，团队发现构建移动端AI聊天功能比预期更具挑...

2026-03-05 talkingdev

微软近日发布了Phi-4-reasoning-vision-15B，这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数，却在数学、科学、文档及用户界面（UI）推理任务上，达到了与参数量大数倍的模型相当甚至更优的性...