漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-03-13 talkingdev

Vimeo如何攻克AI字幕翻译难题:从“空白屏”到精准时序对齐

视频平台Vimeo在构建基于大语言模型(LLM)的AI字幕翻译功能时,遭遇了一个反直觉的技术瓶颈:模型倾向于将原始语音中零散、碎片化的表达,合并成一句语法完整但时序错乱的“干净”句子。这导致翻译后的字幕在视频播放...

Read More
2026-03-11 talkingdev

开源|RCLI:完全本地的macOS语音AI助手,无需云端即可控制电脑与文档问答

近日,GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线,集成了语音识别(Speech-to-Text)...

Read More
2026-03-10 talkingdev

开源|Mog语言:专为AI智能体设计的静态类型嵌入式编程语言

近日,一款名为Mog的新型编程语言在开发者社区引发关注。Mog被定位为一门静态类型、编译型、嵌入式语言,其设计理念与静态类型的Lua类似,但核心目标用户并非人类程序员,而是大型语言模型(LLM)。该语言的完整规范...

Read More
2026-03-09 talkingdev

开源|阿里开源Page Agent:用自然语言操控网页界面的JavaScript GUI智能体

阿里巴巴开源项目Page Agent近日在GitHub发布,这是一个运行于浏览器页面内的JavaScript图形用户界面智能体。其核心创新在于,允许用户直接使用自然语言指令(如“点击登录按钮”或“在搜索框输入关键词”)来操控网页界...

Read More
2026-03-09 talkingdev

开源|Karpathy发布AutoResearch项目:单GPU驱动的AI自主研究循环

知名AI研究员、前特斯拉AI总监Andrej Karpathy近日在GitHub上开源了AutoResearch项目,该项目旨在构建一个能够在单GPU小型LLM训练环境中运行的AI驱动自主研究循环系统。该系统允许AI智能体自动修改代码和指导文件,...

Read More
2026-03-07 talkingdev

开源|OBLITERATUS:一款旨在移除开源大语言模型审查限制的工具引发热议

近日,一个名为OBLITERATUS的开源项目在开发者社区及技术新闻平台Hacker News上引发了广泛关注与讨论。该项目由开发者elder-plinius在GitHub上发布,其核心目标是“粉碎束缚你的枷锁”,具体指向为移除或绕过开源、开...

Read More
2026-03-07 talkingdev

你的大语言模型不写正确代码,只写看似合理的代码

一篇来自KatanaQuant博客的技术文章引发了广泛讨论,该文章指出,当前的大语言模型(LLM)在代码生成任务中存在一个根本性局限:它们倾向于生成“看似合理”而非“绝对正确”的代码。这一观点在Hacker News社区获得了138...

Read More
2026-03-03 talkingdev

开源|从零打造亚500毫秒延迟语音助手:技术架构与关键洞察

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page