漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-12 talkingdev

微软OneDrive测试人脸识别AI功能,用户每年仅能3次选择退出照片扫描

微软近期在OneDrive云存储服务中启动了一项引发争议的AI功能测试:面向部分预览用户推出基于人脸识别的照片智能分析技术。该系统通过人工智能自动识别并分类用户照片中的人物面部信息,但仅允许用户每年行使3次退出...

Read More
2025-10-08 talkingdev

论文推荐|Less is More:微型网络实现递归推理

三星蒙特利尔AI实验室最新研究《Less is More: Recursive Reasoning with Tiny Networks》提出突破性方法,通过递归架构使参数量极少的神经网络具备复杂推理能力。该研究在arXiv公开的论文(编号2510.04871)中展示...

Read More
2025-10-03 talkingdev

开源|Edge264:面向8K超高清的极简高性能H.264软件解码器

近日,GitHub开源社区涌现出一款名为Edge264的轻量级H.264/AVC视频解码器,其以极致性能与精简代码为核心设计理念。该项目采用C语言结合128位向量扩展指令集开发,通过代码块优化、树状分支预测及寄存器饱和SIMD技术...

Read More
2025-10-03 talkingdev

开源|Vision-Zero:基于视觉博弈策略的自监督VLM训练框架

Vision-Zero项目提出了一种突破性的视觉语言模型训练范式,通过生成式对抗游戏实现自监督学习。该框架的核心创新在于利用任意图像对构建竞争性视觉游戏,使模型在无需人工标注的情况下,通过策略性自我博弈持续优化...

Read More
2025-10-03 talkingdev

IBM发布开源企业级大模型Granite 4.0:混合架构显著降低内存占用

科技巨头IBM近日正式推出Granite 4.0大语言模型系列,该开源方案采用创新的混合架构设计,宣称相比传统LLM可大幅降低内存占用。作为拥有114年历史的科技企业,IBM此次发布的模型特别强调“企业就绪”特性,通过结合Mam...

Read More
2025-10-01 talkingdev

开源|Handy:完全离线的开源语音转文字工具,支持跨平台与自定义快捷键

近期在GitHub上开源的Handy项目,是一款完全离线运行的跨平台语音转文字应用,其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖,在隐私保...

Read More
2025-09-26 talkingdev

谷歌发布Gemini 2.5 Flash与Flash-Lite升级版:效率提升50%,推理速度再突破

谷歌DeepMind团队近日在Google AI Studio和Vertex AI平台推出了Gemini 2.5 Flash及Flash-Lite模型的升级版本。此次更新聚焦于模型效率与性能的协同优化:Gemini 2.5 Flash-Lite的输出令牌数量减少50%,而标准版Flash...

Read More
2025-09-25 talkingdev

开源|Apache SedonaDB发布:专注地理空间数据的单机分析数据库引擎

Apache社区最新推出SedonaDB——一款基于Rust构建的开源单节点分析数据库引擎,其革命性突破在于将地理空间数据提升为“第一优先”。该引擎深度集成Apache Arrow列式内存计算框架与DataFusion查询引擎,原生支持空间数据...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page