漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-15 talkingdev

用PyTorch从零开始重新实现StableDiffusion 3.5

开发者yousef-rafat在GitHub上开源了miniDiffusion项目,这是一个完全使用PyTorch重新实现的Stable Diffusion 3.5版本。该项目去除了原始实现中的复杂依赖,仅依靠PyTorch框架,使得模型更加轻量化和易于理解。这一...

Read More
2025-06-12 talkingdev

[开源] RomM:开源自托管ROM管理器与浏览器模拟器,打造复古游戏库的Plex体验

RomM是一款开源自托管应用(AGPLv3协议),专为复古游戏爱好者设计,可将散乱的ROM文件转化为带元数据的可视化游戏库。其核心功能包括:1) 自动从在线数据库抓取游戏封面、描述等元数据,类似Plex对影视库的智能化管...

Read More
2025-06-11 talkingdev

[开源]LLaVA-STF:高效多模态推理技术实现75%的视觉令牌压缩

LLaVA-STF项目通过创新的相邻令牌合并技术和多区块令牌融合模块,成功将视觉令牌序列压缩75%,显著提升了多模态推理效率。该技术突破性地解决了视觉语言模型中长序列处理带来的计算资源消耗问题,通过动态合并语义相...

Read More
2025-06-11 talkingdev

[开源] 高性能色彩量化工具Patolette,突破传统算法限制

开发者big-nacho近日在GitHub开源了个人项目Patolette,这是一个基于前沿论文实现的高端色彩量化工具。该项目源于作者工作中遇到的色彩量化问题,在发现一篇创新论文却找不到现有实现后,决定自行开发并逐渐深入优化...

Read More
2025-06-10 talkingdev

Hugging Face推出ScreenSuite:标准化评估GUI智能体的新基准套件

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...

Read More
2025-06-09 talkingdev

微软推出GUI-Actor:AI代理无需坐标即可操作屏幕界面

微软研究院最新提出的GUI-Actor技术,彻底改变了AI代理与图形用户界面(GUI)的交互方式。这项突破性技术摒弃了传统依赖像素坐标预测的方法,转而采用注意力机制直接解析屏幕截图内容,使AI能够像人类一样'理解'界面...

Read More
2025-06-07 talkingdev

Odyc.js:一款轻量级JavaScript叙事游戏库引发开发者关注

近日,一款名为Odyc.js的轻量级JavaScript库在技术社区引发热议。该库专为叙事类游戏开发设计,以其简洁高效的特性吸引了众多开发者的目光。据Hacker News数据显示,相关讨论帖获得198个点赞和45条评论,反映出业界...

Read More
2025-06-06 talkingdev

ContainerUse-安全独立的AI编程Agent开发环境

开源项目Container Use近期在GitHub发布,该工具专为AI编程代理(coding agents)设计,能够创建隔离的开发环境,支持多代理同时安全、独立地协作开发,且兼容任意技术栈。这一创新解决了AI协同编程中的环境隔离与资...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page