近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...
Read MoreOpenAI的Codex编码代理系统采用了一种名为“代理循环”的核心机制,该机制通过迭代式地构建提示、与底层大模型交互、并执行工具调用(如运行命令或测试)来完成复杂的编程任务。为了应对日益增长的对话历史和多层上下...
Read MoreOpenAI近期发布的Codex CLI是一款跨平台的本地软件代理,其核心机制——代理循环(agent loop)——代表了当前AI代理技术的前沿方向。该循环系统性地编排了用户、大语言模型与各类工具之间的交互流程:它首先迭代式地构...
Read MoreDeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...
Read MoreYAMS(Yet Another Memory System)是一款专为大型语言模型(LLMs)及其他应用设计的持久内存工具,采用内容寻址存储技术,具备多项先进特性。该系统通过去重和压缩技术优化存储效率,支持全文检索与语义搜索功能,...
Read More随着深度神经网络(DNNs)在边缘设备上的应用日益广泛,网络压缩技术的重要性愈发凸显。针对现有方法在边缘设备部署上的挑战,研究者提出了一种创新的分数阶高斯滤波与剪枝(FGFP)框架。该框架将分数阶微分计算与高...
Read MorePyTorch工程师团队通过分布式检查点(DCP)中的模块化压缩技术,成功将检查点文件体积减少22%。这项突破性优化显著降低了分布式训练过程中的存储占用和带宽消耗。文章详细阐述了该技术的集成步骤和关键设计选择,包...
Read MoreFLUX.1 Kontext [dev]作为一款拥有120亿参数的开源模型,突破性地在消费级硬件上实现了媲美商业闭源软件的图像编辑性能。该模型采用FLUX.1非商业许可协议开放权重,为学术研究和非商业应用提供免费访问权限。技术亮...
Read More