美国国家标准与技术研究院(NIST)的科学家及其合作者近期取得了一项重大技术突破,他们开发出一种创新方法,能够在硅晶圆上沉积复杂图案的特殊材料,从而制造出用于光的集成光路,并实现了“任意波长”激光器的微型化...
Read More近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...
Read More一项名为‘简单自蒸馏’(Simple Self-Distillation, SSD)的新方法为大语言模型的代码生成能力提升开辟了一条高效且成本低廉的路径。该方法的核心在于,仅利用模型自身在特定采样配置(如温度参数和截断策略)下生成...
Read More在深度学习领域,残差连接(Residual Connections)是构建深层神经网络的关键技术,它通过将浅层特征直接传递到深层,有效缓解了梯度消失问题。然而,传统的残差连接通常采用固定、均匀的累加方式,这可能限制了模型...
Read More人工智能安全与研究公司Anthropic近期发布了一项重要研究,提出了一种全新的框架,旨在系统性地理解和衡量AI技术对劳动力市场的实际影响。该研究的目标是建立一个可重复、可验证的测量方法,以追踪AI如何具体影响就...
Read More近日,NVIDIA研究团队提出了一种名为“金鹅”(Golden Goose)的创新方法,旨在解决大语言模型(LLM)强化学习领域的一个关键瓶颈。当前,基于可验证奖励的强化学习(RLVR)是解锁LLM复杂推理能力的重要基石,但其发展...
Read More艾伦人工智能研究所(AI2)近日正式发布了其开源编程智能体系列的首个成员——SERA,并公开了完整的训练方案。这一突破性进展标志着构建适用于私有或内部代码库的编程智能体变得既经济又实用。SERA的核心价值在于,它...
Read More清华大学知识工程实验室(THUDM)在GitHub开源了项目CaRR,其对应论文《Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards》提出了一种创新方法,...
Read More