Hazy研究团队最新推出一款名为ThunderKittens的CUDA DSL,旨在帮助开发者更简单、更高效地编写CUDA内核。据了解,该团队已经用这款新工具编写了flash attention模块,结果表明其运行速度比原版本快了30%,而且仅需10...
Read MoreCohere公司近日推出了其Command R的微调功能,该功能以极低的成本提供了业界领先的性能。在对企业最重要的关键性能指标上,具有微调功能的Command R始终优于更大的模型。该微调功能现已在Cohere的平台和亚马逊Sagema...
Read MoreYOCO架构是一种具有全局注意力能力的解码器-解码器模型,能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器,使得关键-值对的缓存和复用更加高效。与传统的Transformer相比,YOCO在推理内存、延迟和吞吐...
Read MoreChemFlow是一个新的框架,旨在通过使用深度生成模型高效地导航化学空间,从而提高分子科学的效率。这种新型框架的出现,使化学研究人员能够在化学空间中更加精准地进行探索和导航,从而为分子科学领域的研究和发展开...
Read MoreQoQ,一种新型量化算法,通过使用4位权重、8位激活和4位KV缓存,加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术,它能够减少模型的存储需求和计算复杂性。在这种情况下,QoQ算法采用了较低精度的数...
Read More知名编程网站Stack Overflow与OpenAI达成合作,共同提供一种数据API供OpenAI的客户使用,以便获取实时且经过审核的数据。这种API的推出,旨在为开发者提供方便快捷的数据获取方式,推动编程领域的进步和创新。这是St...
Read More近日,一款名为FeNNol的前沿库令人瞩目,它简化了混合神经网络势能的创建和部署,为分子模拟提供了新的可能性。混合神经网络势能技术是一种依赖神经网络的计算模型,该模型能够模拟分子间的相互作用和反应过程,有助...
Read More最近,研究人员证实了Rust编程语言适用于底层系统编程。Rust语言结合了C++的高效性和安全性,而又避免了C++中常见的内存错误和未定义的行为。根据最近的研究,Rust语言可以用于编写操作系统内核、网络协议栈和其他底...
Read More