漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-04 talkingdev

[开源]Nebius推出Kvax:基于JAX的Flash Attention优化实现,助力长上下文训练

Nebius近日开源了Kvax项目,这是一个基于JAX框架的Flash Attention实现,专门针对长上下文训练场景进行了优化。Kvax通过创新的上下文并行技术和高效的文档掩码计算,实现了更快的训练速度和更高的数据密度压缩,在性...

Read More
2024-04-28 talkingdev

重塑旅行者1号:NASA的星际探测器重新获得通讯能力

经过五个月的远程故障排除,工程师们部分地恢复了NASA旅行者1号航天器上1970年代的计算机。旅行者1号正在以超过150亿英里的距离离开地球,因此工程师上传一个指令并获得响应几乎需要两天的时间。该航天器在去年11月...

Read More
2024-02-14 talkingdev

HF实现模型输入数据打包,提高训练效率

将训练模型中的数据打包是提高训练效率的一种方式,它通过连接示例来实现。如果操作不当,示例之间可能会出现污染,因为注意力机制不知道何时停止。社区发现,使用EOS通常足以解决问题,但仍然可能存在问题。这个仓...

Read More