HuggingFace开源数据过滤库Datatrove
talkingdev • 2024-01-23
1053416 views
HuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。
talkingdev • 2024-01-23
1053416 views
HuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。