漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-14 talkingdev

数据湖性能对决:Polars、DuckDB、Daft与Spark处理650GB Delta Lake基准测试

近日,数据工程领域开展了一项重要的性能基准测试,针对当前主流的四大数据处理框架——Polars、DuckDB、Daft和Spark,在亚马逊S3存储的650GB Delta Lake数据集上进行了全面对比。测试聚焦于现代数据架构中的关键性能...

Read More
2024-12-16 talkingdev

放弃Spark转投DuckDB或Polars?比较分析

随着数据科学的迅猛发展,数据处理框架的选择成为技术决策者的一大挑战。最近,DuckDB和Polars作为新兴的数据框架,引起了业界的关注。DuckDB是一个自诩为'SQLite for Analytics'的嵌入式分析数据库,它以轻量级和高...

Read More
2023-06-02 talkingdev

Lance:现代机器学习数据格式

Lance是一种现代的机器学习数据格式。它提供了更快的随机访问、向量索引、数据版本控制等功能。Lance支持pandas、duckdb、polars和pyarrow等工具,可用于构建搜索引擎和特征库、大规模机器学习训练,以及存储、查询...

Read More