漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-28 talkingdev

42.parquet——大数据分析的潜在威胁

Apache Parquet作为表格数据交换的事实标准,采用二进制、列式、压缩的数据表示方式,具备充足的元数据,使得文件无需额外信息即可正确解释。该格式得到大多数现代数据工具与服务的支持。然而,Parquet文件存在一定...

Read More
2024-03-26 talkingdev

Apache Parquet:数据科学领域的CSV替代者

在数据科学领域,CSV格式因其人类可读性强、相较于JSON和XML更为简洁且易于生成而广受欢迎。然而,CSV格式通常缺乏明确规范,且在数据压缩和性能方面表现不佳。实际上,有许多文件格式更适合处理表格数据。本文将探...

Read More
2024-03-25 talkingdev

哈希网格辅助上下文框架实现3D高斯数据75倍压缩

本项目介绍了哈希网格辅助上下文(HAC)框架,该框架实现了3D高斯数据(3DGS)的压缩,压缩比超过75倍,超越了当前的压缩标准。通过采用这种创新技术,3D高斯数据的存储和传输效率将得到显著提升,对于云计算、游戏...

Read More
2024-03-20 talkingdev

全新数据压缩技术:AI模型训练数据集大幅缩减

近日,一项名为Poster Dataset Distillation的技术引起了广泛关注。该技术能够将庞大的数据集压缩成一个单一的'海报',使得人工智能模型能够通过不到一张每个类别的图片进行学习。这一创新方法大幅减少了训练AI模型...

Read More
2023-09-29 talkingdev

研究表明,AI语言模型在无损压缩方面能够超过PNG和FLAC

DeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。

Read More
  1. Prev Page