HDF5比CSV占用更多的空间？

我从问题中得到的答案的副本：https ://github.com/pydata/pandas/issues/3651

您的样本实在太小。HDF5具有相当大的开销，而且尺寸非常小（即使较小的一侧也有300k条目）。以下是两边都没有压缩的情况。浮点数实际上更有效地以二进制形式（以文本形式）表示。

此外，HDF5是基于行的。通过使表不是很宽但是很长，可以提高效率。（因此，您的示例在HDF5中根本不是很有效，请在这种情况下将其存储换位）

我通常有超过1000万行的表，查询时间可以是ms。甚至下面的例子也很小。拥有10GB以上的文件非常普遍（更不用说10GB以上仅需几秒钟的天文学专家！）

-rw-rw-r--  1 jreback users 203200986 May 19 20:58 test.csv
-rw-rw-r--  1 jreback users  88007312 May 19 20:59 test.h5

In [1]: df = DataFrame(randn(1000000,10))

In [9]: df
Out[9]: 
<class 'pandas.core.frame.DataFrame'>
Int64Index: 1000000 entries, 0 to 999999
Data columns (total 10 columns):
0    1000000  non-null values
1    1000000  non-null values
2    1000000  non-null values
3    1000000  non-null values
4    1000000  non-null values
5    1000000  non-null values
6    1000000  non-null values
7    1000000  non-null values
8    1000000  non-null values
9    1000000  non-null values
dtypes: float64(10)

In [5]: %timeit df.to_csv('test.csv',mode='w')
1 loops, best of 3: 12.7 s per loop

In [6]: %timeit df.to_hdf('test.h5','df',mode='w')
1 loops, best of 3: 825 ms per loop

In [7]: %timeit pd.read_csv('test.csv',index_col=0)
1 loops, best of 3: 2.35 s per loop

In [8]: %timeit pd.read_hdf('test.h5','df')
10 loops, best of 3: 38 ms per loop

我真的不会担心大小（我怀疑您不是，只是感兴趣，这很好）。HDF5的要点是磁盘便宜，cpu便宜，但是您无法一次将所有内容都存储在内存中，因此我们通过分块进行优化

其他 2022/1/1 18:33:58 有539人围观

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进，让解决方法与时俱进

请先登录

推荐问题

Flutter-更改SearchDelegate的搜索提示文本

Flutter-更改SearchDelegate的搜索提示文本

其他 2022-01-01 825
如何在hadoop hdfs中列出目录及其子目录中的所有文件

如何在hadoop hdfs中列出目录及其子目录中的所有文件

其他 2022-01-01 847
使用Java API将Parquet格式写入HDFS，而无需使用Avro和MR

使用Java API将Parquet格式写入HDFS，而无需使用Avro和MR

java 2022-01-01 780
如何使用python pandas从Docker容器访问CSV文件（位于pc hdd中）？

如何使用python pandas从Docker容器访问CSV文件（位于pc hdd中）？

python 2022-01-01 674
Hibernate: MyInterceptor#onFlushDirty is never called

Hibernate: MyInterceptor#onFlushDirty is never called

其他 2022-01-01 551
Redis，CouchDB还是Cassandra？

Redis，CouchDB还是Cassandra？

其他 2022-01-01 441
使用Spring Batch从HDFS读取文件

使用Spring Batch从HDFS读取文件

Java 2022-01-01 432
使用Linux netfilter将源IP地址从struct iphdr *转换为等效字符串

使用Linux netfilter将源IP地址从struct iphdr *转换为等效字符串

dotnet 2022-01-01 498
使用Java在hdfs中写入文件

使用Java在hdfs中写入文件

java 2022-01-01 475
关于hadoop HDFS文件系统重命名

关于hadoop HDFS文件系统重命名

其他 2022-01-01 484
当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

其他 2022-01-01 645
从Windows使用Java和Kerberos Keytab访问Cloudera上的HDFS

从Windows使用Java和Kerberos Keytab访问Cloudera上的HDFS

java 2022-01-01 446
python watchdog修改并创建了重复事件

python watchdog修改并创建了重复事件

python 2022-01-01 446
用于读取行的最佳HDF5数据集块形状

用于读取行的最佳HDF5数据集块形状

其他 2022-01-01 484
在映射器中逐行从HDFS读取文本文件

在映射器中逐行从HDFS读取文本文件

其他 2022-01-01 524
解析从蓝牙HDP设备接收的原始数据

解析从蓝牙HDP设备接收的原始数据

其他 2022-01-01 684
Hadoop上的HDFS位置是什么？

Hadoop上的HDFS位置是什么？

其他 2022-01-01 467
保存到hdf5非常慢（Python冻结）

保存到hdf5非常慢（Python冻结）

python 2022-01-01 455
Python从HDFS读取文件作为流

Python从HDFS读取文件作为流

python 2022-01-01 464
如何在python中将大型csv文件写入hdf5？

如何在python中将大型csv文件写入hdf5？

python 2022-01-01 536

HDF5比CSV占用更多的空间？

撰写回答

推荐问题

Flutter-更改SearchDelegate的搜索提示文本

如何在hadoop hdfs中列出目录及其子目录中的所有文件

使用Java API将Parquet格式写入HDFS，而无需使用Avro和MR

如何使用python pandas从Docker容器访问CSV文件（位于pc hdd中）？

Hibernate: MyInterceptor#onFlushDirty is never called

Redis，CouchDB还是Cassandra？

使用Spring Batch从HDFS读取文件

使用Linux netfilter将源IP地址从struct iphdr *转换为等效字符串

使用Java在hdfs中写入文件

关于hadoop HDFS文件系统重命名

当使用“ pandas.read_hdf（）”读取巨大的HDF5文件时，即使我通过指定chunksize读取数据块，为什么仍然仍然出现MemoryError错误？

从Windows使用Java和Kerberos Keytab访问Cloudera上的HDFS

python watchdog修改并创建了重复事件

用于读取行的最佳HDF5数据集块形状

在映射器中逐行从HDFS读取文本文件

解析从蓝牙HDP设备接收的原始数据

Hadoop上的HDFS位置是什么？

保存到hdf5非常慢（Python冻结）

Python从HDFS读取文件作为流

如何在python中将大型csv文件写入hdf5？

分类汇总

您的鼓励是对我最大的支持