pandas.DataFrame.to_hdf #

数据框。to_hdf ( path_or_buf , * , key , mode = 'a' , complevel = None , complib = None , append = False , format = None , index = True , min_itemsize = None , nan_rep = None , dropna = None , data_columns = None ,错误= '严格' ,编码= 'UTF-8' ) [来源] #

使用 HDFStore 将包含的数据写入 HDF5 文件。

分层数据格式 (HDF) 是自描述的,允许应用程序在没有外部信息的情况下解释文件的结构和内容。一个 HDF 文件可以保存一组相关对象,这些对象可以作为一组或单个对象进行访问。

为了将另一个 DataFrame 或 Series 添加到现有 HDF 文件,请使用追加模式和不同的键。

警告

可以存储 HDF5 的子类DataFrameSeriesHDF5 的子类,但子类的类型在存储时会丢失。

有关详细信息,请参阅用户指南

参数
path_or_buf str 或 pandas.HDFStore

文件路径或 HDFStore 对象。

关键字符串

商店中群组的标识符。

模式{'a', 'w', 'r+'}, 默认 'a'

打开文件的方式:

  • 'w':写入,创建一个新文件(同名的现有文件将被删除)。

  • 'a':追加,打开现有文件进行读写,如果文件不存在则创建。

  • 'r+':与'a'类似,但文件必须已经存在。

编译级别{0-9},默认无

指定数据的压缩级别。值为 0 或 None 会禁用压缩。

complib {'zlib', 'lzo', 'bzip2', 'blosc'}, 默认 'zlib'

指定要使用的压缩库。支持 Blosc 的这些附加压缩器(如果未指定压缩器,则默认为:'blosc:blosclz'):{'blosc:blosclz', 'blosc:lz4', 'blosc:lz4hc', 'blosc:snappy', 'blosc:zlib ', 'blosc:zstd'}。指定不可用的压缩库会引发 ValueError。

附加布尔值,默认 False

对于表格式,将输入数据附加到现有数据。

格式{'fixed', 'table', None}, 默认 'fixed'

可能的值:

  • '固定':固定格式。快速写作/阅读。不可附加,也不可搜索。

  • 'table':表格格式。编写为 PyTables 表结构,其性能可能较差,但允许更灵活的操作,例如搜索/选择数据子集。

  • 如果没有,则检查 pd.get_option('io.hdf.default_format'),然后回退到“fixed”。

索引bool,默认 True

将 DataFrame 索引写为列。

min_itemsize dict 或 int,可选

将列名称映射到列的最小字符串大小。

nan_rep任意,可选

如何将 null 值表示为 str。不允许使用append=True。

dropna bool,默认 False,可选

删除缺失值。

data_columns列列表或 True,可选

要创建为磁盘查询的索引数据列的列的列表,或者为 True 则使用所有列。默认情况下,仅对对象的轴进行索引。请参阅 通过数据列查询。了解更多信息。仅适用于format='table'。

错误str,默认“严格”

指定如何处理编码和解码错误。open()有关选项的完整列表,请参阅错误参数。

编码str,默认“UTF-8”

也可以看看

read_hdf

从 HDF 文件读取。

DataFrame.to_orc

将 DataFrame 写入二进制 orc 格式。

DataFrame.to_parquet

将 DataFrame 写入二进制 parquet 格式。

DataFrame.to_sql

写入 SQL 表。

DataFrame.to_feather

为数据帧写出羽毛格式。

DataFrame.to_csv

写入 csv 文件。

例子

>>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]},
...                   index=['a', 'b', 'c'])  
>>> df.to_hdf('data.h5', key='df', mode='w')  

我们可以将另一个对象添加到同一个文件中:

>>> s = pd.Series([1, 2, 3, 4])  
>>> s.to_hdf('data.h5', key='s')  

从 HDF 文件读取:

>>> pd.read_hdf('data.h5', 'df')  
A  B
a  1  4
b  2  5
c  3  6
>>> pd.read_hdf('data.h5', 's')  
0    1
1    2
2    3
3    4
dtype: int64