pandas.DataFrame.info #

数据框。info ( verbose = None , buf = None , max_cols = None , memory_usage = None , show_counts = None ) [来源] #

打印 DataFrame 的简洁摘要。

此方法打印有关 DataFrame 的信息,包括索引数据类型和列、非空值和内存使用情况。

参数
详细布尔值,可选

是否打印完整的摘要。默认情况下,pandas.options.display.max_info_columns遵循中的设置 。

buf可写缓冲区,默认为 sys.stdout

将输出发送到哪里。默认情况下,输出打印到 sys.stdout。如果需要进一步处理输出,请传递可写缓冲区。

max_cols int,可选

何时从详细输出切换到截断输出。如果 DataFrame 的列数超过max_cols,则使用截断的输出。默认情况下,pandas.options.display.max_info_columns使用中的设置 。

memory_usage bool, str, 可选

指定是否应显示 DataFrame 元素(包括索引)的总内存使用量。默认情况下,这遵循pandas.options.display.memory_usage设置。

True 始终显示内存使用情况。 False 从不显示内存使用情况。 “深刻”的值相当于“深刻内省的真实”。内存使用情况以人类可读单位(以 2 为基数表示)显示。如果没有深度自省,则基于列数据类型和行数进行内存估计,假设值消耗相应数据类型相同的内存量。通过深度内存自省,可以以计算资源为代价来执行实际内存使用情况计算。请参阅 常见问题了解更多详细信息。

show_counts布尔值,可选

是否显示非空计数。默认情况下,仅当 DataFrame 小于pandas.options.display.max_info_rows和 时才显示 pandas.options.display.max_info_columns。 True 值始终显示计数,False 值从不显示计数。

返回
没有任何

此方法打印 DataFrame 的摘要并返回 None。

也可以看看

DataFrame.describe

生成 DataFrame 列的描述性统计数据。

DataFrame.memory_usage

DataFrame 列的内存使用情况。

例子

>>> int_values = [1, 2, 3, 4, 5]
>>> text_values = ['alpha', 'beta', 'gamma', 'delta', 'epsilon']
>>> float_values = [0.0, 0.25, 0.5, 0.75, 1.0]
>>> df = pd.DataFrame({"int_col": int_values, "text_col": text_values,
...                   "float_col": float_values})
>>> df
    int_col text_col  float_col
0        1    alpha       0.00
1        2     beta       0.25
2        3    gamma       0.50
3        4    delta       0.75
4        5  epsilon       1.00

打印所有列的信息:

>>> df.info(verbose=True)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype
---  ------     --------------  -----
 0   int_col    5 non-null      int64
 1   text_col   5 non-null      object
 2   float_col  5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes

打印列数及其数据类型的摘要,但不打印每列信息:

>>> df.info(verbose=False)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Columns: 3 entries, int_col to float_col
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes

将 DataFrame.info 的输出通过管道传输到缓冲区而不是 sys.stdout,获取缓冲区内容并写入文本文件:

>>> import io
>>> buffer = io.StringIO()
>>> df.info(buf=buffer)
>>> s = buffer.getvalue()
>>> with open("df_info.txt", "w",
...           encoding="utf-8") as f:  
...     f.write(s)
260

memory_usage参数允许深度自省模式,对于大 DataFrame 和微调内存优化特别有用:

>>> random_strings_array = np.random.choice(['a', 'b', 'c'], 10 ** 6)
>>> df = pd.DataFrame({
...     'column_1': np.random.choice(['a', 'b', 'c'], 10 ** 6),
...     'column_2': np.random.choice(['a', 'b', 'c'], 10 ** 6),
...     'column_3': np.random.choice(['a', 'b', 'c'], 10 ** 6)
... })
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
 #   Column    Non-Null Count    Dtype
---  ------    --------------    -----
 0   column_1  1000000 non-null  object
 1   column_2  1000000 non-null  object
 2   column_3  1000000 non-null  object
dtypes: object(3)
memory usage: 22.9+ MB
>>> df.info(memory_usage='deep')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 3 columns):
 #   Column    Non-Null Count    Dtype
---  ------    --------------    -----
 0   column_1  1000000 non-null  object
 1   column_2  1000000 non-null  object
 2   column_3  1000000 non-null  object
dtypes: object(3)
memory usage: 165.9 MB