开始使用#

安装#

与康达合作?

pandas 是Anaconda发行版的一部分 ,可以与 Anaconda 或 Miniconda 一起安装:

更喜欢点?

pandas 可以通过PyPI中的 pip 安装。

深入指导?

安装特定版本?从源安装?检查高级安装页面。

Pandas简介#

当处理表格数据(例如存储在电子表格或数据库中的数据)时,pandas 是适合您的工具。pandas 将帮助您探索、清理和处理数据。在 pandas 中,数据表称为DataFrame.

../_images/01_table_dataframe.svg

pandas 支持与多种文件格式或开箱即用的数据源集成(csv、excel、sql、json、parquet...)。从每个数据源导入数据是由带有前缀 的函数提供的read_*。类似地,这些to_*方法用于存储数据。

../_images/02_io_readwrite.svg

选择或过滤特定的行和/或列?根据条件过滤数据?pandas 提供了切片、选择和提取所需数据的方法。

../_images/03_subset_columns_rows.svg

pandas 使用 Matplotlib 的强大功能,可以开箱即用地绘制数据。您可以选择与您的数据相对应的绘图类型(散点图、条形图、箱线图……)。

../_images/04_plot_overview.svg

无需循环数据表的所有行来进行计算。对列的数据操作按元素进行。DataFrame根据其他列中的现有数据添加列非常简单。

../_images/05_newcolumn_2.svg

基本统计数据(平均值、中值、最小值、最大值、计数……)很容易计算。这些或自定义聚合可以应用于整个数据集、数据的滑动窗口或按类别分组。后者也称为拆分-应用-组合方法。

../_images/06_groupby.svg

以多种方式更改数据表的结构。您可以将melt()数据表从宽格式改为长/整齐格式或pivot() 从长格式改为宽格式。通过内置聚合,可以使用单个命令创建数据透视表。

../_images/07_melt.svg

Multiple tables can be concatenated both column wise and row wise as database-like join/merge operations are provided to combine multiple tables of data.

../_images/08_concat_row.svg

pandas has great support for time series and has an extensive set of tools for working with dates, times, and time-indexed data.

Data sets do not only contain numerical data. pandas provides a wide range of functions to clean textual data and extract useful information from it.

来自… #

您熟悉其他用于操作表格数据的软件吗?与您已经了解的软件相比,了解 pandas 的等效操作:

R编程语言提供了 data.frame数据结构和多个包,例如 tidyverse的使用和扩展data.frame ,以实现类似于pandas的便捷数据处理功能。

已经熟悉SELECT、、等?大多数这些 SQL 操作在 pandas 中都有对应的操作。GROUP BYJOIN

STATA统计软件套件中包含的对应 的就是pandas 。STATA 中已知的许多操作在 pandas 中都有对应的操作。data setDataFrame

Excel或其他电子表格程序的用户 会发现许多概念都可以转移到 pandas 中。

SAS统计软件套件也提供了pandas相对应的。此外,SAS向量化操作、过滤、字符串处理操作等在pandas中也有类似的功能。data setDataFrame

教程#

有关 pandas 功能的快速概述,请参阅10 分钟了解 pandas

您还可以参考 pandas备忘单 ,获取使用 pandas 操作数据的简洁指南。

该社区提供各种在线教程。一些材料已收录在社区贡献的社区教程中。