pandas.DataFrame.resample # 数据框。重新采样(规则,轴= _NoDefault.no_default,关闭=无,标签=无,约定= _NoDefault.no_default,种类= _NoDefault.no_default, on =无,级别=无,原点= 'start_day',偏移=无, group_keys =错误) [来源] # 对时间序列数据重新采样。 时间序列频率转换和重采样的便捷方法。该对象必须具有类似日期时间的索引(DatetimeIndex、periodIndex或TimedeltaIndex),或者调用者必须将类似日期时间的系列/索引的标签传递给on/level关键字参数。 参数: 规则DateOffset、Timedelta 或 str表示目标转换的偏移字符串或对象。 轴{0 或 'index', 1 或 'columns'}, 默认 0使用哪个轴进行上采样或下采样。对于Series,此参数未使用,默认为 0。必须是 DatetimeIndex、TimedeltaIndex或periodIndex。 自版本 2.0.0 起已弃用:使用frame.T.resample(…) 代替。 关闭{'right', 'left'}, 默认 Nonebin 间隔的哪一侧是封闭的。除“ME”、“YE”、“QE”、“BME”、“BA”、“BQE”和“W”外,所有频率偏移的默认值为“左”,它们的默认值为“右”。 标签{'right', 'left'}, 默认 None给桶贴上标签的箱边缘标签。除“ME”、“YE”、“QE”、“BME”、“BA”、“BQE”和“W”外,所有频率偏移的默认值为“左”,它们的默认值为“右”。 约定{'start', 'end', 's', 'e'}, 默认 'start'仅对于PeriodIndex,控制是否使用规则的开始或结束。 自版本 2.2.0 起已弃用:在重新采样之前将 periodIndex 转换为 DatetimeIndex。 kind {'timestamp', 'period'},可选,默认 None传递 'timestamp' 将结果索引转换为 DateTimeIndex或传递 'period' 将其转换为periodIndex。默认情况下,保留输入表示形式。 自版本 2.2.0 起已弃用:将索引显式转换为所需类型。 在str 上,可选对于 DataFrame,使用列代替索引进行重采样。列必须类似于日期时间。 level str 或 int,可选对于 MultiIndex,用于重采样的级别(名称或编号)。级别必须类似于日期时间。 origin时间戳或 str,默认 'start_day'调整分组的时间戳。来源时区必须与索引时区匹配。如果是字符串,则必须是以下之一: 'epoch':起源是 1970-01-01 'start':原点是时间序列的第一个值 'start_day':原点是时间序列午夜的第一天 'end':原点是时间序列的最后一个值 'end_day':原点是最后一天的最高午夜 1.3.0 版本中的新增功能。 笔记 仅对刻度频率(即天、小时和分钟等固定频率,而不是月或季度)有效。 offset Timedelta 或 str,默认为 None添加到原点的偏移时间增量。 group_keys bool, 默认 False.apply()在重采样对象上使用时是否将组键包含在结果索引中 。 版本 1.5.0 中的新增功能:不指定group_keys将保留 pandas 1.4 及更早版本中依赖于值的行为(有关示例,请参阅pandas 1.5.0 发行说明)。 版本 2.0.0 中更改:group_keys现在默认为False. 返回: pandas.api.typing.ResamplerResampler目的。 也可以看看 Series.resample重新采样系列。 DataFrame.resample重新采样数据帧。 groupby按映射、函数、标签或标签列表对系列/数据帧进行分组。 asfreq使用给定频率重新索引系列/数据帧而不进行分组。 笔记 请参阅用户指南 了解更多信息。 要了解有关偏移字符串的更多信息,请参阅此链接。 例子 首先创建一个包含 9 个一分钟时间戳的系列。 >>> index = pd.date_range('1/1/2000', periods=9, freq='min') >>> series = pd.Series(range(9), index=index) >>> series 2000-01-01 00:00:00 0 2000-01-01 00:01:00 1 2000-01-01 00:02:00 2 2000-01-01 00:03:00 3 2000-01-01 00:04:00 4 2000-01-01 00:05:00 5 2000-01-01 00:06:00 6 2000-01-01 00:07:00 7 2000-01-01 00:08:00 8 Freq: min, dtype: int64 将序列下采样为 3 分钟的 bin,并对落入 bin 的时间戳值求和。 >>> series.resample('3min').sum() 2000-01-01 00:00:00 3 2000-01-01 00:03:00 12 2000-01-01 00:06:00 21 Freq: 3min, dtype: int64 如上所述,将系列采样为 3 分钟的 bin,但使用右边缘而不是左侧标记每个 bin。请注意,用作标签的存储桶中的值不包含在它所标记的存储桶中。例如,在原始系列中,桶包含值 3,但带标签的重采样桶中的求和值 不包括 3(如果包含,求和值将是 6,而不是 3)。2000-01-01 00:03:002000-01-01 00:03:00 >>> series.resample('3min', label='right').sum() 2000-01-01 00:03:00 3 2000-01-01 00:06:00 12 2000-01-01 00:09:00 21 Freq: 3min, dtype: int64 要包含此值,请关闭 bin 间隔的右侧,如下所示。 >>> series.resample('3min', label='right', closed='right').sum() 2000-01-01 00:00:00 0 2000-01-01 00:03:00 6 2000-01-01 00:06:00 15 2000-01-01 00:09:00 15 Freq: 3min, dtype: int64 将系列上采样为 30 秒的 bin。 >>> series.resample('30s').asfreq()[0:5] # Select first 5 rows 2000-01-01 00:00:00 0.0 2000-01-01 00:00:30 NaN 2000-01-01 00:01:00 1.0 2000-01-01 00:01:30 NaN 2000-01-01 00:02:00 2.0 Freq: 30s, dtype: float64 将序列上采样到 30 秒的 bin 中,并NaN 使用该ffill方法填充值。 >>> series.resample('30s').ffill()[0:5] 2000-01-01 00:00:00 0 2000-01-01 00:00:30 0 2000-01-01 00:01:00 1 2000-01-01 00:01:30 1 2000-01-01 00:02:00 2 Freq: 30s, dtype: int64 将序列上采样到 30 秒的 bin 中,并 NaN使用该bfill方法填充值。 >>> series.resample('30s').bfill()[0:5] 2000-01-01 00:00:00 0 2000-01-01 00:00:30 1 2000-01-01 00:01:00 1 2000-01-01 00:01:30 2 2000-01-01 00:02:00 2 Freq: 30s, dtype: int64 通过传递自定义函数apply >>> def custom_resampler(arraylike): ... return np.sum(arraylike) + 5 ... >>> series.resample('3min').apply(custom_resampler) 2000-01-01 00:00:00 8 2000-01-01 00:03:00 17 2000-01-01 00:06:00 26 Freq: 3min, dtype: int64 对于DataFrame对象,可以使用关键字on来指定列而不是索引进行重采样。 >>> d = {'price': [10, 11, 9, 13, 14, 18, 17, 19], ... 'volume': [50, 60, 40, 100, 50, 100, 40, 50]} >>> df = pd.DataFrame(d) >>> df['week_starting'] = pd.date_range('01/01/2018', ... periods=8, ... freq='W') >>> df price volume week_starting 0 10 50 2018-01-07 1 11 60 2018-01-14 2 9 40 2018-01-21 3 13 100 2018-01-28 4 14 50 2018-02-04 5 18 100 2018-02-11 6 17 40 2018-02-18 7 19 50 2018-02-25 >>> df.resample('ME', on='week_starting').mean() price volume week_starting 2018-01-31 10.75 62.5 2018-02-28 17.00 60.0 对于具有 MultiIndex 的 DataFrame,关键字level可用于指定需要在哪个级别进行重采样。 >>> days = pd.date_range('1/1/2000', periods=4, freq='D') >>> d2 = {'price': [10, 11, 9, 13, 14, 18, 17, 19], ... 'volume': [50, 60, 40, 100, 50, 100, 40, 50]} >>> df2 = pd.DataFrame( ... d2, ... index=pd.MultiIndex.from_product( ... [days, ['morning', 'afternoon']] ... ) ... ) >>> df2 price volume 2000-01-01 morning 10 50 afternoon 11 60 2000-01-02 morning 9 40 afternoon 13 100 2000-01-03 morning 14 50 afternoon 18 100 2000-01-04 morning 17 40 afternoon 19 50 >>> df2.resample('D', level=0).sum() price volume 2000-01-01 21 110 2000-01-02 22 140 2000-01-03 32 150 2000-01-04 36 90 如果您想根据固定时间戳调整 bin 的开始时间: >>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00' >>> rng = pd.date_range(start, end, freq='7min') >>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng) >>> ts 2000-10-01 23:30:00 0 2000-10-01 23:37:00 3 2000-10-01 23:44:00 6 2000-10-01 23:51:00 9 2000-10-01 23:58:00 12 2000-10-02 00:05:00 15 2000-10-02 00:12:00 18 2000-10-02 00:19:00 21 2000-10-02 00:26:00 24 Freq: 7min, dtype: int64 >>> ts.resample('17min').sum() 2000-10-01 23:14:00 0 2000-10-01 23:31:00 9 2000-10-01 23:48:00 21 2000-10-02 00:05:00 54 2000-10-02 00:22:00 24 Freq: 17min, dtype: int64 >>> ts.resample('17min', origin='epoch').sum() 2000-10-01 23:18:00 0 2000-10-01 23:35:00 18 2000-10-01 23:52:00 27 2000-10-02 00:09:00 39 2000-10-02 00:26:00 24 Freq: 17min, dtype: int64 >>> ts.resample('17min', origin='2000-01-01').sum() 2000-10-01 23:24:00 3 2000-10-01 23:41:00 15 2000-10-01 23:58:00 45 2000-10-02 00:15:00 45 Freq: 17min, dtype: int64 如果要使用偏移Timedelta调整 bin 的开始,则以下两行是等效的: >>> ts.resample('17min', origin='start').sum() 2000-10-01 23:30:00 9 2000-10-01 23:47:00 21 2000-10-02 00:04:00 54 2000-10-02 00:21:00 24 Freq: 17min, dtype: int64 >>> ts.resample('17min', offset='23h30min').sum() 2000-10-01 23:30:00 9 2000-10-01 23:47:00 21 2000-10-02 00:04:00 54 2000-10-02 00:21:00 24 Freq: 17min, dtype: int64 如果你想将最大的时间戳作为 bin 的末尾: >>> ts.resample('17min', origin='end').sum() 2000-10-01 23:35:00 0 2000-10-01 23:52:00 18 2000-10-02 00:09:00 27 2000-10-02 00:26:00 63 Freq: 17min, dtype: int64 与 start_day 相反,您可以使用end_day将最大时间戳的最高午夜作为 bin 的末尾,并删除不包含数据的 bin: >>> ts.resample('17min', origin='end_day').sum() 2000-10-01 23:38:00 3 2000-10-01 23:55:00 15 2000-10-02 00:12:00 45 2000-10-02 00:29:00 45 Freq: 17min, dtype: int64