Pandas时间序列重采样时间序列重采样(resample)方法中方法中closed、、label的作的作
用详解用详解
Pandas提供了便捷的方式对时间序列进行重采样,根据时间粒度的变大或者变小分为降采样和升采样:
降采样:时间粒度变大。例如,原来是按天统计的数据,现在变成按周统计。降采样会涉及到数据的聚合,比如天数据变成周
数据,那么就得对一周的7天数据聚合,聚合的方式可以是求和,求均值等等。
升采样:时间粒度变小。例如,原来是按周统计的数据,现在变成按天统计。升采样会涉及到数据的填充,根据填充的方法不
同填充的数据也就不同。
下面涉及的例子,都需要导入numpy和pandas(如下),并且对于降采样数据的聚合做简单的求和处理。
import numpy as np
import pandas as pd
Pandas重采样方法重采样方法resample
在Pandas里,通过resample来处理重采样,根据频率的不同(freq)会处理成降采样或者升采样。我们先来看看Resample的定
义和关键参数注释:
resample(self, rule, how=None, axis=0, fill_method=None, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0,
on=None, level=None)
Convenience method for frequency conversion and resampling of time
series. Object must have a datetime-like index (DatetimeIndex,
PeriodIndex, or TimedeltaIndex), or pass datetime-like values
to the on or level keyword.
Parameters
----------
closed : {'right', 'left'}
Which side of bin interval is closed. The default is ‘left' for all frequency offsets except for ‘M', ‘A', ‘Q', ‘BM', ‘BA', ‘BQ', and
‘W' which all have a default of ‘right'.
label : {'right', 'left'}
Which bin edge label to label bucket with. The default is ‘left' for all frequency offsets except for ‘M', ‘A', ‘Q', ‘BM', ‘BA', ‘BQ',
and ‘W' which all have a default of ‘right'.
第一眼看closed和label这两个参数,会感觉云里雾里,即使看了例子也可能会觉得莫名奇妙。下面我们通过具体的降采样和升
采样例子,来解读一下这个两个参数内含的玄机。
降采样降采样
首先先来创建一个时间序列,起始日期是2018/01/01,一共12天,每天对应的数值分别是1到12:
rng = pd.date_range('20180101', periods=12)
ts = pd.Series(np.arange(1,13), index=rng)
print(ts)
#### Outputs ####
2018-01-01 1
2018-01-02 2
2018-01-03 3
2018-01-04 4
2018-01-05 5
2018-01-06 6
2018-01-07 7
2018-01-08 8
2018-01-09 9
2018-01-10 10
2018-01-11 11
2018-01-12 12
Freq: D, dtype: int32
下面使用resample方法来做降采样处理,频率是5天,上面提到的两个参数,都使用默认值:
ts_5d = ts.resample('5D').sum()
print(ts_5d)