熊猫.qcut #

熊猫。qcut ( x , q , labels = None , retbins = False , precision = 3 ,重复项= 'raise' ) [来源] #

基于分位数的离散化函数。

根据排名或样本分位数将变量离散化为大小相等的桶。例如,10 个分位数的 1000 个值将生成一个 Categorical 对象,指示每个数据点的分位数成员资格。

参数
x 1d ndarray 或系列
q int 或类似列表的 float

分位数的数量。 10 表示十分位数,4 表示四分位数,等等。交替排列的分位数,例如 [0, .25, .5, .75, 1.] 表示四分位数。

labels数组或 False,默认 None

用作结果箱的标签。必须与生成的 bin 的长度相同。如果为 False,则仅返回 bin 的整数指示符。如果为 True,则会引发错误。

retbins布尔值,可选

是否返回(垃圾箱、标签)。如果 bin 作为标量给出,则可能很有用。

精度int,可选

存储和显示容器标签的精度。

重复项{默认 'raise', 'drop'},可选

如果 bin 边缘不唯一,则引发 ValueError 或丢弃非唯一值。

返回
如果 labels 为 False,则输出分类或系列或整数数组

返回类型(分类或系列)取决于输入:如果输入是系列,则为系列类型类别,否则为分类。返回分类数据时,分箱表示为类别。

bins ndarray 浮点数

仅当retbins为 True时才返回。

笔记

超出范围的值在生成的分类对象中将为 NA

例子

>>> pd.qcut(range(5), 4)
... 
[(-0.001, 1.0], (-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0]]
Categories (4, interval[float64, right]): [(-0.001, 1.0] < (1.0, 2.0] ...
>>> pd.qcut(range(5), 3, labels=["good", "medium", "bad"])
... 
[good, good, medium, bad, bad]
Categories (3, object): [good < medium < bad]
>>> pd.qcut(range(5), 4, labels=False)
array([0, 0, 1, 2, 3])