df.groupby(['target']).count()
目标 | 数据 |
---|---|
负 | 103210 |
积极的 | 211082 |
现在,我正数据是太大。 我要删除50%的行其值的 Target
列 Positive
. 我怎么可以这样做?
df.groupby(['target']).count()
目标 | 数据 |
---|---|
负 | 103210 |
积极的 | 211082 |
现在,我正数据是太大。 我要删除50%的行其值的 Target
列 Positive
. 我怎么可以这样做?
留一半 Positive
行, sample
50%的 Positive
行使用 frac=0.5
和 drop
这些索引:
indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)
保持完全100K Positive
行, sample
100K Positive
行使用 n=100_000
和 concat
他们 Negative
行:
df = pd.concat([
df[df.target == 'Negative'],
df[df.target == 'Positive'].sample(n=100_000)
])