怎么删除50%的行分享一定列值

Question 1

df.groupby(['target']).count()

目标	数据
负	103210
积极的	211082

现在，我正数据是太大。我要删除50%的行其值的 Target 列 Positive. 我怎么可以这样做？

Question 2

留一半 Positive 行， sample 50％的 Positive 行使用 frac=0.5 和 drop 这些索引：

indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)

保持完全100K Positive 行， sample 100K Positive 行使用 n=100_000 和 concat 他们 Negative 行：

df = pd.concat([
    df[df.target == 'Negative'],
    df[df.target == 'Positive'].sample(n=100_000)
])

tdy · Answer 1 · 2021-11-24T04:27:20

留一半 Positive 行， sample 50％的 Positive 行使用 frac=0.5 和 drop 这些索引：

indexes = df[df.target == 'Positive'].sample(frac=0.5).index
df = df.drop(indexes)

保持完全100K Positive 行， sample 100K Positive 行使用 n=100_000 和 concat 他们 Negative 行：

df = pd.concat([
    df[df.target == 'Negative'],
    df[df.target == 'Positive'].sample(n=100_000)
])

的问题