我下面的码在Python但我需要转换这pyspark,
qm1['c1'] = [x[0] in x[1] for x in zip(qm1['id'], qm1['question'])]
qm1['c1'] = qm1['c1'].astype(str)
qm1a = qm1[(qm1.c1 == 'True')]
输出这种代码是
的问题 | 关键 | id | c1 |
---|---|---|---|
妇女 | 0 | 预兆 | 真的 |
机 | 0 | mac | 真的 |
可能有人请帮助我一样我是个初学者在蟒蛇?
我下面的码在Python但我需要转换这pyspark,
qm1['c1'] = [x[0] in x[1] for x in zip(qm1['id'], qm1['question'])]
qm1['c1'] = qm1['c1'].astype(str)
qm1a = qm1[(qm1.c1 == 'True')]
输出这种代码是
的问题 | 关键 | id | c1 |
---|---|---|---|
妇女 | 0 | 预兆 | 真的 |
机 | 0 | mac | 真的 |
可能有人请帮助我一样我是个初学者在蟒蛇?
这里是我的测试测试(作为你的问题并不包含任何)
df.show()
+--------+---+----+
|question|key| id|
+--------+---+----+
| Women| 0|omen|
| machine| 2| mac|
| foo| 1| bar|
+--------+---+----+
和我的代码创建的预期产出:
from pyspark.sql import functions as F
df = df.withColumn("c1", F.col("question").contains(F.col("id")))
df.show()
+--------+---+----+-----+
|question|key| id| c1|
+--------+---+----+-----+
| Women| 0|omen| true|
| machine| 2| mac| true|
| foo| 1| bar|false|
+--------+---+----+-----+
然后你可以简单地 filter
在c1:
df.where("c1").show()
+--------+---+----+----+
|question|key| id| c1|
+--------+---+----+----+
| Women| 0|omen|true|
| machine| 2| mac|true|
+--------+---+----+----+