获取数据的使用列名称的储存作为价值观在内的某个列相同的数据框pyspark

Question 1

我有一个大数据集相似的例子如下：

ID	代码	研究	量	COL_NAME
111	5611	ABCD	56.17	ID
211	5411	GFED	451.1	量
311	3212	YTRA	687.3	研究

我想来填充数值列的存在col_name在一个柱(COL_VAL)内相同的数据框如下：

ID	代码	研究	量	COL_NAME	COL_VALUE
111	5611	ABCD	56.17	ID	111
211	5411	GFED	451.1	量	451.1
311	3212	YTRA	687.3	研究	YTRA

我使用一个循环。收集()填充价值，但它采取了大量的时间。想知道高效率的方式做同样相关的一个大数据集。

Question 2

你可以使用 when 要实现这一点。

from pyspark.sql import functions as F

data = [(111, 5611, "ABCD", 56.17, "ID",),
(211, 5411, "GFED", 451.1, "AMOUNT",),
(311, 3212, "YTRA", 687.3, "STUDY",),]

df = spark.createDataFrame(data, ("ID", "CODE", "STUDY", "AMOUNT","COL_NAME"))

def derive_column_value():
    condition = F
    for possible_value in df.columns:
        condition = condition.when(F.col("COL_NAME") == possible_value, F.col(possible_value))
    return condition

df.withColumn("COL_VALUE", derive_column_value()).show()

输出

+---+----+-----+------+--------+---------+
| ID|CODE|STUDY|AMOUNT|COL_NAME|COL_VALUE|
+---+----+-----+------+--------+---------+
|111|5611| ABCD| 56.17|      ID|      111|
|211|5411| GFED| 451.1|  AMOUNT|    451.1|
|311|3212| YTRA| 687.3|   STUDY|     YTRA|
+---+----+-----+------+--------+---------+

Nithish · Answer 1 · 2021-11-23T17:41:06

你可以使用 when 要实现这一点。

from pyspark.sql import functions as F

data = [(111, 5611, "ABCD", 56.17, "ID",),
(211, 5411, "GFED", 451.1, "AMOUNT",),
(311, 3212, "YTRA", 687.3, "STUDY",),]

df = spark.createDataFrame(data, ("ID", "CODE", "STUDY", "AMOUNT","COL_NAME"))

def derive_column_value():
    condition = F
    for possible_value in df.columns:
        condition = condition.when(F.col("COL_NAME") == possible_value, F.col(possible_value))
    return condition

df.withColumn("COL_VALUE", derive_column_value()).show()

输出

+---+----+-----+------+--------+---------+
| ID|CODE|STUDY|AMOUNT|COL_NAME|COL_VALUE|
+---+----+-----+------+--------+---------+
|111|5611| ABCD| 56.17|      ID|      111|
|211|5411| GFED| 451.1|  AMOUNT|    451.1|
|311|3212| YTRA| 687.3|   STUDY|     YTRA|
+---+----+-----+------+--------+---------+

获取数据的使用列名称的储存作为价值观在内的某个列相同的数据框pyspark

的问题

最好的答案

输出

其他语言

此页面有其他语言版本

受欢迎的此类别

流行的问题，在这个类别