我想要复制下代码使用pyspark据框职能,而不是SQL query.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
我想要复制下代码使用pyspark据框职能,而不是SQL query.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
这里是代码,如果你开始,从联CSV文件。 你应该认识到SQL功能。 注意,我们使用 inferSchema
选项,以便直接分析的数字为双倍,并取得正确的排序(这将不是预期的作用默认串的类型)。 另一种方法是铸列在读CSV。
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
这将产生
+----------+
| Date|
+----------+
|2015-11-13|
+----------+