英文: Update Spark dataframe column names based on Map type key value pairs 问题 我有一个Spark dataframe df。...
如何在PySpark中打印current_date()的结果?
英文: How to print the result of current_date() in PySpark? 问题 这是在Python中非常简单的,但我目前正在学习在Databricks中使用P...
PySpark 使用滚动窗口进行分组
英文: PySpark group by with rolling window 问题 假设我有一个包含三列的表格:dt、id 和 value。 df_tmp = spark.createDataFr...
将Spark Dataset列从UDT转换为Array。
英文: Convert a Spark Dataset column from a UDT to Array<String> 问题 I'm using the Spark OrientDB...
输出的Parquet文件在使用Spark中的列重新分区后非常大。
英文: Output Parquet file is very big in size after repartitioning with column in Spark 问题 我尝试根据列重新分区的...
如何从另一个Databricks作业触发Databricks作业?
英文: How to to trigger a Databricks job from another Databricks job? 问题 我目前正在一个项目上工作,在这个项目中,我在Databri...
分组 Spark 数据框并将聚合数据转换为字符串。
英文: GroupBy Spark Dataframe and manipulate aggregated data as string 问题 转换正在AWS Glue Spark作业中进行。在下面的...
如何在Java/Scala Spark项目中使用PySpark UDF
英文: How to use PySpark UDF in Java / Scala Spark project 问题 有很多关于如何从PySpark调用Java代码的问题,但没有关于从Java Sp...
在Databricks中使用Pyspark dataframe进行奇数列的”Unpivot”操作。
英文: Unpivot odd no of columns in Pyspark dataframe in databricks 问题 我有69列需要进行解封逆透视,我尝试了这种代码: from py...
使用Spark DataFrame找到列之间的最小值。
英文: Find the least value in between the columns using Spark DataFrame 问题 我有一个如下所示的数据框,并需要找到除零以外的最小值,...
49