英文: Spark / Hive: how to get percent of positive values in a column? 问题 有没有SQL函数可以计算Spark / Hive表的列中...
Different number of partitions after spark.read & filter depending on Databricks runtime
英文: Different number of partitions after spark.read & filter depending on Databricks runtime 问题 ...
PySpark将DataFrame写入S3需要很长时间。
英文: PySpark takes a lot of time to write dataFrame to S3 问题 我是你的中文翻译助手,以下是你要翻译的内容: 我对Glue和PySpark还不熟...
Pyspark日期列上的条件
英文: Pyspark condition on date column 问题 我有一个包含两个日期列start_date和end_date的pyspark数据框。 现在我想从df中获取start_d...
如何将模式设置到spark.sql.function.from_csv中?
英文: How to set schema into spark.sql.function.from_csv? 问题 我使用的是Windows 11上的spark-3.4.1-hadoop3。我尝试生...
如何将数据框的列映射到新的列名
英文: How to create mapping of dataframe columns with new column names 问题 col_map = {"name":...
Spark 3.2 版本,使用 Scala 2.12。
英文: Spark 3.2 with Scala 2.12 version 问题 一段时间以前,Spark网站上有一个带有Scala 2.12版本的Spark 3.2版本。这是我正在尝试找到的版本。如...
压缩Spark DataFrame,选择最新的数值并移除空值。
英文: Condense spark dataframe by selecting latest value and removing the nulls 问题 我想将给定的稀疏数据框压缩为单个记录,...
Writesteams 失败,出现 java.lang.NoClassDefFoundError 错误。
英文: Writesteams failing with java.lang.NoClassDefFoundError 问题 query.writeStream.outputMode(&quo...
Spark任务数量不等于分区数量。
英文: Spark number of tasks not equal to number of partitions 问题 在阅读文件作业中,如parquet扫描,它不匹配。例如,我需要对一个由25...
49