英文: Spark UI reported time of execution plan doesn't match real time by a factor of 3x 问题 我在Data...
提取列值为整数。
英文: Extract Column value into integer 问题 我有一个函数,看起来像这样: static Column getFormattedData(Column name, ...
增量源表与Spark的复制
英文: Copy of Incremental source table with Spark 问题 一个在SQL数据库中的源表每秒都在增加(新行)。 我想每天运行一些Spark代码(也许使用Stru...
Spark Streaming 在写入数据库时,forEachBatch 提供的结果不一致/无序。
英文: Spark streaming forEachBatch giving inconsistent/unordered result while writing to database 问题 问...
多个Spark执行器在单个GPU上
英文: Multiple Spark Executors on single GPU 问题 我们正在尝试通过在节点上引入GPU来提高Spark作业的处理性能。但是,在启用了带有GPU的Spark 3之...
多个来源找到了parquet。
英文: Multiple sources found for parquet 问题 我正在尝试在Google Dataproc Spark集群上提交一个Spark应用程序。我收到以下错误: Cause...
阅读 PySpark
英文: Reading pyspark 问题 在databricks笔记本中,我正在创建一个包含年份和月份的源文件夹。 from datetime import datetime now = date...
Spark SQL 无法在子查询中使用当前日期。
英文: Spark SQL cannot use current date in subquery 问题 我有一个将日志发布到Spark数据库的流程: 我尝试通过在查询中提供当前日期来使SQL更加动态...
如何使用Spark SQL将表格按照固定参数连接成平面结构
英文: How to Join tables flat with fixed params with Spark SQL 问题 我有一个在Spark中的数据集,其中有一些列。我想要通过保留一些列作为参...
在内存中重新分配 vs 文件中重新分配
英文: repartition in memory vs file 问题 repartition() 在内存中创建分区,并用作读取操作。partitionBy() 在磁盘上创建分区,并用作写入操作。 ...
49