2023年7月6日 13:08:29go评论102阅读模式

英文:

How to convert text file to spark dataframe using spark scala UDF functions

问题

我有以下格式的输入数据：

id###name##salary#dept
1##John#10000########IT
2####Mindhack Diva#20000########IT
3####Michel#30000########IT
4###Ryan#40000########IT
5####Sahoo#10000########IT

如何使用Spark Scala将文本文件转换为数据框？

我需要输出如下数据框，有人可以帮助我吗？

如何使用Spark Scala UDF函数将文本文件转换为Spark DataFrame

英文:

I have a input data like below:

id###name##salary#dept
1##John#10000########IT
2####Mindhack Diva#20000########IT
3####Michel#30000########IT
4###Ryan#40000########IT
5####Sahoo#10000########IT

如何使用Spark Scala UDF函数将文本文件转换为Spark DataFrame

How to convert text file to dataframe using spark scala?

I need output like the below dataframe, can anyone pls help me on this:

如何使用Spark Scala UDF函数将文本文件转换为Spark DataFrame

答案1

得分: 0

PySpark

我知道如何使用PySpark获取结果，这可能对您有所帮助或不帮助。

import re
rdd = sc.textFile('test.txt').map(lambda r: re.split('[#]+', r))
cols = rdd.first()
df = spark.createDataFrame(rdd.filter(lambda r: r != cols)).toDF(*cols)
df.show(truncate=False)
+---+-------------+------+----+
|id |name         |salary|dept|
+---+-------------+------+----+
|1  |John         |10000 |IT  |
|2  |Mindhack Diva|20000 |IT  |
|3  |Michel       |30000 |IT  |
|4  |Ryan         |40000 |IT  |
|5  |Sahoo        |10000 |IT  |
+---+-------------+------+----+

英文:

PySpark

I know how to get the result by pyspark and this might help you or not.

import re
rdd = sc.textFile(&#39;test.txt&#39;).map(lambda r: re.split(&#39;[#]+&#39;, r))
cols = rdd.first()
df = spark.createDataFrame(rdd.filter(lambda r: r != cols)).toDF(*cols)
df.show(truncate=False)
+---+-------------+------+----+
|id |name         |salary|dept|
+---+-------------+------+----+
|1  |John         |10000 |IT  |
|2  |Mindhack Diva|20000 |IT  |
|3  |Michel       |30000 |IT  |
|4  |Ryan         |40000 |IT  |
|5  |Sahoo        |10000 |IT  |
+---+-------------+------+----+

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

如何使用Spark Scala UDF函数将文本文件转换为Spark DataFrame

问题

答案1

基于前一行在Python中获取结果

对于每个组，根据另一列中的数值添加一个新的偏移列。

Pandas按标志ID分组，查找相对差异。

计算多个数据框列的最佳方法是使用模式

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

发表评论