Pyspark dataframe:如何在Databricks中删除数据帧中的重复行

huangapple go评论68阅读模式
英文:

Pyspark dataframe: How to remove duplicate rows in a dataframe in databricks

问题

我有一个在Databricks中的现有数据框,其中许多行在所有列值上都完全相同。示例如下:

df:

编号 姓名 年龄 国家
1 约翰 20 美国
1 约翰 20 美国
2 希希 25 日本
3 汤姆 36 加拿大
3 汤姆 36 加拿大
3 汤姆 36 加拿大

我想最终要得到以下结果。

编号 姓名 年龄 国家
1 约翰 20 美国
2 希希 25 日本
3 汤姆 36 加拿大

如何编写脚本?
谢谢

英文:

I have an existing dataframe in databricks which contains many rows are exactly the same in all column values. example like below:

df:

No. Name Age Country
1 John 20 US
1 John 20 US
2 Cici 25 Japan
3 Tom 36 Canada
3 Tom 36 Canada
3 Tom 36 Canada

I want to have the below finally.

No. Name Age Country
1 John 20 US
2 Cici 25 Japan
3 Tom 36 Canada

How to write the scripts?
Thank you

答案1

得分: 0

使用数据框上的 distinctdropDuplicates() 函数。

示例:

df.distinct().show()

或者

df.dropDuplicates().show()

示例代码:

df = spark.createDataFrame([(1,'John',20,'US'),(1,'John',20,'US'),(1,'John',20,'US'),(2,'CICI',25,'Japan')],['No.','Name','Age','country'])
df.distinct().show()
df.dropDuplicates().show()
#output
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#|  1|John| 20|     US|
#|  2|CICI| 25|  Japan|
#+---+----+---+-------+
#
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#|  1|John| 20|     US|
#|  2|CICI| 25|  Japan|
#+---+----+---+-------+

注意:上面的示例代码是使用 PySpark 来操作数据框的,你需要确保已经导入了 PySpark 库并设置了相应的 SparkSession。

英文:

use either distinct (or) dropDuplicates() functions on the dataframe.

Example:

df.distinct().show()

(or)

df.dropDuplicates().show()

Sample code:

df = spark.createDataFrame([(1,'John',20,'US'),(1,'John',20,'US'),(1,'John',20,'US'),(2,'CICI',25,'Japan')],['No.','Name','Age','country'])
df.distinct().show()
df.dropDuplicates().show()
#output
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#|  1|John| 20|     US|
#|  2|CICI| 25|  Japan|
#+---+----+---+-------+
#
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#|  1|John| 20|     US|
#|  2|CICI| 25|  Japan|
#+---+----+---+-------+

huangapple
  • 本文由 发表于 2023年7月20日 10:46:35
  • 转载请务必保留本文链接:https://go.coder-hub.com/76726367.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定