英文:
Pyspark dataframe: How to remove duplicate rows in a dataframe in databricks
问题
我有一个在Databricks中的现有数据框,其中许多行在所有列值上都完全相同。示例如下:
df:
编号 | 姓名 | 年龄 | 国家 |
---|---|---|---|
1 | 约翰 | 20 | 美国 |
1 | 约翰 | 20 | 美国 |
2 | 希希 | 25 | 日本 |
3 | 汤姆 | 36 | 加拿大 |
3 | 汤姆 | 36 | 加拿大 |
3 | 汤姆 | 36 | 加拿大 |
我想最终要得到以下结果。
编号 | 姓名 | 年龄 | 国家 |
---|---|---|---|
1 | 约翰 | 20 | 美国 |
2 | 希希 | 25 | 日本 |
3 | 汤姆 | 36 | 加拿大 |
如何编写脚本?
谢谢
英文:
I have an existing dataframe in databricks which contains many rows are exactly the same in all column values. example like below:
df:
No. | Name | Age | Country |
---|---|---|---|
1 | John | 20 | US |
1 | John | 20 | US |
2 | Cici | 25 | Japan |
3 | Tom | 36 | Canada |
3 | Tom | 36 | Canada |
3 | Tom | 36 | Canada |
I want to have the below finally.
No. | Name | Age | Country |
---|---|---|---|
1 | John | 20 | US |
2 | Cici | 25 | Japan |
3 | Tom | 36 | Canada |
How to write the scripts?
Thank you
答案1
得分: 0
使用数据框上的 distinct
或 dropDuplicates()
函数。
示例:
df.distinct().show()
或者
df.dropDuplicates().show()
示例代码:
df = spark.createDataFrame([(1,'John',20,'US'),(1,'John',20,'US'),(1,'John',20,'US'),(2,'CICI',25,'Japan')],['No.','Name','Age','country'])
df.distinct().show()
df.dropDuplicates().show()
#output
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#| 1|John| 20| US|
#| 2|CICI| 25| Japan|
#+---+----+---+-------+
#
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#| 1|John| 20| US|
#| 2|CICI| 25| Japan|
#+---+----+---+-------+
注意:上面的示例代码是使用 PySpark 来操作数据框的,你需要确保已经导入了 PySpark 库并设置了相应的 SparkSession。
英文:
use either distinct
(or) dropDuplicates()
functions on the dataframe.
Example:
df.distinct().show()
(or)
df.dropDuplicates().show()
Sample code:
df = spark.createDataFrame([(1,'John',20,'US'),(1,'John',20,'US'),(1,'John',20,'US'),(2,'CICI',25,'Japan')],['No.','Name','Age','country'])
df.distinct().show()
df.dropDuplicates().show()
#output
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#| 1|John| 20| US|
#| 2|CICI| 25| Japan|
#+---+----+---+-------+
#
#+---+----+---+-------+
#|No.|Name|Age|country|
#+---+----+---+-------+
#| 1|John| 20| US|
#| 2|CICI| 25| Japan|
#+---+----+---+-------+
通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库,让每个人都能够通过互相帮助和分享经验来进步。
评论