2023年1月9日 19:23:12go评论168阅读模式

英文:

filtering out spark dataframe using udf

问题

我有一个包含两列的Pyspark数据框，分别是name和source。name列中的所有值都是不同的。source列中有多个用逗号(,)分隔的字符串。

我想要过滤掉所有那些在source列中的任何字符串包含name列中任何值的行。

我正在使用以下UDF函数：

def checkDependentKPI(df, name_list):
    for row in df.collect():
        for src in row["source"].split(","):
            for name in name_list:
                if name in src:
                    return row['name']
    return row['name']

我的最终目标是将所有这样的行放在数据框的末尾。我该如何实现这一目标？

样本数据框：

+--------------------+--------------------+
|                name|              source|
+--------------------+--------------------+
|dev.................|prod, sum, diff.....|
|prod................|dev, diff, avg......|
|stage...............|mean, mode..........|
|balance.............|median, mean........|
|target..............|avg, diff, sum......|
+--------------------+--------------------+

英文:

I have a pyspark dataframe with two columns, name and source. All the values in the name column are distinct. Source has multiple strings separated with a comma (,).
I want to filter out all those rows where any of the strings in the source column contains any value from the whole name column.

I am using the following UDF:

def checkDependentKPI(df, name_list):
for row in df.collect():
    for src in row[&quot;source&quot;].split(&quot;,&quot;):
        for name in name_list:
            if name in src:
                return row[&#39;name&#39;]
        return row[&#39;name&#39;]

My end goal is to put all such rows at the end of the dataframe. How can I do it?

Sample dataframe:

+--------------------+--------------------+
|                name|              source|
+--------------------+--------------------+
|dev.................|prod, sum, diff.....|
|prod................|dev, diff, avg......|
|stage...............|mean, mode..........|
|balance.............|median, mean........|
|target..............|avg, diff, sum......|
+--------------------+--------------------+

答案1

得分: 1

以下是您提供的代码的翻译：

# 可能是这样吗？
from pyspark.sql import functions as psf 

test_data = [('dev', 'prod, sum, diff'),
  ('prod', 'dev, diff, avg'),
  ('stage', 'mean, mode'),
  ('balance', 'median, mean'),
  ('target', 'avg, diff, sum')]
  
df = spark.createDataFrame(test_data, ['kpi_name', 'kpi_source_table'])

df = df.withColumn('kpi_source_table', psf.split('kpi_source_table', ','))
df_flat = df.agg(psf.collect_list('kpi_name').alias('flat_kpi'))

df = df.join(df_flat, how='cross')

df = df.withColumn('match', psf.array_intersect('kpi_source_table', 'flat_kpi'))
display(df.orderBy('match'))

请注意，代码中的注释部分已被保留为英文。

英文:

Maybe this?

from pyspark.sql import functions as psf 

test_data = [(&#39;dev&#39;,&#39;prod,sum,diff&#39;)
  , (&#39;prod&#39;,&#39;dev,diff,avg&#39;)
  , (&#39;stage&#39;,&#39;mean,mode&#39;)
  , (&#39;balance&#39;,&#39;median,mean&#39;)
  , (&#39;target&#39;,&#39;avg,diff,sum&#39;)]
  
df = spark.createDataFrame(test_data, [&#39;kpi_name&#39;,&#39;kpi_source_table&#39;])

df = df.withColumn(&#39;kpi_source_table&#39;, psf.split(&#39;kpi_source_table&#39;, &#39;,&#39;))
df_flat = df.agg(psf.collect_list(&#39;kpi_name&#39;).alias(&#39;flat_kpi&#39;))

df = df.join(df_flat, how=&#39;cross&#39;)

df = df.withColumn(&#39;match&#39;, psf.array_intersect(&#39;kpi_source_table&#39;, &#39;flat_kpi&#39;))
display(df.orderBy(&#39;match&#39;))

答案2

得分: 1

你可以使用like()来利用SQL中的类似表达式，而无需进行任何繁重的collect()操作和循环检查。假设您已经有一个name列表：

from functools import reduce

df.filter(
    reduce(lambda x, y: x|y, [func.col('source').like(f"%{pattern}%") for pattern in name])
).show(20, False)

英文:

You can use a like() to leverage the SQL like expression without any heavy collect() action and loop checking. Suppose you already have a list of name:

from functools import reduce

df.filter(
    reduce(lambda x, y: x|y, [func.col(&#39;source&#39;).like(f&quot;%{pattern}%&quot;) for pattern in name])
).show(20, False)

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

使用UDF筛选Spark DataFrame。

问题

答案1

答案2

How to implement getitem such that it can process the input args and then pass them into the underlying numpy array?

如何向DataFrame添加零数组列

Selenium：无法在影子根 WebElement 上使用 click()。

AWS批量索引使用时出现’非法参数异常’，’不允许在批量中使用显式索引’。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论