问题

我有一个在pyspark脚本中的连接操作。

变量'd'和'p'是Spark数据框。
是否有办法在pandas中执行类似操作？

英文:

I have this join in a pyspark script.

    d = d.join(p, [
        d.p_hash == p.hash,
        d.dy &gt;= p.mindy,
        d.dy &lt;= p.maxdy,
    ], &quot;left&quot;) \
    .drop(p.hash) \
    .drop(p.mindy) \
    .drop(p.maxdy)

The variables 'd' and 'p' are spark dataframes.
Is there any way I could do this in pandas?

答案1

得分: 1

是的，您可以简单地执行合并操作，并根据您的条件筛选数据框，然后删除不需要的列。

d = d.merge(p, left_on=['p_hash'], right_on=['hash'], how='left')
d = d[(d['dy'] >= d['mindy']) & (d['dy'] <= d['maxdy'])]
d = d.drop(['hash', 'mindy', 'maxdy'], axis=1)

在 pandas 中进行合并不像在 pyspark 中那样具有条件连接功能。

您还可以查看这里的答案：如何在Python Pandas中执行/解决条件连接？

英文:

Yes, you can simply do the merge and filter the data frame with your condition, then drop the unwanted columns.

d = d.merge(p, left_on=[&#39;p_hash&#39;], right_on=[&#39;hash&#39;], how=&#39;left&#39;)
d = d[(d[&#39;dy&#39;] &gt;= d[&#39;mindy&#39;]) &amp; (d[&#39;dy&#39;] &lt;= d[&#39;maxdy&#39;])]
d = d.drop([&#39;hash&#39;, &#39;mindy&#39;, &#39;maxdy&#39;], axis=1)

Merge on pandas isn't quite like on pyspark, it doesn't have conditional join.

You can also review answers from here: How to do/workaround a conditional join in python Pandas?

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

如何使用多列和条件像PySpark一样连接Pandas数据框。

问题

答案1

Matplotlib组合数据点

PDF生成从图像列表中太慢 – Python

Tkinter：如何处理文本区域中的新行并将它们保存为单个条目？

“python – 3 图灵机脚本，出现未定义变量的错误，尽管我已经赋值给它”

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论