问题

我有两个非常非常大的pandas数据框。

df_A每个YearQuarter和Company有一行

df_B每个不同的员工有一行

我想计算每个季度每个公司雇佣的员工人数。如果员工的StartYearQuarter <= YearQuarter且EndYearQuarter >= YearQuarter，则将员工计为该季度雇佣。

我迄今为止尝试了各种不同的方法，但它们都遇到了内存问题，或者返回了不正确的结果，因为数据框太大。

这里是我运行的一段代码的示例，它告诉我在Jupyter中运行时需要160GBi的空闲RAM，而且它刚刚崩溃了我的Azure Python内核：

```python
合并 = pd.merge(df_A， df_B， on =“Company Name”）
雇佣=合并df[(merged_df[‘StartYearQuarter’]<= merged_df[‘YearQuarter’])& （merged_df[‘EndYearQuarter’]>= merged_df[‘YearQuarter’]）]
结果=雇佣.groupby([‘YearQuarter’，‘Company Name’]）.size（）。reset_index（name=‘Employee Count’）

有没有更节省内存的方法来计算每个YearQuarter的每个公司的员工人数？

非常感谢任何帮助！


<details>
<summary>英文:</summary>

I have two very, very large pandas dataframes.

[![df_A][1]][1]

df_A has one row for each YearQuarter and Company

[![df_B][2]][2]

df_B has one row for each distinct employee

I want to count the number of employees that are employed for each company each quarter. An employee is counted as employed in a quarter if their StartYearQuarter &lt;= YearQuarter and EndYearQuarter &gt;= YearQuarter.

I have tried a variety of different approaches so far but they have all ran into memory issues, or returned incorrect results, as the dataframes are so large.

Here is an example of one bit of code I ran which told me I would need 160GBi of free RAM when ran in Jupyter and just crashed my Azure Python Kernel:

```python
merged = pd.merge(df_A, df_B, on=&quot;Company Name&quot;)
employed = merged_df[(merged_df[&#39;StartYearQuarter&#39;] &lt;= merged_df[&#39;YearQuarter&#39;]) &amp; (merged_df[&#39;EndYearQuarter&#39;] &gt;= merged_df[&#39;YearQuarter&#39;])]
result = employed.groupby([&#39;YearQuarter&#39;, &#39;Company Name&#39;]).size().reset_index(name=&#39;Employee Count&#39;)

Is there a more memory efficient way of counting the number of employees for each Company by YearQuarter?

Many thanks for any help!

答案1

得分: 1

如果您使用pyspark，可以使用以下代码：

data1 = [['1997Q3', 'test1'], ['1997Q4', 'test1']]
data2 = [['test1', '1997Q2', '1998Q1', 1], ['test1', '1997Q3', '1997Q3', 2]]

df1 = spark.createDataFrame(data1, ['YearQuarter', 'Company Name'])
df2 = spark.createDataFrame(data2, ['Company Name2', 'StartYearQuarter', 'EndYearQuarter', 'ID'])

df1.show()
df2.show()

df1.join(df2, (f.col('Company Name') == f.col('Company Name2')) & f.col('YearQuarter').between(f.col('StartYearQuarter'), f.col('EndYearQuarter')), 'inner') \
  .groupBy('Company Name', 'YearQuarter') \
  .count() \
  .show()

这段代码用于使用pyspark处理数据，包括数据框的创建、连接和分组等操作。

英文:

If you use the pyspark,

data1 = [[&#39;1997Q3&#39;, &#39;test1&#39;], [&#39;1997Q4&#39;, &#39;test1&#39;]]
data2 = [[&#39;test1&#39;, &#39;1997Q2&#39;, &#39;1998Q1&#39;, 1], [&#39;test1&#39;, &#39;1997Q3&#39;, &#39;1997Q3&#39;, 2]]

df1 = spark.createDataFrame(data1, [&#39;YearQuarter&#39;, &#39;Company Name&#39;])
df2 = spark.createDataFrame(data2, [&#39;Company Name2&#39;, &#39;StartYearQuarter&#39;, &#39;EndYearQuarter&#39;, &#39;ID&#39;])

df1.show()
df2.show()

df1.join(df2, (f.col(&#39;Company Name&#39;) == f.col(&#39;Company Name2&#39;)) &amp; f.col(&#39;YearQuarter&#39;).between(f.col(&#39;StartYearQuarter&#39;), f.col(&#39;EndYearQuarter&#39;)), &#39;inner&#39;) \
  .groupBy(&#39;Company Name&#39;, &#39;YearQuarter&#39;) \
  .count() \
  .show()

+-----------+------------+
|YearQuarter|Company Name|
+-----------+------------+
|     1997Q3|       test1|
|     1997Q4|       test1|
+-----------+------------+

+-------------+----------------+--------------+---+
|Company Name2|StartYearQuarter|EndYearQuarter| ID|
+-------------+----------------+--------------+---+
|        test1|          1997Q2|        1998Q1|  1|
|        test1|          1997Q3|        1997Q3|  2|
+-------------+----------------+--------------+---+

+------------+-----------+-----+
|Company Name|YearQuarter|count|
+------------+-----------+-----+
|       test1|     1997Q3|    2|
|       test1|     1997Q4|    1|
+------------+-----------+-----+

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Pandas按季度和公司统计员工人数

问题

答案1

修改ggplot2中分组条形图中特定条形的颜色。

有 “tkinter-variable” tkinter 方法参数和字符串 tkinter 方法参数之间有区别吗？

Discord.py 按钮持久性混淆

基本的Python角色扮演游戏战斗

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论