问题

假设我们有以下数据框：

        Date    Type    Country Value
    0   2016-04-30  A   NL       1
    1   2016-04-30  A   BE       2
    2   2016-04-30  B   NL       3
    3   2016-04-30  B   BE       4
    4   2016-04-30  C   NL       5
    5   2016-04-30  C   BE       6
    6   2016-04-30  C   FR       7
    7   2016-04-30  C   UK       8
    8   2016-05-31  A   NL       9
    9   2016-05-31  A   BE       10
    10  2016-05-31  A   FR       11
    11  2016-05-31  B   NL       12
    12  2016-05-31  B   BE       13
    13  2016-05-31  B   FR       14
    14  2016-05-31  C   NL       15
    15  2016-05-31  C   BE       16
    16  2016-05-31  C   UK       17
    17  2016-05-31  C   SL       18
    18  2016-06-30  A   NL       19
    19  2016-06-30  B   FR       20
    20  2016-06-30  B   UK       21
    21  2016-06-30  B   SL       22
    22  2016-06-30  C   NL       23
    23  2016-06-30  C   BE       24

以下是要添加的代码段：

import pandas as pd

# 创建数据框
df = pd.DataFrame([['2016-04-30','A','NL',1], ['2016-04-30','A','BE',2], ['2016-04-30','B','NL',3], ['2016-04-30','B','BE',4], ['2016-04-30','C','NL',5], ['2016-04-30','C','BE',6],['2016-04-30','C','FR',7], ['2016-04-30','C','UK',8], ['2016-05-31','A','NL',9], ['2016-05-31','A','BE',10], ['2016-05-31','A','FR',11], ['2016-05-31','B','NL',12], ['2016-05-31','B','BE',13], ['2016-05-31','B','FR',14], ['2016-05-31','C','NL',15], ['2016-05-31','C','BE',16], ['2016-05-31','C','UK',17], ['2016-05-31','C','SL',18], ['2016-06-30','A','NL',19], ['2016-06-30','B','FR',20], ['2016-06-30','B','UK',21], ['2016-06-30','B','SL',22], ['2016-06-30','C','NL',23], ['2016-06-30','C','BE',24]], columns=['Date','Type','Country','Value'])

# 将日期列转换为日期时间对象
df['Date'] = pd.to_datetime(df['Date'])

# 按日期和类型进行排序
df.sort_values(['Date', 'Type'], inplace=True)

# 计算ValueDiff列，即每个观察值与前一期的差异
df['ValueDiff'] = df.groupby(['Type', 'Country'])['Value'].diff()

# 对于第一次出现的观察值，将ValueDiff设置为NaN
df.loc[df.groupby(['Type', 'Country'])['Value'].head(1).index, 'ValueDiff'] = None

# 打印结果
print(df)

期望的数据框如下：

        Date Type Country  Value  ValueDiff
0  2016-04-30    A      NL      1        NaN
1  2016-04-30    A      BE      2        NaN
2  2016-04-30    B      NL      3        NaN
3  2016-04-30    B      BE      4        NaN
4  2016-04-30    C      NL      5        NaN
5  2016-04-30    C      BE      6        NaN
6  2016-04-30    C      FR      7        NaN
7  2016-04-30    C      UK      8        NaN
8  2016-05-31    A      NL      9        8.0
9  2016-05-31    A      BE     10        8.0
10 2016-05-31    A      FR     11        NaN
11 2016-05-31    B      NL     12        9.0
12 2016-05-31    B      BE     13        9.0
13 2016-05-31    B      FR     14        NaN
14 2016-05-31    C      NL     15       10.0
15 2016-05-31    C      BE     16       10.0
16 2016-05-31    C      UK     17        9.0
17 2016-05-31    C      SL     18        NaN
18 2016-06-30    A      NL     19       10.0
19 2016-06-30    B      FR     20        6.0
20 2016-06-30    B      UK     21        NaN
21 2016-06-30    B      SL     22        NaN
22 2016-06-30    C      NL     23        8.0
23 2016-06-30    C      BE     24        8.0

英文:

Suppose we have the following dataframe:

    Date    Type    Country Value
0   2016-04-30  A   NL       1
1   2016-04-30  A   BE       2
2   2016-04-30  B   NL       3
3   2016-04-30  B   BE       4
4   2016-04-30  C   NL       5
5   2016-04-30  C   BE       6
6   2016-04-30  C   FR       7
7   2016-04-30  C   UK       8
8   2016-05-31  A   NL       9
9   2016-05-31  A   BE       10
10  2016-05-31  A   FR       11
11  2016-05-31  B   NL       12
12  2016-05-31  B   BE       13
13  2016-05-31  B   FR       14
14  2016-05-31  C   NL       15
15  2016-05-31  C   BE       16
16  2016-05-31  C   UK       17
17  2016-05-31  C   SL       18
18  2016-06-30  A   NL       19
19  2016-06-30  B   FR       20
20  2016-06-30  B   UK       21
21  2016-06-30  B   SL       22
22  2016-06-30  C   NL       23
23  2016-06-30  C   BE       24

Which can be computed with the following code:

df = pd.DataFrame([[&#39;2016-04-30&#39;,&#39;A&#39;,&#39;NL&#39;,1], [&#39;2016-04-30&#39;,&#39;A&#39;, &quot;BE&quot; ,2], [&#39;2016-04-30&#39;, &#39;B&#39;,  &#39;NL&#39;,3], [&#39;2016-04-30&#39;,&#39;B&#39;,&#39;BE&#39;,4], [&#39;2016-04-30&#39;,&#39;C&#39;,&#39;NL&#39;,5], [&#39;2016-04-30&#39;,&#39;C&#39;,&#39;BE&#39;,6],[&#39;2016-04-30&#39;,&#39;C&#39;,&#39;FR&#39;, 7], [&#39;2016-04-30&#39;,&#39;C&#39;,&#39;UK&#39;,8], [&#39;2016-05-31&#39;,&#39;A&#39;,&#39;NL&#39;,9], [&#39;2016-05-31&#39;,&#39;A&#39;,&#39;BE&#39;,10], [&#39;2016-05-31&#39;,&#39;A&#39;,&#39;FR&#39;,11], [&#39;2016-05-31&#39;,&#39;B&#39;,&#39;NL&#39;,12], [&#39;2016-05-31&#39;,&#39;B&#39;,&#39;BE&#39;,13], [&#39;2016-05-31&#39;,&#39;B&#39;,&#39;FR&#39;,14], [&#39;2016-05-31&#39;,&#39;C&#39;,&#39;NL&#39;,15], [&#39;2016-05-31&#39;,&#39;C&#39;,&#39;BE&#39;,16], [&#39;2016-05-31&#39;,&#39;C&#39;,&#39;UK&#39;,17], [&#39;2016-05-31&#39;,&#39;C&#39;,&#39;SL&#39;,18], [&#39;2016-06-30&#39;,&#39;A&#39;,&#39;NL&#39;,19], [&#39;2016-06-30&#39;,&#39;B&#39;,&#39;FR&#39;,20], [&#39;2016-06-30&#39;,&#39;B&#39;,&#39;UK&#39;,21], [&#39;2016-06-30&#39;,&#39;B&#39;,&#39;SL&#39;,22], [&#39;2016-06-30&#39;,&#39;C&#39;,&#39;NL&#39;,23], [&#39;2016-06-30&#39;,&#39;C&#39;,&#39;BE&#39;,24]], columns=[&#39;Date&#39;,&#39;Type&#39; ,&#39;Country&#39; ,&#39;Value&#39;])

I want to add an extra column 'ValueDiff', that basically computes the difference compared to the observation in the previous period. Hence, for instance for the observation 'Date: 2016-05-31, Type: B, Country: BE', I would want to set 'ValueDiff' to 13-4 = 9. In case the observation is not available in the previous period, I would want to set it to NaN.

Expected df:

    Date    Type    Country Value  ValueDiff
0   2016-04-30  A   NL       1       nan
1   2016-04-30  A   BE       2       nan
2   2016-04-30  B   NL       3       nan
3   2016-04-30  B   BE       4       nan
4   2016-04-30  C   NL       5       nan
5   2016-04-30  C   BE       6       nan
6   2016-04-30  C   FR       7       nan  
7   2016-04-30  C   UK       8       nan
8   2016-05-31  A   NL       9        8
9   2016-05-31  A   BE       10       8
10  2016-05-31  A   FR       11       nan
11  2016-05-31  B   NL       12       9 
12  2016-05-31  B   BE       13       9
13  2016-05-31  B   FR       14       nan 
14  2016-05-31  C   NL       15       10 
15  2016-05-31  C   BE       16       10
16  2016-05-31  C   UK       17       9 
17  2016-05-31  C   SL       18       nan 
18  2016-06-30  A   NL       19       10
19  2016-06-30  B   FR       20       6 
20  2016-06-30  B   UK       21       nan
21  2016-06-30  B   SL       22       nan 
22  2016-06-30  C   NL       23       8 
23  2016-06-30  C   BE       24       8

Is there an efficient way to do this?

答案1

得分: 2

以下是翻译好的部分：

如果每个Date组中都有唯一的Type和Country对，那么可以使用DataFrameGroupBy.diff：

df['ValueDiff'] = df.groupby(['Type', 'Country'])['Value'].diff()
print(df)
          Date Type Country  Value  ValueDiff
0   2016-04-30    A      NL      1        NaN
1   2016-04-30    A      BE      2        NaN
2   2016-04-30    B      NL      3        NaN
3   2016-04-30    B      BE      4        NaN
4   2016-04-30    C      NL      5        NaN
5   2016-04-30    C      BE      6        NaN
6   2016-04-30    C      FR      7        NaN
7   2016-04-30    C      UK      8        NaN
8   2016-05-31    A      NL      9        8.0
9   2016-05-31    A      BE     10        8.0
10  2016-05-31    A      FR     11        NaN
11  2016-05-31    B      NL     12        9.0
12  2016-05-31    B      BE     13        9.0
13  2016-05-31    B      FR     14        NaN
14  2016-05-31    C      NL     15       10.0
15  2016-05-31    C      BE     16       10.0
16  2016-05-31    C      UK     17        9.0
17  2016-05-31    C      SL     18        NaN
18  2016-06-30    A      NL     19       10.0
19  2016-06-30    B      FR     20        6.0
20  2016-06-30    B      UK     21        NaN
21  2016-06-30    B      SL     22        NaN
22  2016-06-30    C      NL     23        8.0
23  2016-06-30    C      BE     24        8.0

英文:

If there are all unique pairs Type and Country per Date groups then is possible use DataFrameGroupBy.diff:

df[&#39;ValueDiff&#39;] = df.groupby([&#39;Type&#39;,&#39;Country&#39;])[&#39;Value&#39;].diff()
print (df)
Date Type Country  Value  ValueDiff
0   2016-04-30    A      NL      1        NaN
1   2016-04-30    A      BE      2        NaN
2   2016-04-30    B      NL      3        NaN
3   2016-04-30    B      BE      4        NaN
4   2016-04-30    C      NL      5        NaN
5   2016-04-30    C      BE      6        NaN
6   2016-04-30    C      FR      7        NaN
7   2016-04-30    C      UK      8        NaN
8   2016-05-31    A      NL      9        8.0
9   2016-05-31    A      BE     10        8.0
10  2016-05-31    A      FR     11        NaN
11  2016-05-31    B      NL     12        9.0
12  2016-05-31    B      BE     13        9.0
13  2016-05-31    B      FR     14        NaN
14  2016-05-31    C      NL     15       10.0
15  2016-05-31    C      BE     16       10.0
16  2016-05-31    C      UK     17        9.0
17  2016-05-31    C      SL     18        NaN
18  2016-06-30    A      NL     19       10.0
19  2016-06-30    B      FR     20        6.0
20  2016-06-30    B      UK     21        NaN
21  2016-06-30    B      SL     22        NaN
22  2016-06-30    C      NL     23        8.0
23  2016-06-30    C      BE     24        8.0

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

基于匹配观察时间计算差异。

问题

答案1

Django: 字节索引必须是整数或切片，而不是字符串错误。

更改字典中的数值

在Python中对多面体非矩形域进行积分

无法解析余下的部分：’'|’ 从 ‘ ‘中’' 在Django模板分页时

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论