2023年6月22日 01:40:29go评论167阅读模式

英文:

pandas: add column whose value is available in previous row but not in current, of another column

问题

假设这是我的 `df`：
```python
{&#39;accuracy&#39;: [0.773, 0.841, 0.862, 0.874, 0.883, 0.913],
 &#39;code&#39;: [(&#39;D&#39;,),(&#39;D&#39;, &#39;F&#39;),(&#39;B&#39;, &#39;D&#39;, &#39;F&#39;),
  (&#39;B&#39;, &#39;F&#39;, &#39;K&#39;), (&#39;B&#39;, &#39;F&#39;, &#39;I&#39;, &#39;K&#39;),
  (&#39;F&#39;, &#39;I&#39;, &#39;K&#39;)]}

df
   accuracy   	    code
0 	0.773 	        (D,)
1 	0.841 	      (D, F)
2 	0.862 	   (B, D, F)
3 	0.874 	   (B, F, K)
4 	0.883 	(B, F, I, K)
5 	0.913 	   (F, I, K)

我想添加一列 dropped，其值是在当前行中前一行的 code 中不存在的项目。

期望结果：

 	accuracy 	    code 	dropped
0 	0.773 	        (D,) 	  -
1 	0.841 	      (D, F) 	  -
2 	0.862 	   (B, D, F) 	  -
3 	0.874 	   (B, F, K) 	  D
4 	0.883 	(B, F, I, K) 	  -
5 	0.913 	   (F, I, K) 	  B


<details>
<summary>英文:</summary>

Suppose this is my `df`:
```python
{&#39;accuracy&#39;: [0.773, 0.841, 0.862, 0.874, 0.883, 0.913],
 &#39;code&#39;: [(&#39;D&#39;,),(&#39;D&#39;, &#39;F&#39;),(&#39;B&#39;, &#39;D&#39;, &#39;F&#39;),
  (&#39;B&#39;, &#39;F&#39;, &#39;K&#39;), (&#39;B&#39;, &#39;F&#39;, &#39;I&#39;, &#39;K&#39;),
  (&#39;F&#39;, &#39;I&#39;, &#39;K&#39;)]}

df
   accuracy   	    code
0 	0.773 	        (D,)
1 	0.841 	      (D, F)
2 	0.862 	   (B, D, F)
3 	0.874 	   (B, F, K)
4 	0.883 	(B, F, I, K)
5 	0.913 	   (F, I, K)

I would like to add a column dropped whose value is the item in code in previous row is not available in the current row.

Expected:

 	accuracy 	    code 	dropped
0 	0.773 	        (D,) 	  -
1 	0.841 	      (D, F) 	  -
2 	0.862 	   (B, D, F) 	  -
3 	0.874 	   (B, F, K) 	  D
4 	0.883 	(B, F, I, K) 	  -
5 	0.913 	   (F, I, K) 	  B

答案1

得分: 4

以下是代码的翻译部分：

s = df['code'].apply(set)

df['dropped'] = s.shift(fill_value=set()) - s

输出：

   accuracy          code dropped
0     0.773          (D,)      {}
1     0.841        (D, F)      {}
2     0.862     (B, D, F)      {}
3     0.874     (B, F, K)     {D}
4     0.883  (B, F, I, K)      {}
5     0.913     (F, I, K)     {B}

如果您坚持要按照这种格式（并且每行最多只有一个被删除的项目）：

s = df['code'].apply(set)

df['dropped'] = (s.shift(fill_value=set()).sub(s)
                  .apply(list).str[0].fillna('-')
                )

输出：

   accuracy          code dropped
0     0.773          (D,)       -
1     0.841        (D, F)       -
2     0.862     (B, D, F)       -
3     0.874     (B, F, K)       D
4     0.883  (B, F, I, K)       -
5     0.913     (F, I, K)       B

英文:

It's very easy if you use sets and shift:

s = df[&#39;code&#39;].apply(set)

df[&#39;dropped&#39;] = s.shift(fill_value=set())-s

Output:

   accuracy          code dropped
0     0.773          (D,)      {}
1     0.841        (D, F)      {}
2     0.862     (B, D, F)      {}
3     0.874     (B, F, K)     {D}
4     0.883  (B, F, I, K)      {}
5     0.913     (F, I, K)     {B}

If you insist on the format (and have at most one dropped item per row):

s = df[&#39;code&#39;].apply(set)

df[&#39;dropped&#39;] = (s.shift(fill_value=set()).sub(s)
                  .apply(list).str[0].fillna(&#39;-&#39;)
                )

Output:

   accuracy          code dropped
0     0.773          (D,)       -
1     0.841        (D, F)       -
2     0.862     (B, D, F)       -
3     0.874     (B, F, K)       D
4     0.883  (B, F, I, K)       -
5     0.913     (F, I, K)       B

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

pandas：添加一个列，其值在前一行中可用但在当前行不可用，来自另一列

问题

答案1

如何更改Plotly图的y轴点分隔符？

使用pandas行值来在另一个数据框上执行`str.count`是否有高效的方法？

ImportError: 无法从’llama_index.llms’导入名称’CustomLLM’

如何合并多通道图像？

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论