2023年2月14日 20:42:07go评论157阅读模式

英文:

Pandas groupby create a list of values from several columns

问题

我有一个数据框 df = ID C1 C2 C3 C4 1 a b r q 1 b e g h 2 p a z p 1 r a n m 我想要按ID获取C1和C2中的数值列表。所以我会得到： out = ID l 1 [a,b,r,e] 2

最好的方法是什么？

英文:

I have a dataframe

df = ID  C1  C2  C3  C4
     1   a   b   r    q
     1   b   e   g    h
     2   p   a   z    p
     1   r   a   n    m

I want to get list of values in C1, C2 per ID.
So I will have:

out = ID  l 
      1  [a,b,r,e]
      2

What is the best way to do so?

答案1

得分: 2

你可以将数据框展平，然后按ID分组，最后获取唯一的数值：

df.melt('ID', value_name='l').groupby('ID', as_index=False)['l'].unique()

   ID             l
0   1  [a, b, r, e]
1   2

更新

如果你想要为C1和C2各有一个单独的列：

(df.melt('ID', var_name='col', value_name='l')
   .groupby(['ID', 'col'], as_index=False)['l']
   .apply(lambda x: np.unique(x).tolist())
   .pivot(index='ID', columns='col', values='l')
   .rename_axis(columns=None).reset_index())

   ID         C1         C2
0   1  [a, b, r]  [b, e, a]
1   2                [a]

英文:

You can flatten your dataframe then group by ID and finally get unique values:

&gt;&gt;&gt; df.melt(&#39;ID&#39;, value_name=&#39;l&#39;).groupby(&#39;ID&#39;, as_index=False)[&#39;l&#39;].unique()

   ID             l
0   1  [a, b, r, e]
1   2

Update

> And if I want a seperate column for C1 and C2

&gt;&gt;&gt; (df.melt(&#39;ID&#39;, var_name=&#39;col&#39;, value_name=&#39;l&#39;)
       .groupby([&#39;ID&#39;, &#39;col&#39;], as_index=False)[&#39;l&#39;]
       .apply(lambda x: np.unique(x).tolist())
       .pivot(index=&#39;ID&#39;, columns=&#39;col&#39;, values=&#39;l&#39;)
       .rename_axis(columns=None).reset_index())

   ID         C1         C2
0   1  [a, b, r]  [b, e, a]
1   2                [a]

答案2

得分: 0

使用lambda函数与numpy.unique - 输出已排序:

df1 = (df.groupby('ID')[['C1','C2']].apply(lambda x: np.unique(x).tolist())
        .reset_index(name='l'))
print (df1)
   ID             l
0   1  [a, b, e, r]
1   2        [a, p]

或者使用unique - 输出与原始顺序一致:

df1 = (df.groupby('ID')[['C1','C2']].apply(lambda x: pd.unique(np.ravel(x)).tolist())
        .reset_index(name='l'))
print (df1)
   ID             l
0   1  [a, b, e, r]
1   2

另一种方法是删除缺失值和重复项:

df1 = (df.melt(id_vars='ID', value_vars=['C1','C2'], value_name='l')
         .drop_duplicates(['ID','l'])
         .dropna(subset=['l'])
         .groupby('ID')['l']
         .agg(list)
         .reset_index())
print (df1)
   ID             l
0   1  [a, b, r, e]
1   2

编辑: 要分别处理列，请使用GroupBy.agg:

df2 = df.groupby('ID')[['C1','C2']].agg(lambda x: np.unique(x).tolist()).reset_index()
print (df2)
   ID         C1         C2
0   1  [a, b, r]  [a, b, e]
1   2                [a]

英文:

Use lambda function with numpy.unique - output is sorted:

df1 = (df.groupby(&#39;ID&#39;)[[&#39;C1&#39;,&#39;C2&#39;]].apply(lambda x: np.unique(x).tolist())
        .reset_index(name=&#39;l&#39;))
print (df1)
   ID             l
0   1  [a, b, e, r]
1   2        [a, p]

Or with unique - output is with original order:

df1 = (df.groupby(&#39;ID&#39;)[[&#39;C1&#39;,&#39;C2&#39;]].apply(lambda x: pd.unique(np.ravel(x)).tolist())
        .reset_index(name=&#39;l&#39;))
print (df1)
   ID             l
0   1  [a, b, e, r]
1   2

Another idea with remove missing values and duplicates:

df1 = (df.melt(id_vars=&#39;ID&#39;, value_vars=[&#39;C1&#39;,&#39;C2&#39;], value_name=&#39;l&#39;)
         .drop_duplicates([&#39;ID&#39;,&#39;l&#39;])
         .dropna(subset=[&#39;l&#39;])
         .groupby(&#39;ID&#39;)[&#39;l&#39;]
         .agg(list)
         .reset_index())
print (df1)
   ID             l
0   1  [a, b, r, e]
1   2

EDIT: For separate columns use GroupBy.agg:

df2 = df.groupby(&#39;ID&#39;)[[&#39;C1&#39;,&#39;C2&#39;]].agg(lambda x: np.unique(x).tolist()).reset_index()
print (df2)
   ID         C1         C2
0   1  [a, b, r]  [a, b, e]
1   2                [a]

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Pandas的groupby从多个列创建数值列表

问题

答案1

答案2

AttributeError: ‘Context’ object has no attribute ‘response’ | discord.py

TypeError while operating on list indices in Python

Pandas中.iloc API的索引

如何拆分并将输出文件转换为带列名的列？

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论