2023年6月6日 07:14:58go评论270阅读模式

英文:

Convert wide format data (separate dfs) to long format using Python

问题

将宽格式数据从多个数据框转换为单个数据框的长格式数据，其中一些值为NaN。

最小示例：

df1 = pd.DataFrame({
                     "id": ["Mark", "Dave", "Ron" ], 
                     "c2_A": [2, 3, np.nan ], 
                     "c3_A": [1, np.nan, np.nan ] })

df2 = pd.DataFrame({
                     "id": ["Mark", "Dave", "Ron" ], 
                     "c2_B": [1, 0, np.nan ], 
                     "c3_B": [1, np.nan, 4 ] })

所需数据框：

dffinal = pd.DataFrame({
                     "id": ["Mark", "Mark","Dave", "Dave", "Ron" , "Ron"], 
                     "cValue": ["A", "B","A", "B", "A", "B"],
                     "c2Value": [2, 1, 3,0,np.nan,np.nan ], 
                     "c3Value": [1, 1, np.nan,np.nan,np.nan,4 ] }

英文:

Convert wide format data in separate dfs to long format in a single df in Python. Some values are NaNs.

Minimal example:

df1 = pd.DataFrame({
                     &quot;id&quot;: [&quot;Mark&quot;, &quot;Dave&quot;, &quot;Ron&quot; ], 
                     &quot;c2_A&quot;: [2, 3, np.nan ], 
                     &quot;c3_A&quot;: [1, np.nan, np.nan ] })

df2 = pd.DataFrame({
                     &quot;id&quot;: [&quot;Mark&quot;, &quot;Dave&quot;, &quot;Ron&quot; ], 
                     &quot;c2_B&quot;: [1, 0, np.nan ], 
                     &quot;c3_B&quot;: [1, np.nan, 4 ] })

Required df:

dffinal = pd.DataFrame({
                     &quot;id&quot;: [&quot;Mark&quot;, &quot;Mark&quot;,&quot;Dave&quot;, &quot;Dave&quot;, &quot;Ron&quot; , &quot;Ron&quot;], 
                        &quot;cValue&quot;: [&quot;A&quot;, &quot;B&quot;,&quot;A&quot;, &quot;B&quot;, &quot;A&quot;, &quot;B&quot;],
                     &quot;c2Value&quot;: [2, 1, 3,0,np.nan,np.nan ], 
                     &quot;c3Value&quot;: [1, 1, np.nan,np.nan,np.nan,4 ] }

答案1

得分: 2

以下是翻译好的部分：

使用 split/stack：

dffinal = (
    pd.concat([df1, df2])
        .set_index("id", append=True).pipe(
            lambda x: x.set_axis(x.columns.str.split("_", expand=True), axis=1))
        .stack(1, dropna=False).groupby(level=[1, 2],sort=False).first()
        .add_suffix("Value").reset_index().rename(columns={"level_1": "cValue"})
)

使用 wide_to_long：

dffinal = (
    pd.concat([df1, df2], keys=["1", "2"])
        .reset_index(level=0).pipe(
            pd.wide_to_long, stubnames=["c2", "c3"],
            i=["level_0", "id"], j="cValue", sep="_", suffix=r"\w+")
        .groupby(level=[1, 2], sort=False).first().add_suffix("Value").reset_index()
)

输出：

print(dffinal)

     id cValue  c2Value  c3Value
0  Mark      A     2.00     1.00
1  Mark      B     1.00     1.00
2  Dave      A     3.00      NaN
3  Dave      B     0.00      NaN
4   Ron      A      NaN      NaN
5   Ron      B      NaN     4.00

英文:

You can try one of these two options:

With split/stack:

dffinal = (
    pd.concat([df1, df2])
        .set_index(&quot;id&quot;, append=True).pipe(
            lambda x: x.set_axis(x.columns.str.split(&quot;_&quot;, expand=True), axis=1))
        .stack(1, dropna=False).groupby(level=[1, 2],sort=False).first()
        .add_suffix(&quot;Value&quot;).reset_index().rename(columns={&quot;level_1&quot;: &quot;cValue&quot;})
)

With wide_to_long:

dffinal = (
    pd.concat([df1, df2], keys=[&quot;1&quot;, &quot;2&quot;])
        .reset_index(level=0).pipe(
            pd.wide_to_long, stubnames=[&quot;c2&quot;, &quot;c3&quot;],
            i=[&quot;level_0&quot;, &quot;id&quot;], j=&quot;cValue&quot;, sep=&quot;_&quot;, suffix=r&quot;\w+&quot;)
        .groupby(level=[1, 2], sort=False).first().add_suffix(&quot;Value&quot;).reset_index()
)

Output:

print(dffinal)

     id cValue  c2Value  c3Value
0  Mark      A     2.00     1.00
1  Mark      B     1.00     1.00
2  Dave      A     3.00      NaN
3  Dave      B     0.00      NaN
4   Ron      A      NaN      NaN
5   Ron      B      NaN     4.00

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

将宽格式数据（分开的数据框）使用Python转换为长格式。

问题

答案1

使用Simpy资源模拟物流调度。

如何在地图上绘制具有不同颜色网格的热图？

HOOK-ERROR在before_scenario中: WebDriverException: 消息: 需要授权

如何理解 scipy.stats.genextreme 形状参数

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论