2023年3月12日 13:51:40go评论228阅读模式

英文:

pandas, how only fillna for last row with preceding line closest non-nan value

问题

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0, 10, (10, 10)), columns=list('ABCDEFGHIJ'))
df[df > 5] = np.nan

for i in range(10):
    df.iloc[i, i % 10] = np.nan

print(df)

英文:

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(0, 10, (10, 10)), columns=list(&#39;ABCDEFGHIJ&#39;))
df[df &gt; 5] = np.nan

for i in range(10):
    df.iloc[i, i % 10] = np.nan

print(df)

origin df is:

     A    B    C    D    E    F    G    H    I    J
0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
9  0.0  NaN  NaN  NaN  3.0  NaN  2.0  3.0  5.0  NaN

I only want to fillna for last row with preceding line closest non-nan value, I hava a big dataframe, so I want ot use the fastest way to save the most memory, to become to:

     A    B    C    D    E    F    G    H    I    J
0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
9  0.0  5.0  1.0  2.0  3.0  5.0  2.0  3.0  5.0  5.0

答案1

得分: 5

以下是代码部分的中文翻译：

# 快速解决方案

# 将DataFrame转换为NumPy数组
v = df.values

# 找到每列中最后一个非NaN值的索引
ix = len(df) - 1 - (~np.isnan(v))[::-1].argmax(0)

# 更新DataFrame中最后一行的值
df.iloc[-1, :] = v[ix, range(df.shape[1])]

结果:

         A    B    C    D    E    F    G    H    I    J
    0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
    1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
    2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
    3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
    4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
    5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
    6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
    7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
    8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
    9  0.0  5.0  1.0  2.0  3.0  5.0  2.0  3.0  5.0  5.0

英文:

Fast solution

v = df.values
ix = len(df) - 1 - (~np.isnan(v))[::-1].argmax(0)

df.iloc[-1, :] = v[ix, range(df.shape[1])]

Result

     A    B    C    D    E    F    G    H    I    J
0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
9  0.0  5.0  1.0  2.0  3.0  5.0  2.0  3.0  5.0  5.0

答案2

得分: 2

以下是您要翻译的内容：

df.iloc[-1] = df.ffill().iloc[-1]

print(df)

     A    B    C    D    E    F    G    H    I    J
0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
9  0.0  5.0  1.0  2.0  3.0  5.0  2.0  3.0  5.0  5.0

df.loc[df.index[-1], df.iloc[-1].isna()] = df.loc[:, df.iloc[-1].isna()].ffill().iloc[-1]

或者只查找最后一个非NaN值使用 last_valid_index：

df.iloc[-1] = df.apply(lambda s: s展开收缩)
# 或
df.loc[df.index[-1], df.iloc[-1].isna()] = df.loc[:, df.iloc[-1].isna()].apply(lambda s: s展开收缩)

英文:

You can do a forward fill and assign the last row

df.iloc[-1] = df.ffill().iloc[-1]

print(df)

     A    B    C    D    E    F    G    H    I    J
0  NaN  2.0  NaN  0.0  5.0  4.0  1.0  NaN  NaN  0.0
1  3.0  NaN  NaN  NaN  2.0  0.0  1.0  1.0  NaN  1.0
2  NaN  5.0  NaN  5.0  NaN  0.0  5.0  0.0  4.0  NaN
3  2.0  NaN  NaN  NaN  3.0  5.0  NaN  NaN  NaN  5.0
4  NaN  2.0  NaN  0.0  NaN  NaN  2.0  NaN  2.0  0.0
5  NaN  NaN  NaN  2.0  NaN  NaN  NaN  NaN  0.0  5.0
6  NaN  NaN  0.0  NaN  2.0  NaN  NaN  1.0  NaN  NaN
7  NaN  5.0  1.0  2.0  4.0  NaN  3.0  NaN  3.0  2.0
8  1.0  5.0  1.0  NaN  3.0  NaN  1.0  NaN  NaN  5.0
9  0.0  5.0  1.0  2.0  3.0  5.0  2.0  3.0  5.0  5.0

You can also consider filter column where the last row is not NaN.

df.loc[df.index[-1], df.iloc[-1].isna()] = df.loc[:, df.iloc[-1].isna()].ffill().iloc[-1]

Or only find the last non nan value with last_valid_index

df.iloc[-1] = df.apply(lambda s: s展开收缩)
# or
df.loc[df.index[-1], df.iloc[-1].isna()] = df.loc[:, df.iloc[-1].isna()].apply(lambda s: s展开收缩)

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

fillna 只用于最后一行，用最接近的上一行非 NaN 值填充。

问题

答案1

Fast solution

答案2

特定的数据值未能产生我所期望的答案。

根据另一列具有略有不同值的 pandas 列进行屏蔽

将pandas列按groupby数据框分割的有效方法

snakemake 选择要运行的规则。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论