2023年2月23日 23:52:49go评论94阅读模式

英文:

Correct typos inside a column using word distance

问题

如果在一个 pandas 数据帧中有一个包含一堆名称的列：

NAME
-------
robert
robert
robrt
marie
ann

我想要合并类似的名称以纠正/统一拼写错误，结果如下：

NAME
-------
robert
robert
robert
marie
ann

我想要使用Levenshtein距离来搜索相似的记录。也欢迎使用其他度量方法的解决方案。

非常感谢提前的帮助。

Stackoverflow上的所有示例似乎都比较多列，因此我无法找到一个适合我的问题的好解决方案。

英文:

if have a column inside a pandas df containing a bunch of names:

NAME
-------
robert
robert
robrt
marie
ann

I'd like to merge similar ones in order to correct/uniform typos, resulting in:

NAME
-------
robert
robert
robert
marie
ann

I would like to use Levenshtein distance in order to search for similar records.
Also, solutions using other metrics are much appreciated.

Thanks a lot in advance

All examples on Stackoverflow seem to compare multiple columns, so I have not been able to find a nice solution to my problem.

答案1

得分: 1

一种可能的方法如下：

import pandas as pd
from sklearn.cluster import AgglomerativeClustering
from Levenshtein import distance
import numpy as np
df = pd.DataFrame({'NAME': ['robert', 'robert', 'robrt', 'marie', 'ann']})
def merge_similar_names(df, column):
    unique_names = df[column].str.lower().str.strip().unique()
    distances = np.zeros((len(unique_names), len(unique_names)))
    for i in range(len(unique_names)):
        for j in range(i, len(unique_names)):
            d = distance(unique_names[i], unique_names[j])
            distances[i, j] = d
            distances[j, i] = d
    clusterer = AgglomerativeClustering(n_clusters=None, distance_threshold=2, linkage='complete', affinity='precomputed')
    clusters = clusterer.fit_predict(distances)
    name_clusters = pd.DataFrame({'NAME': unique_names, 'CLUSTER': clusters})
    df = pd.merge(df, name_clusters, on='NAME')
    most_common_names = df.groupby('CLUSTER')[column].apply(lambda x: x.value_counts().index[0]).reset_index()
    df = pd.merge(df, most_common_names, on='CLUSTER')
    df.rename(columns={column+'_y': column}, inplace=True)
    return df
df = merge_similar_names(df, 'NAME')
print(df)

这将给你以下结果：

   NAME_x  CLUSTER    NAME
0  robert        0  robert
1  robert        0  robert
2   robrt        0  robert
3   marie        2   marie
4     ann        1     ann

英文:

One possible approach is the following:

import pandas as pd
from sklearn.cluster import AgglomerativeClustering
from Levenshtein import distance
import numpy as np
df = pd.DataFrame({&#39;NAME&#39;: [&#39;robert&#39;, &#39;robert&#39;, &#39;robrt&#39;, &#39;marie&#39;, &#39;ann&#39;]})
def merge_similar_names(df, column):
    unique_names = df[column].str.lower().str.strip().unique()
    distances = np.zeros((len(unique_names), len(unique_names)))
    for i in range(len(unique_names)):
        for j in range(i, len(unique_names)):
            d = distance(unique_names[i], unique_names[j])
            distances[i, j] = d
            distances[j, i] = d
    clusterer = AgglomerativeClustering(n_clusters=None, distance_threshold=2, linkage=&#39;complete&#39;, affinity=&#39;precomputed&#39;)
    clusters = clusterer.fit_predict(distances)
    name_clusters = pd.DataFrame({&#39;NAME&#39;: unique_names, &#39;CLUSTER&#39;: clusters})
    df = pd.merge(df, name_clusters, on=&#39;NAME&#39;)
    most_common_names = df.groupby(&#39;CLUSTER&#39;)[column].apply(lambda x: x.value_counts().index[0]).reset_index()
    df = pd.merge(df, most_common_names, on=&#39;CLUSTER&#39;)
    df.rename(columns={column+&#39;_y&#39;: column}, inplace=True)
    return df
df = merge_similar_names(df, &#39;NAME&#39;)
print(df)

which will give you

   NAME_x  CLUSTER    NAME
0  robert        0  robert
1  robert        0  robert
2   robrt        0  robert
3   marie        2   marie
4     ann        1     ann

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

使用单词距离校正列内的拼写错误

问题

答案1

Pythonic方式将枚举映射到API值

Android Kotlin: 使用Chaquopy运行Python脚本时出现异常

如何将数据框元素转换为条件？

Submission and custom input on GeeksForGeeks gives different judge result on same test case

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。