2023年6月29日 02:43:41go评论164阅读模式

英文:

How to check if a pandas data frame column contains any value from a list and return that value

问题

我有一个国家列表：

countries = ["Afghanistan", "Albania", "Algeria", "Andorra", "Angola", "Antigua and Barbuda", "Argentina", "Armenia", "Austria", "Azerbaijan", "Bahrain", "Bangladesh", "Barbados", "Belarus", "Belgium", "Belize", "Benin", "Bhutan", "Bolivia", "Bosnia and Herzegovina", "Botswana", "Brazil", "Brunei", "Bulgaria", "Burkina Faso", "Burundi", "Cabo Verde", "Cambodia", "Cameroon", "Canada", "Central African Republic", "Chad", "Channel Islands", "Chile", "China", "Colombia", "Comoros", "Congo", "Costa Rica", "Côte d'Ivoire", "Croatia", "Cuba", "Cyprus", "Czech Republic", "Denmark", "Djibouti", "Dominica", "Dominican Republic", "DR Congo", "Ecuador", "Egypt", "El Salvador", "Equatorial Guinea", "Eritrea", "Estonia", "Eswatini", "Ethiopia", "Faeroe Islands", "Finland", "France", "French Guiana", "Gabon", "Gambia", "Georgia", "Germany", "Ghana", "Gibraltar", "Greece", "Grenada", "Guatemala", "Guinea", "Guinea-Bissau", "Guyana", "Haiti", "Holy See", "Honduras", "Hong Kong", "Hungary", "Iceland", "India", "Indonesia", "Iran", "Iraq", "Ireland", "Isle of Man", "Israel", "Italy", "Jamaica", "Japan", "Jordan", "Kazakhstan", "Kenya", "Kuwait", "Kyrgyzstan", "Laos", "Latvia", "Lebanon", "Lesotho", "Liberia", "Libya", "Liechtenstein", "Lithuania", "Luxembourg", "Macao", "Madagascar", "Malawi", "Malaysia", "Maldives", "Mali", "Malta", "Mauritania", "Mauritius", "Mayotte", "Mexico", "Moldova", "Monaco", "Mongolia", "Montenegro", "Morocco", "Mozambique", "Myanmar", "Namibia", "Nepal", "Netherlands", "Nicaragua", "Niger", "Nigeria", "North Korea", "North Macedonia", "Norway", "Oman", "Pakistan", "Panama", "Paraguay", "Peru", "Philippines", "Poland", "Portugal", "Qatar", "Réunion", "Romania", "Russia", "Rwanda", "Saint Helena", "Saint Kitts and Nevis", "Saint Lucia", "Saint Vincent and the Grenadines", "San Marino", "Sao Tome & Principe", "Saudi Arabia", "Senegal", "Serbia", "Seychelles", "Sierra Leone", "Singapore", "Slovakia", "Slovenia", "Somalia", "South Africa", "South Korea", "South Sudan", "Spain", "Sri Lanka", "State of Palestine", "Sudan", "Suriname", "Sweden", "Switzerland", "Syria", "Taiwan", "Tajikistan", "Tanzania", "Thailand", "The Bahamas", "Timor-Leste", "Togo", "Trinidad and Tobago", "Tunisia", "Turkey", "Turkmenistan", "Uganda", "Ukraine", "United Arab Emirates", "United Kingdom", "United States", "Uruguay", "Uzbekistan", "Venezuela", "Vietnam", "Western Sahara", "Yemen", "Zambia", "Zimbabwe"]

我还有这个pandas数据帧：

import pandas as pd
import numpy as np

ds1 = {'remarks':["DOB 21 Mar 1974; POB Baghdad, Iraq.","DOB 26 Mar 1969; POB Tunis, Tunisia; Italian Fiscal Code TLLLHR69C26Z352G.","DOB 10 Jun 1970; POB Tunis, Tunisia; nationality Tunisia; Passport L550681 issued 23 Sep 1997 expires 22 Sep 2002; Italian Fiscal Code WDDHBB70H10Z352O."], "Latitude" : [-23.69057,-23.41165,-23.51482]}
df1 = pd.DataFrame(data=ds1)

数据帧看起来像这样：

print(df1)

我需要：

检查列remarks是否包含在名为countries的列表中的任何国家
如果是这样，创建一个新列（称为country），其中包含匹配的国家名称。

从上面的示例中，结果数据帧将如下所示：

英文:

I have list of countries:

countries = [&quot;Afghanistan&quot;,	&quot;Albania&quot;,	&quot;Algeria&quot;,	&quot;Andorra&quot;,	&quot;Angola&quot;,	&quot;Antigua and Barbuda&quot;,	&quot;Argentina&quot;,	&quot;Armenia&quot;,	&quot;Austria&quot;,	&quot;Azerbaijan&quot;,	&quot;Bahrain&quot;,	&quot;Bangladesh&quot;,	&quot;Barbados&quot;,	&quot;Belarus&quot;,	&quot;Belgium&quot;,	&quot;Belize&quot;,	&quot;Benin&quot;,	&quot;Bhutan&quot;,	&quot;Bolivia&quot;,	&quot;Bosnia and Herzegovina&quot;,	&quot;Botswana&quot;,	&quot;Brazil&quot;,	&quot;Brunei&quot;,	&quot;Bulgaria&quot;,	&quot;Burkina Faso&quot;,	&quot;Burundi&quot;,	&quot;Cabo Verde&quot;,	&quot;Cambodia&quot;,	&quot;Cameroon&quot;,	&quot;Canada&quot;,	&quot;Central African Republic&quot;,	&quot;Chad&quot;,	&quot;Channel Islands&quot;,	&quot;Chile&quot;,	&quot;China&quot;,	&quot;Colombia&quot;,	&quot;Comoros&quot;,	&quot;Congo&quot;,	&quot;Costa Rica&quot;,	&quot;C&#244;te d&#39;Ivoire&quot;,	&quot;Croatia&quot;,	&quot;Cuba&quot;,	&quot;Cyprus&quot;,	&quot;Czech Republic&quot;,	&quot;Denmark&quot;,	&quot;Djibouti&quot;,	&quot;Dominica&quot;,	&quot;Dominican Republic&quot;,	&quot;DR Congo&quot;,	&quot;Ecuador&quot;,	&quot;Egypt&quot;,	&quot;El Salvador&quot;,	&quot;Equatorial Guinea&quot;,	&quot;Eritrea&quot;,	&quot;Estonia&quot;,	&quot;Eswatini&quot;,	&quot;Ethiopia&quot;,	&quot;Faeroe Islands&quot;,	&quot;Finland&quot;,	&quot;France&quot;,	&quot;French Guiana&quot;,	&quot;Gabon&quot;,	&quot;Gambia&quot;,	&quot;Georgia&quot;,	&quot;Germany&quot;,	&quot;Ghana&quot;,	&quot;Gibraltar&quot;,	&quot;Greece&quot;,	&quot;Grenada&quot;,	&quot;Guatemala&quot;,	&quot;Guinea&quot;,	&quot;Guinea-Bissau&quot;,	&quot;Guyana&quot;,	&quot;Haiti&quot;,	&quot;Holy See&quot;,	&quot;Honduras&quot;,	&quot;Hong Kong&quot;,	&quot;Hungary&quot;,	&quot;Iceland&quot;,	&quot;India&quot;,	&quot;Indonesia&quot;,	&quot;Iran&quot;,	&quot;Iraq&quot;,	&quot;Ireland&quot;,	&quot;Isle of Man&quot;,	&quot;Israel&quot;,	&quot;Italy&quot;,	&quot;Jamaica&quot;,	&quot;Japan&quot;,	&quot;Jordan&quot;,	&quot;Kazakhstan&quot;,	&quot;Kenya&quot;,	&quot;Kuwait&quot;,	&quot;Kyrgyzstan&quot;,	&quot;Laos&quot;,	&quot;Latvia&quot;,	&quot;Lebanon&quot;,	&quot;Lesotho&quot;,	&quot;Liberia&quot;,	&quot;Libya&quot;,	&quot;Liechtenstein&quot;,	&quot;Lithuania&quot;,	&quot;Luxembourg&quot;,	&quot;Macao&quot;,	&quot;Madagascar&quot;,	&quot;Malawi&quot;,	&quot;Malaysia&quot;,	&quot;Maldives&quot;,	&quot;Mali&quot;,	&quot;Malta&quot;,	&quot;Mauritania&quot;,	&quot;Mauritius&quot;,	&quot;Mayotte&quot;,	&quot;Mexico&quot;,	&quot;Moldova&quot;,	&quot;Monaco&quot;,	&quot;Mongolia&quot;,	&quot;Montenegro&quot;,	&quot;Morocco&quot;,	&quot;Mozambique&quot;,	&quot;Myanmar&quot;,	&quot;Namibia&quot;,	&quot;Nepal&quot;,	&quot;Netherlands&quot;,	&quot;Nicaragua&quot;,	&quot;Niger&quot;,	&quot;Nigeria&quot;,	&quot;North Korea&quot;,	&quot;North Macedonia&quot;,	&quot;Norway&quot;,	&quot;Oman&quot;,	&quot;Pakistan&quot;,	&quot;Panama&quot;,	&quot;Paraguay&quot;,	&quot;Peru&quot;,	&quot;Philippines&quot;,	&quot;Poland&quot;,	&quot;Portugal&quot;,	&quot;Qatar&quot;,	&quot;R&#233;union&quot;,	&quot;Romania&quot;,	&quot;Russia&quot;,	&quot;Rwanda&quot;,	&quot;Saint Helena&quot;,	&quot;Saint Kitts and Nevis&quot;,	&quot;Saint Lucia&quot;,	&quot;Saint Vincent and the Grenadines&quot;,	&quot;San Marino&quot;,	&quot;Sao Tome &amp; Principe&quot;,	&quot;Saudi Arabia&quot;,	&quot;Senegal&quot;,	&quot;Serbia&quot;,	&quot;Seychelles&quot;,	&quot;Sierra Leone&quot;,	&quot;Singapore&quot;,	&quot;Slovakia&quot;,	&quot;Slovenia&quot;,	&quot;Somalia&quot;,	&quot;South Africa&quot;,	&quot;South Korea&quot;,	&quot;South Sudan&quot;,	&quot;Spain&quot;,	&quot;Sri Lanka&quot;,	&quot;State of Palestine&quot;,	&quot;Sudan&quot;,	&quot;Suriname&quot;,	&quot;Sweden&quot;,	&quot;Switzerland&quot;,	&quot;Syria&quot;,	&quot;Taiwan&quot;,	&quot;Tajikistan&quot;,	&quot;Tanzania&quot;,	&quot;Thailand&quot;,	&quot;The Bahamas&quot;,	&quot;Timor-Leste&quot;,	&quot;Togo&quot;,	&quot;Trinidad and Tobago&quot;,	&quot;Tunisia&quot;,	&quot;Turkey&quot;,	&quot;Turkmenistan&quot;,	&quot;Uganda&quot;,	&quot;Ukraine&quot;,	&quot;United Arab Emirates&quot;,	&quot;United Kingdom&quot;,	&quot;United States&quot;,	&quot;Uruguay&quot;,	&quot;Uzbekistan&quot;,	&quot;Venezuela&quot;,	&quot;Vietnam&quot;,	&quot;Western Sahara&quot;,	&quot;Yemen&quot;,	&quot;Zambia&quot;,	&quot;Zimbabwe&quot;]

I also have this pandas dataframe:

import pandas as pd
import numpy as np

ds1 = {&#39;remarks&#39;:[&quot;DOB 21 Mar 1974; POB Baghdad, Iraq.&quot;,&quot;DOB 26 Mar 1969; POB Tunis, Tunisia; Italian Fiscal Code TLLLHR69C26Z352G.&quot;,&quot;DOB 10 Jun 1970; POB Tunis, Tunisia; nationality Tunisia; Passport L550681 issued 23 Sep 1997 expires 22 Sep 2002; Italian Fiscal Code WDDHBB70H10Z352O.&quot;], &quot;Latitude&quot; : [-23.69057,-23.41165,-23.51482]}
df1 = pd.DataFrame(data=ds1)

The dataframe looks like this:

print(df1)

I need to:

check whether the column remarks contains any of the countries included in the list called countries
if so,create a new column (called country) which contains the name of the matched country.

From the example above, the resulting dataframe would look like this:

Can anyone help me please?

答案1

得分: 1

str.extract() 的威力在处理这类问题时表现得非常出色。

df1['country'] = df1['remarks'].str.extract("(\(" + "|".join(countries) + "\))", expand=False)
print(df1)

                                                 remarks  Latitude  country
0                DOB 21 Mar 1974; POB Baghdad, Iraq. -23.69057     Iraq
1  DOB 26 Mar 1969; POB Tunis, FakeCountry; Itali... -23.41165      NaN #我在这里替换了国家以展示一个测试案例
2  DOB 10 Jun 1970; POB Tunis, Tunisia; nationali... -23.51482  Tunisia

英文:

The power of str.extract() really shines for problems like these

df1[&#39;country&#39;] = df1[&#39;remarks&#39;].str.extract((&quot;(&quot; + &quot;|&quot;.join(countries) +&quot;)&quot;), expand=False)
print(df1)

                                             remarks  Latitude  country
0                DOB 21 Mar 1974; POB Baghdad, Iraq. -23.69057     Iraq
1  DOB 26 Mar 1969; POB Tunis, FakeCountry; Itali... -23.41165      NaN #I replaced the Country here to show a test case
2  DOB 10 Jun 1970; POB Tunis, Tunisia; nationali... -23.51482  Tunisia

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

如何检查 pandas 数据框的列是否包含列表中的任何值，并返回该值。

问题

答案1

在数组的列中索引元素

尝试在字符串列表中找到子集。

Remove all rows in a Pandas DataFrame where a column is True.

列表转映射

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论