2023年6月29日 23:49:22go评论162阅读模式

英文:

Retrieve values from a list resembling json with Pandas

问题

我在我的DataFrame中有类似JSON但不完全相同的值。

我的列看起来像这样：

&gt; [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, nan,
       &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
       ...,
       &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
       &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
       &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

通常这是一个缺失值，也经常是一行上的两个值：

Immediatejob 是可以的，但其他的值在这里缺失

&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;

在第2行，我有两个不同的值
&#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;

我尝试检索 immediate job 的值，但不起作用，因为通常一行中有几行。

DF[&#39;col&#39;].str.split(&#39;immediateJob : &quot;&quot;&#39;, expand=True)[1].str.split(&#39;&quot;&quot;,&#39;, expand=True)[0]

我想要的是首先在有多个值的情况下将其分开为多个行，条件是在另一列中的标识符，然后检索 immediate job、quarter 和 year 的值。

英文:

I have values in my DataFrame that look like JSON but not quite.

My column looks like this:

&gt; [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, nan,
       &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
       ...,
       &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
       &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
       &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

Often it is a missing value, and often it is two values on a single line:

Immediatejob is ok but other are missing here

&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;

In line 2, I have two differents values
&#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;

I tried to retrieve the values of immediate job, but it does not work because there are often several lines in one.

`DF[&#39;col&#39;].str.split(&#39;immediateJob : &quot;&quot;&#39;, expand=True)[1].str.split(&#39;&quot;&quot;,&#39;, expand=True)[0]`

What I would like is first to separate in several rows when there are several values conditional to the identifier that is in another column and then retrieve the values of immediate job, quarter and year

答案1

得分: 1

['DIA',
'Responsable conformité',
'Head of M360 APAC (if this role is created)',
'Change Manager su aree di business diverse da quelle attuali',
'Manager ITGP']

英文:

If you only want to retrieve immediate job, you could manipulate a list like this:

list_test = [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, 
         None,
         &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
         &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
         &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
         &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

list_test = [s.replace(&#39;}{&#39;, &#39;&#39;&#39;}&#39;&quot;,&quot;&#39;{&#39;&#39;&#39;) for s in list_test if s is not None]

[s.split(&#39;immediateJob : &quot;&quot;&#39;)[1].split(&#39;&quot;&quot;,&#39;)[0] for s in list_test]

Output:

[&#39;DIA&#39;,
 &#39;Responsable conformit&#233;&#39;,
 &#39;Head of M360 APAC (if this role is created)&#39;,
 &#39;Change Manager su aree di business diverse da quelle attuali&#39;,
 &#39;Manager ITGP&#39;]

I've removed the Nan value from the beginning, was it necessary to keep it?

答案2

得分: 1

以下是翻译好的部分：

尝试此正则表达式模式和Python代码以查找您想要的每个部分：

&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;

import re

string = [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, 
        None,
        &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

re_pattern = re.compile(r&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;)

for i in string:
    if i is not None:
        print(re_pattern.findall(i))

您的输入结果如下所示：

然后，如果您想选择“immediate job”值，您应该选择每个列表中元组的第一个组件：

import re

string = [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, 
        None,
        &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

re_pattern = re.compile(r&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;)

ans = []
for i in string:
    if i is not None:
        for s in re_pattern.findall(i):
            ans.append(s[0].replace(&quot;\&quot;&quot;, &quot;&quot;))

print(ans)

输出结果如下：

[&#39;DIA&#39;, &#39;Responsable conformit&#233;&#39;, &#39;Responsable projet&#39;, &#39;Head of M360 APAC (if this role is created)&#39;, &#39;Head of EM Research APAC&#39;, &#39;Change Manager su aree di business diverse da quelle attuali&#39;, &#39;Manager ITGP&#39;]

英文:

try this regex pattern and Python code to find each section you want:

&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;

import re

string = [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, 
        None,
        &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

re_pattern = re.compile(r&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;)

for i in string:
    if i is not None:
        print(re_pattern.findall(i))

result on your input:

and then, if you want to select "immediate job" values, you should select first component of tuples in each list

import re

string = [&#39;&quot;{immediateJob : &quot;&quot;DIA&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;, 
        None,
        &#39;&quot;{immediateJob : &quot;&quot;Responsable conformit&#233;&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}{immediateJob : &quot;&quot;Responsable projet&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2022&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Head of M360 APAC (if this role is created)&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}{immediateJob : &quot;&quot;Head of EM Research APAC&quot;&quot;,Trimester :&quot;&quot;Q&quot;&quot;,Year :&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Change Manager su aree di business diverse da quelle attuali&quot;&quot;,Trimester :&quot;&quot;Q2&quot;&quot;,Year :&quot;&quot;2024&quot;&quot;}&quot;&#39;,
        &#39;&quot;{immediateJob : &quot;&quot;Manager ITGP&quot;&quot;,Trimester :&quot;&quot;Q3&quot;&quot;,Year :&quot;&quot;2025&quot;&quot;}&quot;&#39;]

re_pattern = re.compile(r&quot;{\s*immediateJob\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Trimester\s*:\s*(\&quot;\&quot;[\w (){}]+\&quot;\&quot;|\&quot;\&quot;)\s*,\s*Year\s*:\s*(\&quot;\&quot;\d+\&quot;\&quot;|\&quot;\&quot;)}&quot;)

ans = []
for i in string:
    if i is not None:
        for s in re_pattern.findall(i):
            ans.append(s[0].replace(&quot;\&quot;&quot;, &quot;&quot;))

print(ans)

output

[&#39;DIA&#39;, &#39;Responsable conformit&#233;&#39;, &#39;Responsable projet&#39;, &#39;Head of M360 APAC (if this role is created)&#39;, &#39;Head of EM Research APAC&#39;, &#39;Change Manager su aree di business diverse da quelle attuali&#39;, &#39;Manager ITGP&#39;]

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

从 Pandas 中检索类似 JSON 结构的列表中的数值。

问题

答案1

答案2

为什么调用不同数值的time.sleep会改变与sleep无关的部分的执行时间？

在Python中将列表附加到基本列表中。

找到两个具有不同键的字典列表之间的不同值。

如何在Python中实现对字典列表的多级排序？

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论