2023年2月14日 00:38:08go评论102阅读模式

英文:

Pandas read_html() with table containing html elements

问题

我有以下HTML表格：

&lt;table&gt;
 &lt;thead&gt;
   &lt;th&gt; X1 &lt;/th&gt;
   &lt;th&gt; X2 &lt;/th&gt;
&lt;/thead&gt;
&lt;tbody&gt;
   &lt;tr&gt;
    &lt;td&gt;Test&lt;/td&gt;
    &lt;td&gt;&lt;span style=&quot;...&quot;&gt; Test2 &lt;/span&gt; &lt;/td&gt;
  &lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;

我想要使用pd.read_html()将其解析为数据框，输出如下：

X1	X2
Test	Test2

然而，我更喜欢以下输出（保留单元格内的HTML元素）：

X1	X2
Test	<span style="..."> Test2 </span>

pd.read_html()能够实现这个吗？

我在read_html()文档中找不到解决方案，替代方法将是手动解析。

英文:

I have the following HTML table:

&lt;table&gt;
 &lt;thead&gt;
   &lt;th&gt; X1 &lt;/th&gt;
   &lt;th&gt; X2 &lt;/th&gt;
&lt;/thead&gt;
&lt;tbody&gt;
   &lt;tr&gt;
    &lt;td&gt;Test&lt;/td&gt;
    &lt;td&gt;&lt;span style=&quot;...&quot;&gt; Test2 &lt;/span&gt; &lt;/td&gt;
  &lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;

that I would want to parse to a dataframe by using pd.read_html().
The output is as follows:

X1	X2
Test	Test2

However, I would prefer the following output (preserving HTML elements within a cell):

X1	X2
Test	<span style="..."> Test2 </span>

Is this possible with pd.read_html()?

I couldn't find a solution in the read_html() docs, and the alternative would be manual parsing.

答案1

得分: 0

你可以修改._text_getter()如果你真的想这么做。

类似这样：

import lxml.html
import pandas as pd
html = &quot;&quot;&quot;
&lt;table&gt; 
&lt;thead&gt; 
&lt;th&gt; X1 &lt;/th&gt;
&lt;th&gt; X2 &lt;/th&gt;
&lt;/thead&gt;
&lt;tbody&gt; 
&lt;tr&gt;   
&lt;td&gt;Test&lt;/td&gt;   
&lt;td&gt;&lt;span style=&quot;...&quot;&gt; Test2 &lt;/span&gt; &lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&quot;&quot;&quot;
def custom_text_getter(self, obj):
   result = obj.xpath(&quot;node()&quot;)[0]
   if isinstance(result, lxml.html.HtmlElement):
      result = lxml.html.tostring(result, encoding=&quot;unicode&quot;)
   return result
pd.io.html._LxmlFrameParser._text_getter = custom_text_getter
print(
    pd.read_html(html)[0]
)

英文:

You could modify ._text_getter() if you really wanted to.

Something like:

import lxml.html
import pandas as pd
html = &quot;&quot;&quot;
&lt;table&gt; 
&lt;thead&gt; 
&lt;th&gt; X1 &lt;/th&gt;
&lt;th&gt; X2 &lt;/th&gt;
&lt;/thead&gt;
&lt;tbody&gt; 
&lt;tr&gt;   
&lt;td&gt;Test&lt;/td&gt;   
&lt;td&gt;&lt;span style=&quot;...&quot;&gt; Test2 &lt;/span&gt; &lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&quot;&quot;&quot;
def custom_text_getter(self, obj):
   result = obj.xpath(&quot;node()&quot;)[0]
   if isinstance(result, lxml.html.HtmlElement):
      result = lxml.html.tostring(result, encoding=&quot;unicode&quot;)
   return result
pd.io.html._LxmlFrameParser._text_getter = custom_text_getter
print(
    pd.read_html(html)[0]
)

     X1                                X2
0  Test  &lt;span style=&quot;...&quot;&gt; Test2 &lt;/span&gt;

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Pandas read_html() 与包含 HTML 元素的表格

问题

答案1

Python字典以满足所需用途的数据重排。

如何在PyQt5中裁剪实时视频流？QImage看起来倾斜。

根据时间戳将Pandas DataFrame 中的元素相加。

How can I use pandas.query() to check if a string exists in a list within the dataframe?

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。