2023年4月19日 16:59:04go评论83阅读模式

英文:

How to extract table from website using python3

问题

I want to get/export table from https://www.ethernodes.org/nodes
to a txt file to access with bashscript.

OpenAI help me with this Python3 code but it get nothing

import requests
from bs4 import BeautifulSoup
url = 'https://www.ethernodes.org/nodes?page=8'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
host_ips = []
node_list = soup.find('ul', class_='nodes-list')
if node_list is not None:
    for li in node_list.find_all('li'):
        host_ip = li.find('div', class_='node-host').text.strip()
        host_ips.append(host_ip)
print(host_ips)

英文:

I want to get/export table from https://www.ethernodes.org/nodes
to a txt file to access with bashscript.

OpenAI help me with this Python3 code but it get nothing

import requests
from bs4 import BeautifulSoup
url = &#39;https://www.ethernodes.org/nodes?page=8&#39;
response = requests.get(url)
soup = BeautifulSoup(response.text, &#39;html.parser&#39;)
host_ips = []
node_list = soup.find(&#39;ul&#39;, class_=&#39;nodes-list&#39;)
if node_list is not None:
    for li in node_list.find_all(&#39;li&#39;):
        host_ip = li.find(&#39;div&#39;, class_=&#39;node-host&#39;).text.strip()
        host_ips.append(host_ip)
print(host_ips)

答案1

得分: 1

以下是您可以获取数据并将其转储到.csv文件的代码部分：

import time
import pandas as pd
import requests
url = "https://www.ethernodes.org/data?"
payload = {
    "draw": "2",
    "columns[0][data]": "id",
    "columns[0][name]": "",
    "columns[0][searchable]": "true",
    "columns[0][orderable]": "true",
    "columns[0][search][value]": "",
    "columns[0][search][regex]": "false",
    "columns[1][data]": "host",
    "columns[1][name]": "",
    "columns[1][searchable]": "true",
    "columns[1][orderable]": "true",
    "columns[1][search][value]": "",
    "columns[1][search][regex]": "false",
    "columns[2][data]": "isp",
    "columns[2][name]": "",
    "columns[2][searchable]": "true",
    "columns[2][orderable]": "true",
    "columns[2][search][value]": "",
    "columns[2][search][regex]": "false",
    "columns[3][data]": "country",
    "columns[3][name]": "",
    "columns[3][searchable]": "true",
    "columns[3][orderable]": "true",
    "columns[3][search][value]": "",
    "columns[3][search][regex]": "false",
    "columns[4][data]": "client",
    "columns[4][name]": "",
    "columns[4][searchable]": "true",
    "columns[4][orderable]": "true",
    "columns[4][search][value]": "",
    "columns[4][search][regex]": "false",
    "columns[5][data]": "clientVersion",
    "columns[5][name]": "",
    "columns[5][searchable]": "true",
    "columns[5][orderable]": "true",
    "columns[5][search][value]": "",
    "columns[5][search][regex]": "false",
    "columns[6][data]": "os",
    "columns[6][name]": "",
    "columns[6][searchable]": "true",
    "columns[6][orderable]": "true",
    "columns[6][search][value]": "",
    "columns[6][search][regex]": "false",
    "columns[7][data]": "lastUpdate",
    "columns[7][name]": "",
    "columns[7][searchable]": "true",
    "columns[7][orderable]": "true",
    "columns[7][search][value]": "",
    "columns[7][search][regex]": "false",
    "columns[8][data]": "inSync",
    "columns[8][name]": "",
    "columns[8][searchable]": "true",
    "columns[8][orderable]": "true",
    "columns[8][search][value]": "",
    "columns[8][search][regex]": "false",
    "order[0][column]": "0",
    "order[0][dir]": "asc",
    "start": "0",
    "length": "100",
    "search[value]": "",
    "search[regex]": "false",
    "_": time.time()
}
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48",
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "X-Requested-With": "XMLHttpRequest",
}
data = requests.get(url, headers=headers, params=payload).json()["data"]
df = pd.DataFrame(data)
df.to_csv("nodes.csv", index=False)

输出:

如何使用Python3从网站提取表格

如果您只需要主机IP，可以添加以下内容：

hosts = df["host"].values
with open("hosts.txt", "w") as f:
    f.write("\n".join(hosts))

然后您可以执行：

$ cat hosts.txt

英文:

Here's how you can get the data and dump it to a .csv file.

import time
import pandas as pd
import requests
url = &quot;https://www.ethernodes.org/data?&quot;
payload = {
    &quot;draw&quot;: &quot;2&quot;,
    &quot;columns[0][data]&quot;: &quot;id&quot;,
    &quot;columns[0][name]&quot;: &quot;&quot;,
    &quot;columns[0][searchable]&quot;: &quot;true&quot;,
    &quot;columns[0][orderable]&quot;: &quot;true&quot;,
    &quot;columns[0][search][value]&quot;: &quot;&quot;,
    &quot;columns[0][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[1][data]&quot;: &quot;host&quot;,
    &quot;columns[1][name]&quot;: &quot;&quot;,
    &quot;columns[1][searchable]&quot;: &quot;true&quot;,
    &quot;columns[1][orderable]&quot;: &quot;true&quot;,
    &quot;columns[1][search][value]&quot;: &quot;&quot;,
    &quot;columns[1][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[2][data]&quot;: &quot;isp&quot;,
    &quot;columns[2][name]&quot;: &quot;&quot;,
    &quot;columns[2][searchable]&quot;: &quot;true&quot;,
    &quot;columns[2][orderable]&quot;: &quot;true&quot;,
    &quot;columns[2][search][value]&quot;: &quot;&quot;,
    &quot;columns[2][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[3][data]&quot;: &quot;country&quot;,
    &quot;columns[3][name]&quot;: &quot;&quot;,
    &quot;columns[3][searchable]&quot;: &quot;true&quot;,
    &quot;columns[3][orderable]&quot;: &quot;true&quot;,
    &quot;columns[3][search][value]&quot;: &quot;&quot;,
    &quot;columns[3][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[4][data]&quot;: &quot;client&quot;,
    &quot;columns[4][name]&quot;: &quot;&quot;,
    &quot;columns[4][searchable]&quot;: &quot;true&quot;,
    &quot;columns[4][orderable]&quot;: &quot;true&quot;,
    &quot;columns[4][search][value]&quot;: &quot;&quot;,
    &quot;columns[4][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[5][data]&quot;: &quot;clientVersion&quot;,
    &quot;columns[5][name]&quot;: &quot;&quot;,
    &quot;columns[5][searchable]&quot;: &quot;true&quot;,
    &quot;columns[5][orderable]&quot;: &quot;true&quot;,
    &quot;columns[5][search][value]&quot;: &quot;&quot;,
    &quot;columns[5][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[6][data]&quot;: &quot;os&quot;,
    &quot;columns[6][name]&quot;: &quot;&quot;,
    &quot;columns[6][searchable]&quot;: &quot;true&quot;,
    &quot;columns[6][orderable]&quot;: &quot;true&quot;,
    &quot;columns[6][search][value]&quot;: &quot;&quot;,
    &quot;columns[6][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[7][data]&quot;: &quot;lastUpdate&quot;,
    &quot;columns[7][name]&quot;: &quot;&quot;,
    &quot;columns[7][searchable]&quot;: &quot;true&quot;,
    &quot;columns[7][orderable]&quot;: &quot;true&quot;,
    &quot;columns[7][search][value]&quot;: &quot;&quot;,
    &quot;columns[7][search][regex]&quot;: &quot;false&quot;,
    &quot;columns[8][data]&quot;: &quot;inSync&quot;,
    &quot;columns[8][name]&quot;: &quot;&quot;,
    &quot;columns[8][searchable]&quot;: &quot;true&quot;,
    &quot;columns[8][orderable]&quot;: &quot;true&quot;,
    &quot;columns[8][search][value]&quot;: &quot;&quot;,
    &quot;columns[8][search][regex]&quot;: &quot;false&quot;,
    &quot;order[0][column]&quot;: &quot;0&quot;,
    &quot;order[0][dir]&quot;: &quot;asc&quot;,
    &quot;start&quot;: &quot;0&quot;,
    &quot;length&quot;: &quot;100&quot;,
    &quot;search[value]&quot;: &quot;&quot;,
    &quot;search[regex]&quot;: &quot;false&quot;,
    &quot;_&quot;: time.time()
}
headers = {
    &quot;User-Agent&quot;: &quot;Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48&quot;,
    &quot;Accept&quot;: &quot;application/json, text/javascript, */*; q=0.01&quot;,
    &quot;X-Requested-With&quot;: &quot;XMLHttpRequest&quot;,
}
data = requests.get(url, headers=headers, params=payload).json()[&quot;data&quot;]
df = pd.DataFrame(data)
df.to_csv(&quot;nodes.csv&quot;, index=False)

Output:

And if all you need is the hosts IPs add this:

hosts = df[&quot;host&quot;].values
with open(&quot;hosts.txt&quot;, &quot;w&quot;) as f:
    f.write(&quot;\n&quot;.join(hosts))

Then you can

$ cat hosts.txt

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

如何使用Python3从网站提取表格

问题

答案1

在Python的IDLE Shell中可以清除屏幕吗？

从数据框的每个组/ID中从底部删除行。

TypeError: WebDriver.init() got multiple values for argument ‘options’

从使用zip创建的元组列表中删除浮点数的重复项。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。