2023年4月17日 20:44:28go评论171阅读模式

英文:

Beautiful Soup Web Scraping - href

问题

我想提取HTML中的"href"部分（例如，示例中的网址链接：https://storelocator.homebargains.co.uk/store/A779/Quedgeley+Retail+Park,+Gloucester）。有没有办法获取它？

import requests
from bs4 import BeautifulSoup

url = "https://storelocator.homebargains.co.uk/all-stores"
soup = BeautifulSoup(requests.get(url).text, "html.parser")

info = soup.find("td")

print(info)

英文:

I have the following code:

I want to extract the "href" bit from the html (e.g. the web link: https://storelocator.homebargains.co.uk/store/A779/Quedgeley+Retail+Park,+Gloucester) in this example. Any idea how I'd grab that?

import requests
from bs4 import BeautifulSoup

url = &quot;https://storelocator.homebargains.co.uk/all-stores&quot;
soup = BeautifulSoup(requests.get(url).text, &quot;html.parser&quot;)

info = soup.find(&quot;td&quot;)

print(info)

答案1

得分: 0

from bs4 import BeautifulSoup
import requests

BASE_URL = "https://storelocator.homebargains.co.uk"
STORES = f"{BASE_URL}/all-stores"
soup = BeautifulSoup(requests.get(STORES).text, "html.parser")

for a in soup.find_all("a", href=True):
    if a["href"].startswith("/store"):
        print(f"Text: {a.text} - URL: {BASE_URL}{a['href']}")

英文:

Something like this could do.

from bs4 import BeautifulSoup
import requests

BASE_URL = &quot;https://storelocator.homebargains.co.uk&quot;
STORES = f&quot;{BASE_URL}/all-stores&quot;
soup = BeautifulSoup(requests.get(STORES).text, &quot;html.parser&quot;)

for a in soup.find_all(&quot;a&quot;, href=True):
    if a[&quot;href&quot;].startswith(&quot;/store&quot;):
        print(f&quot;Text: {a.text} - URL: {BASE_URL}{a[&#39;href&#39;]}&quot;)

答案2

得分: 0

你可以使用css selectors来获取所有商店链接，通过选择它们的特定位置避免重复：

[ 'https://storelocator.homebargains.co.uk'+a.get('href') for a in soup.select('tr td:first-of-type.store a')]

或者使用set comprehension：

set('https://storelocator.homebargains.co.uk'+a.get('href') for a in soup.select('tr td.store a'))

提取href可以使用get('href')。

示例

import requests
from bs4 import BeautifulSoup

url = "https://storelocator.homebargains.co.uk/all-stores"
soup = BeautifulSoup(requests.get(url).text, "html.parser")

['https://storelocator.homebargains.co.uk'+a.get('href') for a in soup.select('tr td:first-of-type.store a')]

输出

['https://storelocator.homebargains.co.uk/store/A779/Quedgeley+Retail+Park,+Gloucester',
 'https://storelocator.homebargains.co.uk/store/A794/Wren+Retail+Park,+Torquay;+Torquay',
 'https://storelocator.homebargains.co.uk/store/A816/Blairgowrie',
 'https://storelocator.homebargains.co.uk/store/A270/Boulevard+Retail+Park,+Aberdeen',
 'https://storelocator.homebargains.co.uk/store/A277/Inverurie+Retail+Park,+Oldeldrum+Road',
 'https://storelocator.homebargains.co.uk/store/A708/Berryden+Retail+Park,+Aberdeen',
 'https://storelocator.homebargains.co.uk/store/A616/Bridge+of+Don+Retail+Park,+Denmore+Road,+Bridge+of+Don',
 'https://storelocator.homebargains.co.uk/store/A433/Westhill+Shopping+Centre,+Aberdeen',
 'https://storelocator.homebargains.co.uk/store/A131/Eastgate+Retail+Park,+Accrington',
 'https://storelocator.homebargains.co.uk/store/A349/Graham+Street,+Airdrie',
 'https://storelocator.homebargains.co.uk/store/A128/Rookery+Parade,+Aldridge,+West+Midlands',
 'https://storelocator.homebargains.co.uk/store/A136/Institute+Lane,+Alfreton',...]

英文:

You could use css selectors to get all the links to the stores avoiding duplicates by selecting them specific:

[&#39;https://storelocator.homebargains.co.uk&#39;+a.get(&#39;href&#39;) for a in soup.select(&#39;tr td:first-of-type.store a&#39;)]

or use a set comprehension:

set(&#39;https://storelocator.homebargains.co.uk&#39;+a.get(&#39;href&#39;) for a in soup.select(&#39;tr td.store a&#39;))

To extract the href you could use get('href').

Example

import requests
from bs4 import BeautifulSoup

url = &quot;https://storelocator.homebargains.co.uk/all-stores&quot;
soup = BeautifulSoup(requests.get(url).text, &quot;html.parser&quot;)

[&#39;https://storelocator.homebargains.co.uk&#39;+a.get(&#39;href&#39;) for a in soup.select(&#39;tr td:first-of-type.store a&#39;)]

Output

[&#39;https://storelocator.homebargains.co.uk/store/A779/Quedgeley+Retail+Park,+Gloucester&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A794/Wren+Retail+Park,+Torquay;+Torquay&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A816/Blairgowrie&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A270/Boulevard+Retail+Park,+Aberdeen&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A277/Inverurie+Retail+Park,+Oldeldrum+Road&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A708/Berryden+Retail+Park,+Aberdeen&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A616/Bridge+of+Don+Retail+Park,+Denmore+Road,+Bridge+of+Don&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A433/Westhill+Shopping+Centre,+Aberdeen&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A131/Eastgate+Retail+Park,+Accrington&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A349/Graham+Street,+Airdrie&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A128/Rookery+Parade,+Aldridge,+West+Midlands&#39;,
 &#39;https://storelocator.homebargains.co.uk/store/A136/Institute+Lane,+Alfreton&#39;,...]

通过集体智慧和协作来改善编程学习和解决问题的方式。致力于成为全球开发者共同参与的知识库，让每个人都能够通过互相帮助和分享经验来进步。

Beautiful Soup 网页抓取 – href

问题

答案1

答案2

示例

输出

Example

Output

如何提取ROI掩模内的光谱范围？

导入命名元组和映射时出现错误

Django ORM如何在WHERE语句中执行聚合子查询？

无法使用shareplum将列表项“添加”到SharePoint列表。

What's the correct way to type hint an empty list as a literal in python?

如何在Highcharts Gantt中更改本地化的星期名称

如何在同一个流中使用多个过滤器和映射函数？

如何使用Map/Set来将代码优化到O(n)？

.NET MAUI Android在GitHub Actions上构建失败，错误代码为1。

如何在Playwright视觉比较中屏蔽多个定位器？

在C++中，可以使用可变模板参数来检索类型的内部类型。

selenium.common.exceptions.StaleElementReferenceException: Message: stale element reference: stale element not found

Creating and opening a URL to log in to Website via Basic Auth with Robot Framework/Selenium (Python)

AG Grid 在上下文菜单中以大文本形式打开

发表评论