
本文将介绍如何使用 Python 的 `requests` 和 `re` 模块递归地提取网站上的所有链接。通过改进原始代码,解决了无限循环的问题,并添加了最大深度限制,确保程序能够有效地抓取链接,避免陷入死循环。同时,代码进行了优化,提高了可读性和可维护性。
网络爬虫是一种自动浏览互联网并提取信息的程序。递归爬虫通过不断访问链接来发现新的链接,直到达到预定的深度或满足特定条件。在 Python 中,我们可以使用 requests 库来获取网页内容,re 库来提取链接。
以下是一个改进后的 Python 脚本,用于递归提取网站上的所有链接:
import requests
import re
from urllib.parse import urljoin, urlparse
def extract_links_from(url):
"""
从给定的 URL 中提取所有 href 链接。
"""
try:
response = requests.get(url, timeout=5) # 添加超时时间
if response.status_code != 200:
print(f"Error: Status code {response.status_code} for {url}")
return []
content = str(response.content, 'utf-8', errors='ignore') # 指定编码,忽略错误
links = re.findall(r'(?:href=")(.*?)"', content, re.MULTILINE)
return links
except requests.exceptions.RequestException as e:
print(f"Error fetching {url}: {e}")
return []
def crawl(url, domain, visited=set(), max_depth=5):
"""
递归地爬取网站链接。
Args:
url: 起始 URL。
domain: 网站域名,用于过滤外部链接。
visited: 已经访问过的 URL 集合,防止重复访问。
max_depth: 最大递归深度。
Returns:
所有提取到的链接列表。
"""
if max_depth == 0 or url in visited:
return []
visited.add(url)
href_links = extract_links_from(url)
links_list = []
for link in href_links:
link = urljoin(url, link.split("#")[0]) # 处理锚点链接
parsed_link = urlparse(link)
if parsed_link.netloc == domain and link not in visited:
links_list.append(link)
links_list.extend(crawl(link, domain, visited, max_depth - 1))
return links_list
# 示例用法
target_url = "https://www.free-power-point-templates.com/"
parsed_url = urlparse(target_url)
domain = parsed_url.netloc
result = crawl(target_url, domain)
# 去重
result = list(set(result))
print(result)本文介绍了如何使用 Python 的 requests 和 re 模块递归地提取网站上的所有链接。通过添加终止条件、使用 visited 集合、处理异常和设置最大深度,可以有效地解决无限循环的问题,并确保程序能够正确地抓取链接。在实际应用中,请务必遵守网站的爬取规则,并合理设置爬取频率,以免给服务器带来不必要的负担。
立即学习“Python免费学习笔记(深入)”;
以上就是使用 Python 递归提取网站所有链接的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号