优化BeautifulSoup选择器：避免网络爬虫返回空数据

碧海醫心

发布时间：2025-10-11 13:30:37

396人浏览过

来源于php中文网

原创

优化BeautifulSoup选择器：避免网络爬虫返回空数据

本教程旨在解决使用beautifulsoup进行网页抓取时遇到的常见“空列表”问题。核心在于指导用户如何通过精确的css选择器定位目标数据，避免因选择器不当导致`find()`或`find_all()`返回`none`。文章将详细解析错误原因，并提供一个优化的解决方案，通过遍历文章容器来稳定提取新闻标题和内容，确保数据抓取的准确性和可靠性。

理解问题：为何列表为空？

在使用BeautifulSoup进行网页数据抓取时，一个常见的问题是最终得到一个空列表。这通常不是因为网页没有数据，而是因为我们的选择器未能准确地定位到目标元素。

以以下原始代码为例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)

这段代码尝试通过soup.find('div', class_=['news-card-title', 'news-right-box'])和soup.find('div', class_=['news-card-content', 'news-right-box'])来获取新闻标题和文章内容。然而，问题在于soup.find()方法只会返回第一个匹配的元素，如果找不到则返回None。更重要的是，这里使用的class_参数期望的是一个字符串或一个列表，但find方法返回的单个元素（如果找到）或None，当它们是None时，随后的条件if headlines and articles将评估为假，导致news_data保持为空。即使找到了单个元素，len(headlines)或len(articles)也会报错，因为None或单个Tag对象不具备len()属性。

正确的做法是使用find_all()来获取所有匹配的元素列表，但即使如此，如果选择器不够精确，也可能导致列表为空或包含非预期的元素。

核心挑战：选择器的精确性

网页结构复杂多变，选择器是定位元素的关键。一个好的选择器应该足够具体，能够唯一或准确地标识出目标元素。当find()或find_all()返回空结果时，通常意味着：

选择器不匹配： 提供的类名、ID、标签等与HTML结构不符。
选择器过于宽泛： 选择了包含目标元素的父级容器，但未能进一步深入到具体的数据点。
动态加载内容： 目标内容是通过JavaScript动态加载的，BeautifulSoup无法直接解析。

对于本例，问题在于news-card-title和news-right-box等类名可能并非直接对应新闻标题和内容的独立容器，或者它们被用于更复杂的布局中，导致直接查找它们无法获取到所有新闻条目。

解决方案：利用CSS选择器精准定位数据

为了解决上述问题，我们可以采用更强大的CSS选择器来精准定位数据。BeautifulSoup提供了select()和select_one()方法，它们允许我们使用CSS选择器语法来查找元素，这在处理复杂网页结构时非常有效。

核心思路是：

灵机语音

下载

定位单个文章容器： 找到每个独立新闻文章的父级容器。通常这些容器会有一些独特的属性（如itemtype、特定的class或id）。
遍历容器： 对每个文章容器进行迭代。
在容器内部提取数据： 在每个文章容器内部，使用更具体的CSS选择器来提取标题、内容等信息。

以下是优化后的代码示例：

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # [itemtype="http://schema.org/NewsArticle"] 是一种属性选择器，
    # 用于匹配所有具有指定itemtype属性的元素，这通常是新闻文章的语义化标记
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部，使用select_one定位标题和内容
        # itemprop="headline" 和 itemprop="articleBody" 是微数据属性，
        # 用于语义化地标记新闻标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        news_headline = headline_element.get_text(strip=True) if headline_element else None
        news_article = article_body_element.get_text(strip=True) if article_body_element else None

        if news_headline and news_article: # 确保提取到了有效数据
            news_data.append(
                {
                    'news_headline': news_headline,
                    'news_article': news_article,
                    'news_category': news_category
                }
            )

print(news_data)

代码解析与最佳实践

定位文章容器：soup.select('[itemtype="http://schema.org/NewsArticle"]')
- soup.select()方法接收一个CSS选择器字符串，并返回所有匹配元素的列表。
- [itemtype="http://schema.org/NewsArticle"]是一个属性选择器，它会查找HTML中所有具有itemtype属性且其值为"http://schema.org/NewsArticle"的元素。这种选择器通常非常精确，因为它利用了网页的语义化标记。
- 通过这种方式，我们获取了一个包含所有独立新闻文章容器的列表，为后续的迭代提供了基础。
提取子元素：article_container.select_one('[itemprop="headline"]')
- 在for循环中，article_container代表了每一个独立的新闻文章容器。
- select_one()方法类似于find()，但它使用CSS选择器，并且只返回第一个匹配的元素。这在确定某个元素只出现一次时非常有用（例如，一篇文章只有一个标题）。
- [itemprop="headline"]和[itemprop="articleBody"]同样是属性选择器，它们在各自的文章容器内部查找具有这些微数据属性的元素，从而精确地获取标题和内容。
获取文本内容：element.get_text(strip=True)
- 原始代码使用了.string来获取文本内容。然而，.string属性只有当标签内不包含其他子标签时才有效。如果标签内有<a>、<strong>等子标签，.string会返回None。
- get_text()方法则更为健壮，它会提取标签及其所有子标签中的文本内容。
- strip=True参数可以去除文本开头和结尾的空白字符，使提取的文本更整洁。
- 在提取文本之前，建议添加条件判断（if headline_element else None），以防select_one未能找到元素而返回None，避免在None对象上调用get_text()引发错误。
数据结构优化：
- 直接在循环内部构建字典，并将每个新闻条目添加到news_data列表中，这种方式逻辑清晰，易于理解和维护。

注意事项

选择器调试： 在编写爬虫代码时，强烈建议使用浏览器（如Chrome、Firefox）的开发者工具来检查网页的HTML结构。通过“检查元素”功能，可以方便地查看元素的标签、类名、ID、属性等，并实时测试CSS选择器，确保它们能够准确地定位到目标数据。
页面结构变化： 网站的HTML结构可能会随时更新。如果你的爬虫代码突然失效，首先应该检查目标网站的HTML结构是否发生了变化，并相应地调整你的选择器。
错误处理： 即使使用了精确的选择器，也可能存在某些文章缺少特定字段（如标题或内容）的情况。在实际应用中，应加入更健壮的错误处理机制，例如使用try-except块或在提取数据后进行None值检查，以防止程序崩溃。
爬虫礼仪： 在进行网页抓取时，请务必遵守网站的robots.txt协议，不要对网站造成过大负担，并注意法律法规。

总结

通过本教程，我们了解了BeautifulSoup中出现空列表的常见原因，并掌握了如何通过精确的CSS选择器和迭代父级容器的方法来解决这一问题。核心在于理解find()、find_all()、select()和select_one()的区别与适用场景，并善用get_text()来稳健地提取文本内容。掌握这些技巧将显著提升你使用BeautifulSoup进行网页抓取时的效率和成功率。

如何精准提取政府网站正文内容并剔除冗余页眉文本

Python爬虫入门_requests库使用

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接