0

0

优化BeautifulSoup选择器:避免网络爬虫返回空数据

碧海醫心

碧海醫心

发布时间:2025-10-11 13:30:37

|

396人浏览过

|

来源于php中文网

原创

优化BeautifulSoup选择器:避免网络爬虫返回空数据

本教程旨在解决使用beautifulsoup进行网页抓取时遇到的常见“空列表”问题。核心在于指导用户如何通过精确的css选择器定位目标数据,避免因选择器不当导致`find()`或`find_all()`返回`none`。文章将详细解析错误原因,并提供一个优化的解决方案,通过遍历文章容器来稳定提取新闻标题和内容,确保数据抓取的准确性和可靠性。

理解问题:为何列表为空?

在使用BeautifulSoup进行网页数据抓取时,一个常见的问题是最终得到一个空列表。这通常不是因为网页没有数据,而是因为我们的选择器未能准确地定位到目标元素。

以以下原始代码为例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
    articles = soup.find('div', class_=['news-card-content', 'news-right-box'])

    if headlines and articles and len(headlines) == len(articles):
        news_articles = [
            {
                'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
                'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
                'news_category': news_category
            }
            for headline, article in zip(headlines, articles)
        ]
        news_data.extend(news_articles)

print(news_data)

这段代码尝试通过soup.find('div', class_=['news-card-title', 'news-right-box'])和soup.find('div', class_=['news-card-content', 'news-right-box'])来获取新闻标题和文章内容。然而,问题在于soup.find()方法只会返回第一个匹配的元素,如果找不到则返回None。更重要的是,这里使用的class_参数期望的是一个字符串或一个列表,但find方法返回的单个元素(如果找到)或None,当它们是None时,随后的条件if headlines and articles将评估为假,导致news_data保持为空。即使找到了单个元素,len(headlines)或len(articles)也会报错,因为None或单个Tag对象不具备len()属性。

正确的做法是使用find_all()来获取所有匹配的元素列表,但即使如此,如果选择器不够精确,也可能导致列表为空或包含非预期的元素。

核心挑战:选择器的精确性

网页结构复杂多变,选择器是定位元素的关键。一个好的选择器应该足够具体,能够唯一或准确地标识出目标元素。当find()或find_all()返回空结果时,通常意味着:

  1. 选择器不匹配: 提供的类名、ID、标签等与HTML结构不符。
  2. 选择器过于宽泛: 选择了包含目标元素的父级容器,但未能进一步深入到具体的数据点。
  3. 动态加载内容: 目标内容是通过JavaScript动态加载的,BeautifulSoup无法直接解析。

对于本例,问题在于news-card-title和news-right-box等类名可能并非直接对应新闻标题和内容的独立容器,或者它们被用于更复杂的布局中,导致直接查找它们无法获取到所有新闻条目。

解决方案:利用CSS选择器精准定位数据

为了解决上述问题,我们可以采用更强大的CSS选择器来精准定位数据。BeautifulSoup提供了select()和select_one()方法,它们允许我们使用CSS选择器语法来查找元素,这在处理复杂网页结构时非常有效。

核心思路是:

灵机语音
灵机语音

灵机语音

下载
  1. 定位单个文章容器: 找到每个独立新闻文章的父级容器。通常这些容器会有一些独特的属性(如itemtype、特定的class或id)。
  2. 遍历容器: 对每个文章容器进行迭代。
  3. 在容器内部提取数据: 在每个文章容器内部,使用更具体的CSS选择器来提取标题、内容等信息。

以下是优化后的代码示例:

import requests
from bs4 import BeautifulSoup

url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,     like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)

if data.status_code == 200:
    soup = BeautifulSoup(data.content, 'html.parser')

    # 使用CSS选择器定位所有新闻文章的父级容器
    # [itemtype="http://schema.org/NewsArticle"] 是一种属性选择器,
    # 用于匹配所有具有指定itemtype属性的元素,这通常是新闻文章的语义化标记
    for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
        # 在每个文章容器内部,使用select_one定位标题和内容
        # itemprop="headline" 和 itemprop="articleBody" 是微数据属性,
        # 用于语义化地标记新闻标题和文章主体
        headline_element = article_container.select_one('[itemprop="headline"]')
        article_body_element = article_container.select_one('[itemprop="articleBody"]')

        news_headline = headline_element.get_text(strip=True) if headline_element else None
        news_article = article_body_element.get_text(strip=True) if article_body_element else None

        if news_headline and news_article: # 确保提取到了有效数据
            news_data.append(
                {
                    'news_headline': news_headline,
                    'news_article': news_article,
                    'news_category': news_category
                }
            )

print(news_data)

代码解析与最佳实践

  1. 定位文章容器:soup.select('[itemtype="http://schema.org/NewsArticle"]')

    • soup.select()方法接收一个CSS选择器字符串,并返回所有匹配元素的列表。
    • [itemtype="http://schema.org/NewsArticle"]是一个属性选择器,它会查找HTML中所有具有itemtype属性且其值为"http://schema.org/NewsArticle"的元素。这种选择器通常非常精确,因为它利用了网页的语义化标记。
    • 通过这种方式,我们获取了一个包含所有独立新闻文章容器的列表,为后续的迭代提供了基础。
  2. 提取子元素:article_container.select_one('[itemprop="headline"]')

    • 在for循环中,article_container代表了每一个独立的新闻文章容器。
    • select_one()方法类似于find(),但它使用CSS选择器,并且只返回第一个匹配的元素。这在确定某个元素只出现一次时非常有用(例如,一篇文章只有一个标题)。
    • [itemprop="headline"]和[itemprop="articleBody"]同样是属性选择器,它们在各自的文章容器内部查找具有这些微数据属性的元素,从而精确地获取标题和内容。
  3. 获取文本内容:element.get_text(strip=True)

    • 原始代码使用了.string来获取文本内容。然而,.string属性只有当标签内不包含其他子标签时才有效。如果标签内有<a>、<strong>等子标签,.string会返回None。
    • get_text()方法则更为健壮,它会提取标签及其所有子标签中的文本内容。
    • strip=True参数可以去除文本开头和结尾的空白字符,使提取的文本更整洁。
    • 在提取文本之前,建议添加条件判断(if headline_element else None),以防select_one未能找到元素而返回None,避免在None对象上调用get_text()引发错误。
  4. 数据结构优化:

    • 直接在循环内部构建字典,并将每个新闻条目添加到news_data列表中,这种方式逻辑清晰,易于理解和维护。

注意事项

  • 选择器调试: 在编写爬虫代码时,强烈建议使用浏览器(如Chrome、Firefox)的开发者工具来检查网页的HTML结构。通过“检查元素”功能,可以方便地查看元素的标签、类名、ID、属性等,并实时测试CSS选择器,确保它们能够准确地定位到目标数据。
  • 页面结构变化: 网站的HTML结构可能会随时更新。如果你的爬虫代码突然失效,首先应该检查目标网站的HTML结构是否发生了变化,并相应地调整你的选择器。
  • 错误处理: 即使使用了精确的选择器,也可能存在某些文章缺少特定字段(如标题或内容)的情况。在实际应用中,应加入更健壮的错误处理机制,例如使用try-except块或在提取数据后进行None值检查,以防止程序崩溃。
  • 爬虫礼仪: 在进行网页抓取时,请务必遵守网站的robots.txt协议,不要对网站造成过大负担,并注意法律法规。

总结

通过本教程,我们了解了BeautifulSoup中出现空列表的常见原因,并掌握了如何通过精确的CSS选择器和迭代父级容器的方法来解决这一问题。核心在于理解find()、find_all()、select()和select_one()的区别与适用场景,并善用get_text()来稳健地提取文本内容。掌握这些技巧将显著提升你使用BeautifulSoup进行网页抓取时的效率和成功率。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

1073

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

848

2023.11.06

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1051

2023.08.02

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

847

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 43.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号