0

0

Python requests_html 爬取多语言网站内容与翻译策略

花韻仙語

花韻仙語

发布时间:2025-11-22 14:15:11

|

501人浏览过

|

来源于php中文网

原创

Python requests_html 爬取多语言网站内容与翻译策略

本教程探讨使用 `requests_html` 爬取多语言网站时,`accept-language` 请求头可能存在的局限性。当服务器未按预期返回指定语言内容时,我们引入 `googletrans` 库作为有效的后处理解决方案。文章将详细指导如何安装 `googletrans`,并结合 `requests_html` 抓取到的文本进行实时翻译,确保获取目标语言数据。

在进行网页内容爬取时,我们经常会遇到需要获取特定语言版本内容的需求。尽管 HTTP 协议提供了 Accept-Language 请求头来告知服务器客户端的语言偏好,但在实际操作中,这一机制并非总是奏效。本教程将深入探讨 Accept-Language 的工作原理及其局限性,并提供一个实用的解决方案:利用 googletrans 库对爬取到的文本进行后处理翻译。

Accept-Language 请求头的工作原理与局限性

Accept-Language 是一个 HTTP 请求头,客户端(如浏览器爬虫)通过它向服务器声明其偏好的语言列表,并可以指定优先级。例如,Accept-Language: en,zh-CN;q=0.9,zh;q=0.8 表示客户端首选英语,其次是简体中文,然后是任何中文。服务器在接收到此请求头后,会尝试返回与其内容管理系统中最匹配的语言版本。

然而,Accept-Language 并非强制性指令,其局限性主要体现在以下几点:

  1. 服务器支持度: 网站服务器可能不提供请求语言版本的内容。
  2. 服务器实现: 即使提供了多语言内容,服务器也可能选择忽略 Accept-Language 头,或者其内容协商机制未按预期工作。
  3. 动态内容: 对于某些动态生成或通过 JavaScript 加载的内容,Accept-Language 可能无法直接影响其显示语言。
  4. 内容默认语言: 许多网站有默认语言,即使设置了 Accept-Language,也可能优先返回默认语言内容。

因此,当我们在使用 requests_html 这样的库进行爬取时,即使在请求头中设置了 {"Accept-Language": "en"},也可能仍然获取到服务器的默认语言(例如阿拉伯语),而非期望的英语内容。在这种情况下,我们需要采取额外的步骤来确保获取到目标语言的数据。

立即学习Python免费学习笔记(深入)”;

解决方案:利用 googletrans 库进行文本翻译

当通过 Accept-Language 无法直接获取到目标语言内容时,最可靠的方法是对已经爬取到的文本进行翻译。googletrans 是一个流行的 Python 库,它提供了一个非官方的 Google Translate API 接口,可以方便地实现文本翻译功能。

安装 googletrans 库

在开始使用 googletrans 之前,需要先通过 pip 安装它。请注意,googletrans 的最新版本可能处于预发布阶段,或者在不同环境下表现不一,因此可能需要尝试不同的版本。

推荐安装最新预发布版本:

pip install googletrans==4.0.0-rc1

如果 4.0.0-rc1 版本出现问题,可以尝试安装较稳定的 3.0.0 版本:

OmniAudio
OmniAudio

OmniAudio 是一款通过 AI 支持将网页、Word 文档、Gmail 内容、文本片段、视频音频文件都转换为音频播客,并生成可在常见 Podcast ap

下载
pip uninstall googletrans==4.0.0-rc1 # 如果已安装 rc1,先卸载
pip install googletrans==3.0.0

选择适合您环境的版本进行安装。

集成与使用示例

下面我们将展示如何将 googletrans 与 requests_html 结合使用,以爬取网页标题并将其翻译成英文。

首先,定义一个辅助函数来处理文本翻译:

from googletrans import Translator

def translate_text(text, dest_lang='en', src_lang='auto'):
    """
    使用 Google Translate 翻译文本。
    :param text: 要翻译的文本。
    :param dest_lang: 目标语言代码(默认为 'en')。
    :param src_lang: 源语言代码(默认为 'auto',自动检测)。
    :return: 翻译后的文本,如果翻译失败则返回原始文本。
    """
    try:
        translator = Translator()
        translated = translator.translate(text, dest=dest_lang, src=src_lang)
        return translated.text
    except Exception as e:
        print(f"翻译失败: {e}")
        return text # 翻译失败时返回原始文本,避免程序中断

接下来,将其集成到 requests_html 的爬取流程中:

from requests_html import HTMLSession
from googletrans import Translator
import requests # 导入 requests 库以保持与原始问题的兼容性,但更推荐使用 session.get

# 辅助翻译函数(如上所示)
def translate_text(text, dest_lang='en', src_lang='auto'):
    try:
        translator = Translator()
        translated = translator.translate(text, dest=dest_lang, src=src_lang)
        return translated.text
    except Exception as e:
        print(f"翻译失败: {e}")
        return text

def scrape_and_translate(url):
    # 尝试设置 Accept-Language,但认识到其局限性
    headers = {"Accept-Language": "en"}

    session = HTMLSession()

    # 使用 requests_html 的 session.get 方法,它返回的 response 对象具有 .html 属性
    try:
        response = session.get(url, headers=headers)
        response.raise_for_status() # 检查请求是否成功

        # 尝试查找网页的 <title> 元素
        title_element = response.html.find('title', first=True)
        original_title_text = title_element.text if title_element else '标题未找到'

        print(f"原始标题: {original_title_text}")

        # 如果标题存在,则进行翻译
        if original_title_text != '标题未找到':
            translated_title = translate_text(original_title_text, dest_lang='en')
            print(f"翻译后的标题: {translated_title}")
        else:
            print("未找到可翻译的标题。")

        # 示例:如果您需要查找其他元素并翻译,可以类似操作
        # 例如,查找一个商品名称的div(假设其class为'product-name')
        # product_name_element = response.html.find('div.product-name', first=True)
        # if product_name_element:
        #     product_name_text = product_name_element.text
        #     translated_product_name = translate_text(product_name_text, dest_lang='en')
        #     print(f"原始商品名称: {product_name_text}")
        #     print(f"翻译后的商品名称: {translated_product_name}")

    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
    except Exception as e:
        print(f"发生未知错误: {e}")


if __name__ == "__main__":
    target_url = 'https://pcpalace.com.sa/products/ASUS-Vivobook-GO-E1504GA'
    scrape_and_translate(target_url)

在这个示例中:

  1. 我们首先定义了一个 translate_text 函数来封装 googletrans 的翻译逻辑,并加入了错误处理。
  2. 使用 HTMLSession().get(url, headers=headers) 来发起请求,这样返回的 response 对象就包含了 .html 属性,可以直接使用 response.html.find() 方法来定位元素。
  3. 通过 response.html.find('title', first=True) 找到 title 元素,并提取其文本。
  4. 调用 translate_text 函数将提取到的原始标题翻译成英文,并打印原始和翻译后的结果。

注意事项与最佳实践

在使用 googletrans 进行文本翻译时,需要注意以下几点以确保代码的健壮性和效率:

  1. googletrans 版本选择: googletrans 是一个非官方库,其 API 可能会随 Google Translate 服务的变化而更新。因此,某个版本可能在一段时间后失效。如果遇到翻译失败或错误,尝试切换到其他版本(如 4.0.0-rc1 或 3.0.0)通常能解决问题。
  2. 错误处理: 翻译过程中可能会遇到网络问题、API 限制或服务不稳定等情况。在 translate_text 函数中加入 try-except 块至关重要,它可以捕获异常并优雅地处理,例如返回原始文本而不是让程序崩溃。
  3. 速率限制: googletrans 通过模拟浏览器行为来访问 Google Translate 服务,因此可能会受到速率限制。对于大规模的翻译任务,频繁的请求可能会导致 IP 被临时封禁或返回错误。在这种情况下,考虑增加请求之间的延迟(time.sleep())或使用代理 IP 池。
  4. 性能考量: 文本翻译是一个计算密集型和网络密集型的操作。如果需要翻译大量文本,这会显著增加爬虫的运行时间和资源消耗。对于性能要求极高的场景,可能需要考虑使用 Google Cloud Translation API 等官方付费服务,它们提供更稳定、高效且具有更高配额的翻译能力。
  5. 源语言指定: 尽管 googletrans 能够自动检测源语言 (src_lang='auto'),但在某些情况下,明确指定源语言(例如 src_lang='ar')可以提高翻译的准确性和效率,特别是当文本内容较短或语言混合时。

总结

Accept-Language 请求头在多语言网站爬取中提供了初步的语言偏好设置,但其效果受限于服务器的实现和支持。当仅依赖 Accept-Language 无法满足需求时,利用 googletrans 这样的第三方库对爬取到的文本进行后处理翻译,提供了一个强大而灵活的解决方案。通过本文介绍的方法,您可以有效地获取并处理多语言网站的内容,确保数据符合您的语言需求。在实际应用中,请务必注意库的版本兼容性、错误处理以及潜在的速率限制问题。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
pip安装使用方法
pip安装使用方法

安装步骤:1、确保Python已经正确安装在您的计算机上;2、下载“get-pip.py”脚本;3、按下Win + R键,然后输入cmd并按下Enter键来打开命令行窗口;4、在命令行窗口中,使用cd命令切换到“get-pip.py”所在的目录;5、执行安装命令;6、验证安装结果即可。大家可以访问本专题下的文章,了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本
更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容,请阅读专题下面的文章。

437

2024.12.20

pip设置清华源
pip设置清华源

设置方法:1、打开终端或命令提示符窗口;2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件;3、打开pip.conf文件,然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容,这将把pip的镜像源设置为清华大学的镜像源;4、保存并关闭文件即可。

803

2024.12.23

python升级pip
python升级pip

本专题整合了python升级pip相关教程,阅读下面的文章了解更多详细内容。

371

2025.07.23

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1971

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

658

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2406

2025.12.29

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

47

2026.01.19

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.5万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号