如何正确抓取动态渲染网页的标题（如AniList）

花韻仙語

发布时间：2026-03-01 17:57:18

358人浏览过

来源于php中文网

原创

如何正确抓取动态渲染网页的标题（如AniList）

本文详解为何传统php dom解析无法获取javascript动态更新的页面标题，并提供基于api调用与无头浏览器的两种可靠解决方案，附完整代码示例与实践建议。

本文详解为何传统php dom解析无法获取javascript动态更新的页面标题，并提供基于api调用与无头浏览器的两种可靠解决方案，附完整代码示例与实践建议。

在开发网页信息提取功能时，许多开发者会使用 file_get_contents() + DOMDocument 的方式解析 HTML 并提取

或 Open Graph 标签（如 <meta property="og:title">）。这种方式对静态网站（如早期 MyAnimeList）效果良好，但面对现代前端框架构建的单页应用（SPA），例如 <a href="https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08" rel="nofollow" target="_blank">AniList</a>，它往往失效——你得到的不是动画实际名称（如 "Pokémon"），而是站点默认标题 "AniList"。<p>根本原因在于：<strong>AniList 使用 Vue.js 在客户端动态注入内容并修改 <title> 和 og:title 标签。当你用 PHP 的 file_get_contents_curl() 获取原始 HTML 时，拿到的是未执行 JS 的“骨架页面”，此时尚未被 Vue 渲染引擎填充（或仍为占位值），而 data-vue-meta="true" 正是 Vue Meta 插件的典型标记，印证了该行为。

✅ 正确方案一：优先调用官方 API（推荐）

AniList 提供稳定、结构化且无需渲染的 GraphQL API，可精准获取动画元数据：

function getAniListTitleById($animeId) {
    $query = 'query ($id: Int!) { Media(id: $id, type: ANIME) { title { romaji english native } } }';
    $variables = ['id' => (int)$animeId];

    $payload = json_encode(['query' => $query, 'variables' => $variables]);
    $ch = curl_init('https://graphql.anilist.co');
    curl_setopt_array($ch, [
        CURLOPT_RETURNTRANSFER => true,
        CURLOPT_POST => true,
        CURLOPT_POSTFIELDS => $payload,
        CURLOPT_HTTPHEADER => ['Content-Type: application/json'],
    ]);

    $response = curl_exec($ch);
    curl_close($ch);

    $data = json_decode($response, true);
    if (isset($data['data']['Media']['title']['romaji'])) {
        return $data['data']['Media']['title']['romaji']; // e.g. "Pocket Monsters"
    }
    return $data['data']['Media']['title']['english'] ?? 'Unknown Title';
}

// 示例：https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08/anime/527/Pocket-Monsters/
echo getAniListTitleById(527); // 输出：Pocket Monsters

✅ 优势：响应快、稳定性高、免反爬、支持批量查询、字段语义清晰（含多语言标题）。
⚠️ 注意：需解析 URL 中的 ID（如 /anime/527/ → 527），可借助正则 #\/anime\/(\d+)\/# 提取。

✅ 正确方案二：服务端渲染（SSR）/无头浏览器

若必须从任意 URL（非 AniList）提取最终渲染后标题，需模拟真实浏览器环境。推荐使用轻量级无头方案，如 Puppeteer（Node.js）或其 PHP 封装（如 spatie/browsershot）：

动态WEB网站中的PHP和MySQL：直观的QuickPro指南第2版

动态WEB网站中的PHP和MySQL详细反映实际程序的需求，仔细地探讨外部数据的验证(例如信用卡卡号的格式)、用户登录以及如何使用模板建立网页的标准外观。动态WEB网站中的PHP和MySQL的内容不仅仅是这些。书中还提到如何串联JavaScript与PHP让用户操作时更快、更方便。还有正确处理用户输入错误的方法，让网站看起来更专业。另外还引入大量来自PEAR外挂函数库的强大功能，对常用的、强大的包

下载

composer require spatie/browsershot

use Spatie\Browsershot\Browsershot;

function getTitleFromRenderedPage($url) {
    try {
        // 截图非必需，此处仅等待 JS 执行完成并提取 document.title
        $title = Browsershot::url($url)
            ->setOption('waitUntil', 'networkidle0')
            ->evaluate("document.title");
        return trim($title);
    } catch (\Exception $e) {
        return 'Failed to render page: ' . $e->getMessage();
    }
}

echo getTitleFromRenderedPage('https://www.php.cn/link/84a98e9bea194d59e442e2be756a2e08/anime/527/Pocket-Monsters/');
// 输出：Pokémon —— 真实浏览器最终呈现的标题

⚠️ 注意事项：

需部署 Chrome/Chromium 环境，增加服务器资源开销；
响应延迟显著高于 API 方案（通常 1–3 秒）；
频繁请求可能触发风控，建议添加合理限速与 User-Agent。

❌ 为什么原代码失效？关键总结

环节	原代码行为	实际问题
数据获取	file_get_contents_curl() 仅拉取初始 HTML	未执行 JS，og:title 为空或为默认值
DOM 解析	DOMDocument::loadHTML() 解析静态结构	无法感知运行时 DOM 变更
判断逻辑	依赖 property="og:title" 属性存在即取值	属性虽存在，但 content 值尚未被 JS 填充

? 核心结论：对于任何依赖客户端 JavaScript 渲染关键元信息的网站（如 AniList、React/Vue/Angular 应用），纯服务端 HTML 解析注定失败。务必转向 API 优先策略；若无 API，则必须引入浏览器环境。

选择方案时，请始终遵循：有 API → 用 API；无 API → 用无头浏览器；绝不依赖静态 HTML 抓取动态标题。

相关专题

Python GraphQL API 开发实战

本专题系统讲解 Python 在 GraphQL API 开发中的实际应用，涵盖 GraphQL 基础概念、Schema 设计、Query 与 Mutation 实现、权限控制、分页与性能优化，以及与现有 REST 服务和数据库的整合方式。通过完整示例，帮助学习者掌握使用 Python 构建高扩展性、前后端协作友好的 GraphQL 接口服务，适用于中大型应用与复杂数据查询场景。

2026.01.21

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1010

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

812

2023.11.06

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

528

2023.06.20

js获取当前时间

JS全称JavaScript，是一种具有函数优先的轻量级，解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言，主要用于Web，常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢？php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

494

2023.07.28

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

658

2023.08.03

js是什么意思

JS是JavaScript的缩写，它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言，通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果，如表单验证、页面元素操作、动画效果、数据交互等。

5858

2023.08.17

js删除节点的方法

js删除节点的方法有：1、removeChild()方法，用于从父节点中移除指定的子节点，它需要两个参数，第一个参数是要删除的子节点，第二个参数是父节点；2、parentNode.removeChild()方法，可以直接通过父节点调用来删除子节点；3、remove()方法，可以直接删除节点，而无需指定父节点；4、innerHTML属性，用于删除节点的内容。

492

2023.09.01

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板