火车头采集Ajax动态加载数据需五步:一、捕获模拟API请求并JSON解析;二、启用浏览器引擎等待渲染后提取;三、正则提取HTML内联JS数据;四、构造参数化URL批量请求;五、处理动态Token/签名验证。

如果您在使用火车头采集器时发现页面内容为空或仅采集到骨架结构,很可能是目标网站采用Ajax动态加载数据,原始HTML中不包含最终展示的内容。以下是处理Ajax动态加载数据的具体步骤:
一、捕获并模拟Ajax接口请求
许多动态网页通过XMLHttpRequest或Fetch调用后端API获取JSON数据,直接请求该接口可绕过前端渲染,获得结构化、高稳定性的原始数据。
1、在目标页面按F12打开浏览器开发者工具,切换至“Network”选项卡。
2、刷新页面后,在筛选栏输入“XHR”或“Fetch”,滚动页面触发加载,定位返回JSON格式数据的请求链接。
3、点击该请求,查看Headers中的Request URL、Method(GET/POST)、Referer、User-Agent及Cookie等关键字段。
4、若为POST请求,还需在Payload或Request Payload中复制表单参数(如page=1、token=xxx)。
5、在火车头中新建任务,将采集地址设为该API URL;在“高级采集”中选择对应请求方式,并粘贴请求头与参数。
6、在内容规则中启用JSON解析,使用json(字段名)语法提取title、content、author等嵌套字段。
二、启用内置浏览器引擎执行JavaScript
当Ajax请求被封装在复杂JS逻辑中,或需用户交互(如点击“加载更多”)才能触发时,必须依赖真实浏览器环境完成页面渲染与脚本执行。
1、在火车头采集任务设置中,将“下载方式”切换为PhantomJS、Headless Chrome或Edge内核模式。
2、进入“采集设置→高级选项”,启用“等待指定元素出现”,填写一个在Ajax内容加载完成后才存在的CSS选择器(例如.main-content ul li)。
3、设定最大等待时间(建议20–45秒),防止因网络延迟导致超时中断。
4、在内容规则配置界面,使用鼠标选取工具框选已渲染完成的目标数据区域,自动生成XPath或CSS提取规则。
5、对分批加载的瀑布流内容,勾选“循环匹配”并设置容器范围,确保每条动态插入的记录均被独立识别。
三、利用正则表达式提取内联JavaScript数据
部分网站虽使用Ajax,但初始HTML中已将数据以变量形式写入
1、右键网页空白处选择“查看网页源代码”,搜索关键词如__INITIAL_DATA__、window\.DATA、var\s+\w+\s*=\s*(\{|\[)。
2、确认目标数据块完整包裹在一对大括号{}或中括号[]内,且未被截断。
3、在火车头内容规则中,将整个
4、添加正则表达式规则:var __INITIAL_DATA__ = (\{[\s\S]*?\});,启用“多行匹配”与“贪婪匹配”选项。
5、将提取出的JSON字符串交由JSON解析插件进一步拆解,映射至标题、正文、发布时间等字段。
四、构造带参数的动态URL批量请求
针对页码、时间戳、偏移量等作为URL参数控制Ajax加载的场景,可通过变量替换机制生成连续请求地址,实现自动化遍历。
1、分析目标接口URL规律,例如https://api.example.com/list?offset=0&limit=20、https://api.example.com/v2/posts?page=2&_t=1705238400。
2、在火车头“分页设置”中选择“正则增量”或“自定义分页”,输入模板URL并标注变量占位符,如https://api.example.com/list?offset={0-2000|20}。
3、设置起始值为0,步长为20,结束值覆盖全部数据量(如2000),确保不遗漏中间页。
4、勾选“并发请求”,但限制线程数为3–5,避免触发服务器频率限制或IP封禁。
5、在每个请求响应中校验返回数据有效性,例如判断JSON是否含data数组或total字段,异常时跳过并记录日志。
五、处理带Token或签名验证的Ajax请求
部分站点对Ajax接口实施动态签名(如timestamp+md5(sign_key+timestamp))或短期有效的Token校验,需同步获取并更新凭证才能持续访问。
1、在首页或登录后页面的响应HTML或JS中查找首次生成的token、sign、_csrf等字段,通常位于meta标签或全局变量中。
2、在火车头中配置前置任务:先采集首页,使用正则或XPath提取该动态凭证并保存为变量,例如[VAR:auth_token]。
3、在后续Ajax任务的请求头中,将Authorization或X-Token字段值设为[VAR:auth_token]。
4、若签名随时间变化,需在每次请求前调用外部脚本生成新sign,并通过“执行外部程序”功能注入请求参数。
5、测试连续5次以上请求,确认凭证未失效、响应状态码恒为200且数据结构一致。










