应启用内置图片下载功能、配置高级资源下载模块、通过自定义变量提取定向保存、设置结构化存储路径并验证实际保存位置。

如果您已成功提取网页中的图片链接,但图片未按预期保存至本地,可能是由于文件下载设置未启用或路径配置有误。以下是将采集到的图片可靠保存至本地的多种操作方式:
一、启用内置图片下载功能
火车头采集器原生支持在内容解析阶段自动识别并下载 img 标签中的图片资源,无需额外插件即可完成基础保存。
1、进入采集任务的“内容采集规则”设置界面,找到并双击“内容”变量(即正文区域)。
2、在弹出的变量编辑窗口中,切换至“数据处理”选项卡。
3、勾选下载图片复选框。
4、点击文件保存目录右侧的感叹号图标,选择命名格式,如{date:yyyy-MM-dd}/{title},确保路径合法且可写。
5、确认未在“HTML标签排除”中禁用标签,否则图片链接将被过滤而无法下载。
二、配置高级资源下载模块
当需同时保存图片以外的附件(如PDF、ZIP),或需统一管理多类型资源时,应启用独立的资源下载引擎,实现更精细的控制。
1、在任务设置中打开“高级选项”,定位至“下载资源”板块。
2、勾选启用资源下载。
3、在“允许下载的扩展名”栏中填入所需格式,用英文逗号分隔:jpg,png,gif,webp,pdf,docx。
4、设定保存路径为绝对路径,例如:D:\collected_images\{project}\{date:yyyyMMdd}\。
5、调整并发线程数为3–8,兼顾效率与目标站点稳定性。
三、通过自定义变量规则提取并定向保存
针对图片地址藏于非标准属性(如data-src、lazy-src)、或需拼接域名生成完整URL的场景,须先提取原始链接再交由下载模块处理。
1、在“内容采集规则”中新增变量,命名为“img_url”。
2、匹配规则选择“正则表达式”,输入:data-src=[\"']([^\"']+\.(jpg|jpeg|png|gif|webp))[\"']。
3、勾选多结果采集,确保页面内所有匹配项均被捕获。
4、在该变量的“数据处理”中启用“使用脚本处理”,插入JS代码补全协议和域名:if(value.indexOf('http') !== 0) value = 'https://example.com' + value;。
5、将此变量拖入“下载资源”列表,指定其作为待下载链接源。
四、设置结构化本地存储路径
为避免大量图片混存于单一目录,可通过动态变量构建多层文件夹结构,实现按任务、日期、标题自动归类。
1、在“文件保存目录”中输入:D:\spider_output\{project}\{date:yyyy}\{date:MM}\{date:dd}\{title:substr(0,32)}。
2、确认路径中不包含非法字符(如? * |),否则创建失败。
3、若{title}为空,系统将自动 fallback 至默认文件夹名“untitled”。
4、采集完成后,立即前往所设路径验证文件夹是否生成及图片是否写入。
五、验证与定位已保存图片的实际位置
采集任务执行后,图片可能未出现在直观路径中,需依据软件默认行为准确定位实际存储点。
1、打开火车头安装目录,进入Data\LocoySpider\647\子文件夹(版本不同编号可能变化)。
2、查找以任务ID或项目名为前缀的子目录,例如“task_2847_images”。
3、若启用日期变量,检查路径中是否存在对应年月日层级,如“2026\01\19”。
4、在资源管理器地址栏粘贴完整保存路径(含变量展开后的结果),直接跳转验证。










