可在宝塔Nginx中通过ngx_lua模块部署Lua脚本实现恶意采集实时拦截:需先启用Lua模块,再将block_spider.lua置于指定路径,最后在配置中用access_by_lua_file调用,支持基于UA、Referer、Cookie等多维度动态阻断。

如果您在宝塔面板中运行Nginx服务,希望在请求进入后端应用前直接拦截恶意采集行为,则可借助Nginx内置的Lua模块(通过ngx_lua)编写轻量级规则进行实时匹配与阻断。以下是具体实施步骤:
一、确认并启用Nginx Lua模块
宝塔默认安装的Nginx不包含ngx_lua模块,需手动编译或更换支持Lua的Nginx版本。该模块是执行Lua脚本的前提,缺失将导致所有Lua指令无法解析。
1、登录服务器,执行nginx -V 2>&1 | grep -o with-http-lua-module,若无输出则表示未启用。
2、进入宝塔面板【软件商店】→ 找到当前Nginx版本 → 点击【设置】→【编译安装】→ 勾选lua模块(部分版本需先卸载再重装带Lua支持的定制版)。
3、编译完成后执行nginx -t验证配置,成功后重启Nginx服务。
二、部署Lua脚本至指定路径
将拦截逻辑封装为独立Lua文件,存放于Nginx可读取的安全路径,便于维护且避免嵌入配置造成混乱。脚本需返回布尔值以供Nginx判断是否中断请求。
1、创建目录:mkdir -p /www/server/nginx/lua/
2、新建文件:vi /www/server/nginx/lua/block_spider.lua
3、写入以下内容:
local user_agent = ngx.var.http_user_agent or ""
local referer = ngx.var.http_referer or ""
if string.match(user_agent, "SemrushBot") or string.match(user_agent, "AhrefsBot") or string.match(referer, "baidu.com") == nil and string.match(user_agent, "Mozilla") == nil then
ngx.exit(403)
end
三、在Nginx配置中调用Lua脚本
通过set_by_lua_file或access_by_lua_file指令在server或location块中引入脚本,其中access_by_lua_file适用于访问控制阶段,支持直接终止请求。
1、进入宝塔面板【网站】→ 选择目标站点 → 【设置】→ 【配置文件】
2、在server块内、location /上方插入:
access_by_lua_file /www/server/nginx/lua/block_spider.lua;
3、保存后点击【重载配置】,确保无语法错误提示。
四、基于请求头特征动态拦截
除固定UA外,还可结合请求频率、Header字段缺失、异常参数等维度增强识别精度。此方法不依赖第三方库,纯Lua实现,响应延迟低于5ms。
1、修改/www/server/nginx/lua/block_spider.lua,追加以下逻辑:
local cookie = ngx.var.http_cookie or ""
if cookie == "" and user_agent ~= "" and string.match(user_agent, "Chrome|Firefox|Safari") == nil then
ngx.exit(403)
end
2、在Nginx配置中对应位置添加lua_shared_dict spider_limit 10m;用于后续限速扩展。
3、执行nginx -t && systemctl reload nginx使变更生效。
五、验证拦截效果并查看日志
通过构造模拟请求触发规则,观察返回状态码及Nginx错误日志,确认Lua脚本是否按预期执行。错误日志是定位语法错误与逻辑偏差的核心依据。
1、使用curl模拟采集UA:curl -H "User-Agent: AhrefsBot" https://yourdomain.com
2、检查返回是否为403 Forbidden,而非后端响应。
3、查看日志:tail -f /www/wwwlogs/nginx_error.log,搜索lua或403关键词,重点关注“script not found”或“attempt to call a nil value”类报错。










