0

0

URL抓取工具

php中文网

php中文网

发布时间:2016-07-25 08:48:11

|

1409人浏览过

|

来源于php中文网

原创

有需要csdn免积分下载、pudn免积分下载、51cto免积分,请到http://www.itziy.com/
命令行下执行,直接php调用将显示使用方式
功能说明
1.支持代理
2.支持设置递归检查次数
3.支持输出类型控制、检查内容控制

作用:
主要代替肉眼尽量多的抓取可能的请求包及url地址等,方便渗透测试
  1. error_reporting(E_ERROR | E_WARNING | E_PARSE);
  2. ini_set('memory_limit','1024M');
  3. set_time_limit(0);
  4. define('CHECK_A_TAG', false);
  5. define('CHECK_JS_TAG', true);
  6. define('CHECK_URL', true);
  7. define('SAVE_ERROR', true);
  8. $checkArr = array(
  9. '$.load',
  10. '.ajax',
  11. '$.post',
  12. '$.get',
  13. '.getJSON'
  14. );
  15. if ($argc die(showerror('sorry, parameter error', array('example: php debug.php url num filename header proxy', 'detail information:', 'url: target url address which you want to check it', 'num: The number of pages of recursive,default 3', 'filename: output filename default name ret.txt', 'header: The request header file default null', 'proxy: if you want to use proxy set it here default no use proxy')));
  16. if (!check_extension())
  17. die(showerror('extension curl not support', 'please open php curl extension support'));
  18. //global variable
  19. $url = trim($argv[1]);
  20. if (stripos($url, 'http') === false)
  21. $url = 'http://'.$url;
  22. $num = isset($argv[2]) ? intval($argv[2]) : 3;
  23. $output = isset($argv[3]) ? trim(str_replace("\", '/', $argv[3])) : str_replace("\", '/', dirname(__FILE__)).'/ret.txt';
  24. $header = null;
  25. $proxy = null;
  26. $host = null;
  27. if (isset($argv[4]))
  28. {
  29. $header = trim(str_replace("\", '/', $argv[4]));
  30. if (file_exists($header))
  31. $header = array_filter(explode(" ", str_replace(" ", '', file_get_contents($header))));
  32. else
  33. {
  34. $file = str_replace("\", '/', dirname(__FILE__)).'/'.$header;
  35. if (file_exists($file))
  36. $header = array_filter(explode(" ", str_replace(" ", '', file_get_contents($file))));
  37. else
  38. $header = null;
  39. }
  40. }
  41. if (isset($argv[5]))
  42. $proxy = trim($argv[5]);
  43. if (!is_array($header) || empty($header))
  44. $header = null;
  45. $result = check_valid_url($url);
  46. $outputArr = array();
  47. if (!empty($result))
  48. {
  49. $result = str_replace(" ", '', $result);
  50. $result = str_replace(" ", '', $result);
  51. $tmpArr = parse_url($url);
  52. if (!isset($tmpArr['host']))
  53. die(showerror('parse url error', 'can not get host form url: '.$url));
  54. $host = $tmpArr['host'];
  55. if (stripos($host, 'http') === false)
  56. $host = 'http://'.$host;
  57. unset($tmpArr);
  58. //check for current page
  59. if (!isset($outputArr[md5($url)]))
  60. {
  61. $outputArr[md5($url)] = $url;
  62. file_put_contents($output, $url." ", FILE_APPEND);
  63. echo 'url: ',$url,' find ajax require so save it',PHP_EOL;
  64. }
  65. work($result);
  66. }
  67. echo 'run finish',PHP_EOL;
  68. function work($result, $reverse = false)
  69. {
  70. global $num, $host, $outputArr, $checkArr, $output;
  71. if (!$result)
  72. return;
  73. $result = str_replace(" ", '', $result);
  74. $result = str_replace(" ", '', $result);
  75. while ($num > 0)
  76. {
  77. echo 'remain: ',$num,' now start to check for url address',PHP_EOL,PHP_EOL;
  78. preg_match_all('//i', $result, $match);
  79. if (CHECK_A_TAG && isset($match[2]) && !empty($match[2]))
  80. {
  81. foreach ($match[2] as $mc)
  82. {
  83. $mc = trim($mc);
  84. if ($mc == '#')
  85. continue;
  86. if (stripos($mc, 'http') === false)
  87. $mc = $host.$mc;
  88. if (($ret = check_valid_url($mc)))
  89. {
  90. if (!isset($outputArr[md5($mc)]))
  91. {
  92. $outputArr[md5($mc)] = $mc;
  93. file_put_contents($output, $mc." ", FILE_APPEND);
  94. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  95. }
  96. }
  97. }
  98. }
  99. //check for page url
  100. echo 'remain: ',$num,' now start to check for page url',PHP_EOL,PHP_EOL;
  101. preg_match_all('/(https?|ftp|mms)://([A-z0-9]+[_-]?[A-z0-9]+.)*[A-z0-9]+-?[A-z0-9]+.[A-z]{2,}(/.*)*/?/i', $result, $match);
  102. if (CHECK_URL && isset($match[2]) && !empty($match[2]))
  103. {
  104. foreach ($match[2] as $mc)
  105. {
  106. $mc = trim($mc);
  107. if ($mc == '#')
  108. continue;
  109. if (stripos($mc, 'http') === false)
  110. $mc = $host.$mc;
  111. if (($ret = check_valid_url($mc)))
  112. {
  113. if (!isset($outputArr[md5($mc)]))
  114. {
  115. $outputArr[md5($mc)] = $mc;
  116. file_put_contents($output, $mc." ", FILE_APPEND);
  117. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  118. }
  119. }
  120. }
  121. }
  122. //check for javascript ajax require
  123. echo 'remain: ',$num,' now start to check for javascript ajax require',PHP_EOL,PHP_EOL;
  124. preg_match_all('//i', $result, $match);
  125. if (CHECK_JS_TAG && isset($match[2]) && !empty($match[2]))
  126. {
  127. foreach ($match[2] as $mc)
  128. {
  129. $mc = trim($mc);
  130. if ($mc == '#')
  131. continue;
  132. if (stripos($mc, 'http') === false)
  133. $mc = $host.$mc;
  134. if (($ret = check_valid_url($mc)))
  135. {
  136. //check for current page
  137. foreach ($checkArr as $ck)
  138. {
  139. if (!isset($outputArr[md5($mc)]) && strpos($ret, $ck) !== false)
  140. {
  141. $outputArr[md5($mc)] = $mc;
  142. file_put_contents($output, $mc." ", FILE_APPEND);
  143. echo 'url: ',$mc,' find ajax require so save it',PHP_EOL;
  144. break;
  145. }
  146. }
  147. }
  148. }
  149. }
  150. if ($reverse)
  151. return;
  152. //check for next page
  153. preg_match_all('//i', $result, $match);
  154. if (isset($match[2]) && !empty($match[2]))
  155. {
  156. echo 'check for next page, remain page counts: ',$num,PHP_EOL;
  157. foreach ($match[2] as $mc)
  158. {
  159. $mc = trim($mc);
  160. if ($mc == '#')
  161. continue;
  162. if (stripos($mc, 'http') === false)
  163. $mc = $host.$mc;
  164. echo 'check for next page: ',$mc,PHP_EOL;
  165. work(check_valid_url($mc), true);
  166. }
  167. }
  168. $num--;
  169. sleep(3);
  170. }
  171. }
  172. function check_valid_url($url)
  173. {
  174. if (stripos($url, 'http') === false)
  175. $url = 'http://'.$url;
  176. $ch = curl_init();
  177. curl_setopt($ch, CURLOPT_URL, $url);
  178. curl_setopt($ch, CURLOPT_HEADER, true);
  179. curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  180. curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
  181. curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)');
  182. if (!is_null($header))
  183. curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  184. if (!is_null($proxy))
  185. curl_setopt($ch, CURLOPT_PROXY, $proxy);
  186. $ret = curl_exec($ch);
  187. $errinfo = curl_error($ch);
  188. curl_close($ch);
  189. unset($ch);
  190. if (!empty($errinfo) || ((strpos($ret, '200 OK') === false) && (strpos($ret, '302 Moved') === false)) || strpos($ret, '114so.cn') !== false)
  191. {
  192. showerror('check url: '.$url. ' find some errors', array($errinfo, $ret));
  193. if (SAVE_ERROR)
  194. file_put_contents(dirname(__FILE__).'/error.txt', $url." ", FILE_APPEND);
  195. return false;
  196. }
  197. return $ret;
  198. }
  199. function check_extension()
  200. {
  201. if (!function_exists('curl_init') || !extension_loaded('curl'))
  202. return false;
  203. return true;
  204. }
  205. function showerror($t, $c)
  206. {
  207. $str = "######################################################################### ";
  208. $str .= "# ".$t." ";
  209. if (is_string($c))
  210. $str .= "# ".$c;
  211. elseif (is_array($c) && !empty($c))
  212. {
  213. foreach ($c as $c1)
  214. $str .= "# ".$c1." ";
  215. }
  216. $str .= " ######################################################################### ";
  217. echo $str;
  218. unset($str);
  219. }
复制代码


本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

89

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

173

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号