0

0

科普:爬虫

碧海醫心

碧海醫心

发布时间:2024-11-07 16:48:14

|

719人浏览过

|

来源于Linux就该这么学

转载

爬虫是什么

现在人们说的 python 写爬虫啊之类的,爬虫当然不是普通的那个爬虫,而是指按照一定的规则获取网络上信息的程序,因为它在获取一个网页信息的同时会从这个网页上获得url然后再对这个url获取信息,所以称为爬虫。

爬虫的分类

爬虫之间也有不同,不过大致可以分为以下几类

通用爬虫

这类爬虫的目标从几个URL扩展到整个网络,一般用于为搜索引擎和Web服务提供商采集数据。这类爬虫不太看重页面间的联系,而看重获得页面的数量,因此对存储空间有一定要求。

聚焦爬虫

这类爬虫主要根据选定好的主题来搜索页面,主要来满足对特定领域信息的需求,保存的页面数量不多,可以节省网络资源与存储空间。

增量爬虫

这类爬虫主要是对新产生或是发生变化的网页来搜寻的爬虫,虽然这样也可以避免重复爬行造成空间与网络资源浪费,但是所需要的算法比其他爬虫更复杂。

Deep Web 爬虫

这些爬虫主要对不能够通过链接进入的页面进行搜索,比如说注册后可见的页面等等。这类爬虫通常需要一个附带具有填写表单的能力之类的辅助模块来帮助进入之后的页面。
科普:爬虫

爬虫的各种搜索策略
IP地址搜索

IP 地址搜索策略是先给爬虫一个起始的 IP 地址,然后根据 IP 地址以递增的方式搜索本 IP 地址段后的每一个地址中的文档,它完全不考虑各文档中指向其它 Web 站点的超级链接地址。这种搜索策略的优点是搜索比较全面,因此能够发现那些没被其它文档引用的新文档的信息源;但是缺点是不适合大规模搜索。

深度优先搜索

深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的 HTML 文件)。例如,在一个 HTML 文件中,当一个超链被选择后,被链接的 HTML 文件将执行深度优先搜索,也就是说在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着 HTML 文件上的超链走到不能再深入为止,然后返回到某一个 HTML 文件,再继续选择该 HTML 文件中的其他超链。当不再有其他超链可选择时,说明搜索已经结束。

宽度优先搜索

宽度优先搜索的过程是先搜索完一个 Web 页面中所有的超级链接,然后再继续搜索下一层,直到底层为止。例如,一个 HTML 文件中有三个超链,选择其中之一并处理相应的HTML文件,然后不再选择第二个 HTML 文件中的任何超链,而是返回并选择第二个超链,处理相应的 HTML 文件,再返回,选择第三个超链并处理相应的 HTML 文件。当一层上的所有超链都已被选择过,就可以开始在刚才处理过的 HIML 文件中搜索其余的超链。

维普科创助手
维普科创助手

AI驱动的一站式科研资源服务平台

下载

宽度优先搜索的优点:一个是保证了对浅层的优先处理,当遇到一个无穷尽的深层分支时,不会导致陷进深层文档中出现出不来的情况发生;另一个是它能在两个 HTML 文件之间找到最短路径。

宽度优先搜索策略通常是实现爬虫的最佳策略,因为它容易实现,而且具备大多数期望的功能。但是如果要遍历一个指定的站点或者深层嵌套的 HTML 文件集,用宽度优先搜索策略则需要花费比较长的时间才能到达深层的 HTML 文件。

爬虫面临的问题

截止到 2007 年底,Internet 上网页数量超出 160 亿个,研究表明接近 30%的页面是重复的;动态页面的存在:客户端、服务器端脚本语言的应用使得指向相同 Web 信息的 URL 数量呈指数级增长。 上述特征使得网络爬虫面临一定的困难,主要体现在 Web 信息的巨大容量使得爬虫在给定时间内只能下载少量网页。 Lawrence 和 Giles 的研究表明没有哪个搜索引擎能够索引超出 16%的 Internet 上 Web 页面,即使能够提取全部页面,也没有足够的空间来存储。
为提高爬行效率,爬虫需要在单位时间内尽可能多的获取高质量页面,这也是是它面临的难题之一。 当前有五种表示页面质量高低的方式:Similarity(页面与爬行主题之间的相似度)、Backlink(页面在 Web 图中的入度大小)、PageRank(指向它的所有页面平均权值之和)、Forwardlink(页面在 Web 图中的出度大小)、Location(页面的信息位置)。

Parallel(并行性问题):为了提高爬行速度,网络通常会采取并行爬行的工作方式,随之引入了新的问题:

重复性:并行运行的爬虫或爬行线程同时运行时增加了重复页面

质量问题:并行运行时,每个爬虫或爬行线程只能获取部分页面,导致页面质量下降

通信带宽代价:并行运行时,各个爬虫或爬行线程之间不可避免要进行一些通信

并行运行时,网络爬虫通常采用三种方式:独立方式(各个爬虫独立爬行页面,互不通信)、动态分配方式(由一个中央协调器动态协调分配 URL 给各个爬虫)、静态分配方式(URL 事先划分给各个爬虫)。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

503

2023.08.10

location.assign
location.assign

在前端开发中,我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign,我们可以在当前窗口或者iframe中加载一个新的URL地址,并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容,供大家免费下载使用。

226

2023.06.27

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

409

2023.08.14

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

392

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

3052

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

435

2024.05.20

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

18

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

12

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

8

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
jQuery  红蓝两方投票功能实战教程
jQuery 红蓝两方投票功能实战教程

共8课时 | 2.3万人学习

传智播客Swift基础视频教程
传智播客Swift基础视频教程

共40课时 | 8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号