0

0

nodeJS实现网页爬虫功能实例代码

零下一度

零下一度

发布时间:2017-06-26 10:28:16

|

4148人浏览过

|

来源于php中文网

原创

前面的话

  本文将使用nodejs实现一个简单的网页爬虫功能

 

网页源码

  使用http.get()方法获取网页源码,以hao123网站的头条页面为例

http://tuijian.hao123.com/hotrank
var http = require('http');
http.get('http://tuijian.hao123.com/hotrank',function(res){var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        console.log(data);
    })
});

  获得的结果如下所示:





















热点排行榜-头条新闻-hao123新闻导航_hao123上网导航























电视剧

排名关键词搜索指数

综艺

排名关键词搜索指数
View Code

 

筛选数据

  以网页中的综艺热点部分

nodeJS实现网页爬虫功能实例代码

  相关源代码如下

nodeJS实现网页爬虫功能实例代码

  通过分析可知,‘综艺’模块与其他模块都位于

中,其中,综艺模块的内层div的monkey='zy',综艺模块的10条综艺节目的信息都位于
中,综艺节目的名称位于

 

cheerio

  我们怎么从源代码中获取到有用的数据呢?首先,nodeJS不支持document对象。如果要使用笨办法,只能使用正则表达式来处理

  cheerio 是nodejs特别为服务端定制的,能够快速灵活的对JQuery核心进行实现。它工作于DOM模型上,且解析、操作、呈送都很高效

weenCompany闻名企业网站系统5.3.0 中英文 GB2312
weenCompany闻名企业网站系统5.3.0 中英文 GB2312

weenCompany闻名企业网站系统(免费开源)是一个功能强大, 使用简单的中英文企业智能建站系统, 您只需要一些基本的计算机知识就可以利用此系统完成中小型企业网站的建设; 是低成本企业网站架设方案之首选CMS系统, 也适合建设个人网站。weenCompany闻名企业网站系统功能:1. 程序代码简洁严谨, 整个系统程序仅2M左右大小.2. 中英文双语版共用一套网站程序, 双语页面实现自由切换.3

下载

【安装】

nodeJS实现网页爬虫功能实例代码

【使用】

  它的使用方法和jQuery相当类似,上手非常容易。以获取综艺热度前10名的节目名称为例

var http = require('http');var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});function filter(data){//保存搜索量前10的综艺节目标题var result = [];//将页面源代码转换为$对象var $ = cheerio.load(data);//查找每个综艺节目标题的外层divvar temp_arr = $('[monkey = "zy"]').find('.point-bd').find('.point-title');//将综艺节目标题依次保存到结果数组中temp_arr.each(function(index,item){
        result.push($(item).text());
    })//[ '变形计','来吧冠军','拜托了冰箱','昆仑决','天生是优我','姐姐好饿','脑力男人时代','奔跑吧兄弟','我想和你唱','玫瑰之旅' ]    console.log(result);
}

 

爬虫代码

  下面将hao123网页中的'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6部分的排名爬下来,分别到对象名为'result'中的数组中,分别命令为'ss'、'jr'、'ms'、'dy'、'dsj'、'zy'

nodeJS实现网页爬虫功能实例代码

【代码如下】

var http = require('http');var cheerio = require('cheerio');
http.get('http://tuijian.hao123.com/hotrank',function(res){var data = '';
    res.on('data',function(chunk){
        data += chunk;
    });
    res.on('end',function(){
        filter(data);
    })
});function filter(data){//保存各部分搜索量前10的名称//对象名为榜单名,如'实时热点'//对象内容为10个标题名称组成的数组var result = {};//将页面源代码转换为$对象var $ = cheerio.load(data);//查找'实时热点'、'今日热点'、'民生热点'、'电影'、'电视剧'、'综艺'这6个榜单所在的divvar temp_div = $('.top-wrap');//保存榜单名称var temp_title = [];

    temp_div.each(function(index,item){//查找榜单名,并保存到temp_title文件夹中temp_title.push($(item).find('h2').text());//查找每类下每个标题的外层divvar temp_arr = $(item).find('.point-bd').find('.point-title');//将result下的每个榜单初始化为一个数组var innerResult = result[temp_title[index]] = [];//将节目标题依次保存到相应榜单的数组中temp_arr.each(function(_index,_item){
            innerResult.push($(_item).text())
        })
    })
    console.log(result);
}

【结果如下】

{ '实时热点': 
   [ '美国逮捕女斯诺登',     '成都隐秘母乳买卖',     '曝周杰伦青涩旧照',     '老头公交强吻女孩',     '王传君恋情曝光',     '杭州现奇葩窗口',     '忘带全班准考证',     '未成年持械拍网红',     '9秒揍儿子8拳',     '戴耳机穿轨道被撞' ],  '今日热点': 
   [ '北京回龙观大火',     '选美冠军车祸身亡',     '2017高考',     '成都老火锅店被查',     '陈浩民娇妻秀身材',     '海边直播发现浮尸',     '曝印小天遭妻骗婚',     '苹果开发者大会',     '6万斤鱼缺氧死亡',     '安以轩夏威夷大婚' ],  '民生热点': 
   [ '北京回龙观大火',     '2017高考',     '成都老火锅店被查',     '海边直播发现浮尸',     '苹果开发者大会',     '6万斤鱼缺氧死亡',     '北控外援训练猝死',     '武汉男子裸体捅人',     '多国与卡塔尔断交',     '美驻华外交官辞职' ],  '电影': 
   [ '神奇女侠',     '异星觉醒',     '新木乃伊',     '中国推销员',     '荡寇风云',     '异兽来袭',     '李雷和韩梅梅',     '北极星',     '美好的意外',     '夏天19岁的肖像' ],  '电视剧': 
   [ '龙珠传奇',     '楚乔传',     '欢乐颂2',     '欢乐颂',     '职场是个技术活',     '择天记',     '美食大冒险',     '废柴兄弟',     '人民的名义',     '三生三世十里桃花' ],  '综艺': 
   [ '变形计',     '来吧冠军',     '拜托了冰箱',     '昆仑决',     '天生是优我',     '姐姐好饿',     '脑力男人时代',     '奔跑吧兄弟',     '我想和你唱',     '玫瑰之旅' ] }
[Finished in 0.7s]

 

nodeJS实现网页爬虫功能实例代码nodeJS实现网页爬虫功能实例代码nodeJS实现网页爬虫功能实例代码nodeJS实现网页爬虫功能实例代码nodeJS实现网页爬虫功能实例代码nodeJS实现网页爬虫功能实例代码

相关专题

更多
c++ 根号
c++ 根号

本专题整合了c++根号相关教程,阅读专题下面的文章了解更多详细内容。

22

2026.01.23

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

24

2026.01.23

yy漫画官方登录入口地址合集
yy漫画官方登录入口地址合集

本专题整合了yy漫画入口相关合集,阅读专题下面的文章了解更多详细内容。

99

2026.01.23

漫蛙最新入口地址汇总2026
漫蛙最新入口地址汇总2026

本专题整合了漫蛙最新入口地址大全,阅读专题下面的文章了解更多详细内容。

132

2026.01.23

C++ 高级模板编程与元编程
C++ 高级模板编程与元编程

本专题深入讲解 C++ 中的高级模板编程与元编程技术,涵盖模板特化、SFINAE、模板递归、类型萃取、编译时常量与计算、C++17 的折叠表达式与变长模板参数等。通过多个实际示例,帮助开发者掌握 如何利用 C++ 模板机制编写高效、可扩展的通用代码,并提升代码的灵活性与性能。

15

2026.01.23

php远程文件教程合集
php远程文件教程合集

本专题整合了php远程文件相关教程,阅读专题下面的文章了解更多详细内容。

65

2026.01.22

PHP后端开发相关内容汇总
PHP后端开发相关内容汇总

本专题整合了PHP后端开发相关内容,阅读专题下面的文章了解更多详细内容。

61

2026.01.22

php会话教程合集
php会话教程合集

本专题整合了php会话教程相关合集,阅读专题下面的文章了解更多详细内容。

63

2026.01.22

宝塔PHP8.4相关教程汇总
宝塔PHP8.4相关教程汇总

本专题整合了宝塔PHP8.4相关教程,阅读专题下面的文章了解更多详细内容。

33

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.1万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号