0

0

js爬虫数据如何进行清洗

畫卷琴夢

畫卷琴夢

发布时间:2025-03-12 10:36:18

|

968人浏览过

|

来源于php中文网

原创

js爬虫数据如何进行清洗

JavaScript网页爬虫及数据清洗,通常包含以下步骤:

  1. 数据获取: 利用axiosnode-fetch等HTTP库获取网页HTML内容。
  2. HTML解析: 使用cheerio库解析HTML,方便操作DOM元素,或直接使用浏览器内置的DOMParser
  3. 数据提取: 通过CSS选择器或XPath表达式精准定位并提取目标数据。
  4. 数据清洗: 去除多余空格、换行符,转换数据类型(例如字符串转数字),处理缺失值或异常值等。
  5. 数据存储: 将清洗后的数据存储到数据库(例如MongoDB、SQLite)或导出为JSON、CSV等格式。

以下示例演示使用axioscheerio爬取网页数据并进行清洗:

MagickPen
MagickPen

在线AI英语写作助手,像魔术师一样在几秒钟内写出任何东西。

下载
const axios = require('axios');
const cheerio = require('cheerio');

axios.get('https://example.com')
  .then(response => {
    const html = response.data;
    const $ = cheerio.load(html);

    const extractedData = [];
    $('.item').each((i, el) => { // 假设目标数据在.item类选择器下
      const title = $(el).find('h2.title').text().trim();
      let price = $(el).find('span.price').text().trim();
      price = parseFloat(price.replace(/[$,]/g, '')); // 清洗价格,去除'$'和','

      if (title && !isNaN(price)) { // 数据校验
        extractedData.push({ title, price });
      }
    });

    // 进一步清洗,例如过滤价格低于100的产品
    const cleanedData = extractedData.filter(item => item.price >= 100);

    console.log(cleanedData);
  })
  .catch(error => {
    console.error('数据获取失败:', error);
  });

此示例中,我们先获取网页数据,再用cheerio解析,提取标题和价格。 价格数据经过清洗,去除货币符号和逗号,并转换为数字。最后,过滤价格低于100的数据,输出清洗后的结果。 实际应用中,清洗步骤需根据具体网站结构和数据特点调整。 请注意,爬取数据时需遵守网站robots.txt规则,避免对网站造成负担。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

419

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

535

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

311

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

309

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.8万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

CSS教程
CSS教程

共754课时 | 24.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号