0

0

用Python爬了4000多条淘宝商品数据,发现了这些规则!!!

-

-

发布时间:2018-03-07 16:07:58

|

3955人浏览过

|

来源于php中文网

原创

python 爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。

1.jpg

项目内容

2.jpg

本案例选择商品类目:沙发。

立即学习Python免费学习笔记(深入)”;

数量:共 100 页  4400 个商品。

筛选条件:天猫、销量从高到低、价格 500 元以上。

项目目的

对商品标题进行文本分析,词云可视化

不同关键词 word 对应的 sales 的统计分析

商品的价格分布情况分析

商品的销量分布情况分析

不同价格区间的商品的平均销量分布

商品价格对销量的影响分析

商品价格对销售额的影响分析

不同省份或城市的商品数量分布

不同省份的商品平均销量分布

注:本项目仅以以上几项分析为例。

项目步骤

数据采集:Python 爬取淘宝网商品数据

对数据进行清洗和处理

文本分析:jieba 分词、wordcloud 可视化

数据柱形图可视化:barh

数据直方图可视化:hist

数据散点图可视化:scatter

数据回归分析可视化:regplot

工具&模块

工具:本案例代码编辑工具 Anaconda 的 Spyder。

模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

爬取数据

因淘宝网是反爬虫的,虽然使用多线程、修改 headers 参数,但仍然不能保证每次 100% 爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页 ,直至所有页爬取成功停止。

说明:淘宝商品页为 JSON 格式,这里使用正则表达式进行解析。

代码如下:

3.jpg

数据清洗、处理

数据清洗、处理这个步骤也可以在 Excel 中完成,再读入数据。

代码如下:

1.jpg

2.jpg

说明:根据需求,本案例中只取了 item_loc,raw_title,view_price,view_sales 这 4 列数据,主要对区域、标题、价格、销量进行分析。

代码如下:

3.jpg

数据挖掘与分析

对 raw_title 列标题进行文本分析

使用结巴分词器,安装模块 pip install jieba:

1.jpg

对 title_s(list of list 格式)中的每个 list 的元素(str)进行过滤,剔除不需要的词语,即把停用词表 stopwords 中有的词语都剔除掉:

2.jpg

因为下面要统计每个词语的个数,所以为了准确性,这里对过滤后的数据 title_clean 中的每个 list 的元素进行去重,即每个标题被分割后的词语唯一。

3.jpg

观察 word_count 表中的词语,发现 jieba 默认的词典无法满足需求。

有的词语(如可拆洗、不可拆洗等)却被 cut,这里根据需求对词典加入新词(也可以直接在词典 dict.txt 里面增删,然后载入修改过的 dict.txt)。

1.jpg

词云可视化需要安装 wordcloud 模块。

安装模块有两种方法:

pip install wordcloud

下载 Packages 安装:pip install 软件包名称

注意:要把下载的软件包放在 Python 安装路径下。

代码如下:

2.jpg

3.jpg

分析结论:

组合、整装商品占比很高。

从沙发材质看:布艺沙发占比很高,比皮艺沙发多。

从沙发风格看:简约风格最多,北欧风次之,其他风格排名依次是美式、中式、日式、法式等。

从户型看:小户型占比最高、大小户型次之,大户型最少。

不同关键词 word 对应的 sales 之和的统计分析

说明:例如词语“简约”,则统计商品标题中含有“简约”一词的商品的销量之和,即求出具有“简约”风格的商品销量之和。

ArrowMancer
ArrowMancer

手机上的宇宙动作RPG,游戏角色和元素均为AI生成

下载

代码如下:

1.jpg

对表 df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化。(本例中取销量排名前 30 的词语进行绘图)

2.jpg

3.jpg

由图表可知:

组合商品销量最高。

从品类看:布艺沙发销量很高,远超过皮艺沙发。

从户型看:小户型沙发销量最高,大小户型次之,大户型销量最少。

从风格看:简约风销量最高,北欧风次之,其他依次是中式、美式、日式等。

可拆洗、转角类沙发销量可观,也是颇受消费者青睐的。

商品的价格分布情况分析

分析发现,有一些值太大,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于 20000 的商品。

代码如下:

1.jpg

2.jpg

由图表可知:

商品数量随着价格总体呈现下降阶梯形势,价格越高,在售的商品越少。

低价位商品居多,价格在 500-1500 之间的商品最多,1500-3000 之间的次之,价格 1 万以上的商品较少。

价格 1 万元以上的商品,在售商品数量差异不大。

商品的销量分布情况分析

1.jpg

2.jpg

同样,为了使可视化效果更加直观,这里我们选择销量大于 100 的商品。

代码如下:

由图表及数据可知:

销量 100 以上的商品仅占 3.4% ,其中销量 100-200 之间的商品最多,200-300 之间的次之。

销量 100-500 之间,商品的数量随着销量呈现下降趋势,且趋势陡峭,低销量商品居多。

销量 500 以上的商品很少。

不同价格区间的商品的平均销量分布

代码如下:

1.jpg

2.jpg

由图表可知:

价格在 1331-1680 之间的商品平均销量最高,951-1331 之间的次之,9684 元以上的最低。

总体呈现先增后减的趋势,但最高峰处于相对低价位阶段。

说明广大消费者对购买沙发的需求更多处于低价位阶段,在 1680 元以上价位越高,平均销量基本是越少。

商品价格对销量的影响分析

同上,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于 20000 的商品。

代码如下:

1.jpg

2.jpg

由图表可知:

总体趋势:随着商品价格增多,其销量减少,商品价格对其销量影响很大。

价格 500-2500 之间的少数商品销量冲的很高,价格 2500-5000 之间的商品多数销量偏低,少数相对较高,但价格 5000 以上的商品销量均很低,没有销量突出的商品。

商品价格对销售额的影响分析

代码如下:

1.jpg

2.jpg

由图表可知:

总体趋势:由线性回归拟合线可以看出,商品销售额随着价格增长呈现上升趋势。

多数商品的价格偏低,销售额也偏低。

价格在 0-20000 的商品只有少数销售额较高,价格 2-6 万的商品只有 3 个销售额较高,价格 6-10 万的商品有 1 个销售额很高,而且是最大值。

不同省份的商品数量分布

代码如下:

1.jpg

2.jpg

由图表可知:

广东的最多,上海次之,江苏第三,尤其是广东的数量远超过江苏、浙江、上海等地,说明在沙发这个子类目,广东的店铺占主导地位。

江浙沪等地的数量差异不大,基本相当。

不同省份的商品平均销量分布

代码如下:

1.jpg

2.jpg

热力型地图

1.jpg

相关文章

淘宝
淘宝

淘宝是一个好逛、丰富、有趣的消费生活社区,每天有亿万消费者来淘宝“逛街”:发现好物、找到乐趣、表达体验……淘宝能满足人们生活中的各种需求,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

28

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

8

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

31

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

35

2026.01.26

个人所得税税率表2026 个人所得税率最新税率表
个人所得税税率表2026 个人所得税率最新税率表

以工资薪金所得为例,应纳税额 = 应纳税所得额 × 税率 - 速算扣除数。应纳税所得额 = 月度收入 - 5000 元 - 专项扣除 - 专项附加扣除 - 依法确定的其他扣除。假设某员工月工资 10000 元,专项扣除 1000 元,专项附加扣除 2000 元,当月应纳税所得额为 10000 - 5000 - 1000 - 2000 = 2000 元,对应税率为 3%,速算扣除数为 0,则当月应纳税额为 2000×3% = 60 元。

12

2026.01.26

oppo云服务官网登录入口 oppo云服务登录手机版
oppo云服务官网登录入口 oppo云服务登录手机版

oppo云服务https://cloud.oppo.com/可以在云端安全存储您的照片、视频、联系人、便签等重要数据。当您的手机数据意外丢失或者需要更换手机时,可以随时将这些存储在云端的数据快速恢复到手机中。

40

2026.01.26

抖币充值官方网站 抖币性价比充值链接地址
抖币充值官方网站 抖币性价比充值链接地址

网页端充值步骤:打开浏览器,输入https://www.douyin.com,登录账号;点击右上角头像,选择“钱包”;进入“充值中心”,操作和APP端一致。注意:切勿通过第三方链接、二维码充值,谨防受骗

7

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号