爬取网易严选某种衣服商品数据，实现可视化，结论有点吓人

zoukankan html css js c++ java

爬取网易严选某种衣服商品数据，实现可视化，结论有点吓人
关注公众号：Python爬虫数据分析挖掘，回复【开源源码】免费获取更多开源项目源码

爬取数据

首先，我们在网易严选的搜索框输入关键词“男士内裤”，页面搜索出来男士内裤的产品列表界面：

搜索结果

我们点开第一个商品，点击“评论”，就可以看到如下信息：

我们分析请求列表，就可以很容易地发现评论数据是通过 https://you.163.com/xhr/comment/listByItemByTag.json 这个请求来获取的。然后我们过滤请求参数，去掉不是必传的参数，最终发现 itemId 和 page 两个参数是必须的。

itemId 是指商品的ID，page 就是指的请求的页码，默认每页记录数是40。所以我们要获取评论数据的前提是获取到对应的商品ID。

我们是从搜索页面点击产品进入商品详情页的，所以搜索页面的商品列表里面肯定存在每一个商品的商品ID，我们回到搜索产品列表页，寻找搜索商品的请求：

商品列表

同样的，我们在搜索界面的请求分析中，找到了 http://you.163.com/xhr/search/search.json 这个请求，逐个分析请求参数后发现，我们只需要 keyword 和 page 两个参数即可。

请求分析完成后，我们就可以来码代码了。代码如下：
# 获取商品列表 def search_keyword(keyword): uri = 'https://you.163.com/xhr/search/search.json' query = { "keyword": keyword, "page": 1 } try: res = requests.get(uri, params=query).json() result = res['data']['directly']['searcherResult']['result'] product_id = [] for r in result: product_id.append(r['id']) return product_id except: raise # 获取评论 def details(product_id): url = 'https://you.163.com/xhr/comment/listByItemByTag.json' try: C_list = [] for i in range(1, 100): query = { "itemId": product_id, "page": i, } res = requests.get(url, params=query).json() if not res['data']['commentList']: break print("爬取第 %s 页评论" % i) commentList = res['data']['commentList'] C_list.extend(commentList) time.sleep(1) return C_list except: raise product_id = search_keyword('男士内裤') r_list = [] for p in product_id: r_list.extend(details(p)) with open('./briefs.txt', 'w') as f: for r in r_list: try: f.write(json.dumps(r, ensure_ascii=False) + ' ') except: print('出错啦')
为了简单起见，我抓取了首页的40件商品的评论数，将结果保存在 briefs.txt 文件中。文件数据的预览如下：

存储数据

 分析数据

抓取完数据后，我们就可以进入探索环节了，我想从颜色、尺码、评论三个角度分析数据，看看男士们内裤的一些“特点”。

我们来看看数据结构的特点：
{ "skuInfo": [ "颜色:黑色", "尺码:M" ], "frontUserName": "S****、", "frontUserAvatar": "https://yanxuan.nosdn.127.net/0da37937c896cac1955bda8522d5754f.jpg", "content": "非常好", "createTime": 1592965119969, "picList": [], "commentReplyVO": null, "memberLevel": 5, "appendCommentVO": null, "star": 5, "itemId": 3544005 }
仔细观察这条评论数据，我们可以看到颜色和尺码都放在 skuInfo 这个数组里面，评论是放在 content 字段里面。同时，我们多翻一些数据就可以发现，颜色有好几种格式：
- 单条装的颜色，例如：颜色:浅麻灰
- 多条装的颜色，例如：颜色:（黑色+麻灰+浅麻灰）3条
- 自选多条的颜色，例如：颜色:黑色+藏青色
- 其他，例如：规格:5条装
这里，最后一种无法分辨出颜色，我准备过滤掉。其他几种，去除掉干扰，通过“+”就可以拆分出颜色来。

而尺码数据格式是统一的，可以直接获取。

我将颜色和尺码都做成柱状图来展示，而评论就用词云来展示。最终的效果图如下：

颜色分布

颜色并没有出乎我的意料，黑色遥遥领先，不过，如果把几种灰色加起来的话，可能超过了黑色。总之，黑色和灰色是大众的选择。

尺寸分布

尺寸嘛，前三名是XL、L和XXL，不过XL和L相差不大。
耐得住寂寞，才能登得顶
Gitee码云：https://gitee.com/lyc96/projects
查看全文

相关阅读:
1009 说反话（20 分）
1007 素数对猜想（20 分）
Visual Studio2017下载方法
 百词斩和扇贝打卡测试与评估
 创建者模式->工厂模式
 STM32F427|----------IO讲解与应用
 MySQL的索引
 STM32F103RCt6 与 MG996R
2020物联网实验室的考核题目
 初学数据库-MySQL&IDEA&Navicat

原文地址：https://www.cnblogs.com/chenlove/p/13625283.html

爬取网易严选某种衣服商品数据，实现可视化，结论有点吓人

爬取数据

分析数据