zoukankan      html  css  js  c++  java
  • 13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    最近正值“618活动”,阿里、拼多多、京东等都在发力,商品的价格也下降了不少。我打开某宝首页,顿时想对某些商品的评论进行一次爬取分析。

    一提到爬取,我们肯定先想到python,那可真的是利器,不过我提醒一句,不允许爬的千万不要碰。python虽然爬取简单,但是做可视化分析需要费不少力气,虽然有 Matplotlib 和 Seaborn 两个包就足够了。

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    如果只调用基本的函数可能做出来的图会比较简陋,要达到好看的效果还是需要很多的精力和代码的,不适用于零基础小白。

    所以我想到了当下最火的BI分析工具,有了数据,直接拖拽就能得到可视化分析,完全就是零代码,python+BI在手,打遍无敌手。原理也很简单,数据获取是通过Python进行的,然后得到Excel表,BI可以直接连接数据源,负责最后应用层的数据处理、加工和可视化。

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    那分析什么呢?想来想去,我选择了女性的内衣。

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    不要想歪,不要怀疑,这就是一个数据可视化项目,纯属娱乐,大家看看就行,重要是我分析的过程,如果能学到东西我就更开心了,我只用了13分钟。

    话不多说,进入主题。

    一、数据获取

    数据来自python爬虫获取,淘宝约50个文胸商品的20W条评论数据,原始数据是txt格式,为了方便处理,这边转为Dataframe~

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    由于篇幅的限制,这里只放部分代码,感兴趣的可以到文末。

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    二、分析目的

    这里先给大家做一个科普,对于很多只知道A/B/C的绅士们,我们在看数据之前可能先得了解点知识,内衣是有上围和下围的区分的。

    通过上围与下围的差值,我们就可以确定大小了。

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    虽然我没买过,但是对分析维度还是了解的:

    • 颜色与肤色的对比
    • 款式
    • 尺码大小
    • 评价分析

    三、数据可视化

    虽然获取到的数据数量不是很大,才20W,但是Excel分析这个体量,肯定是会卡死的,而且Excel的可视化图表简直一言难尽,还需要各种函数...

    上面说到BI工具,那市面上这么多BI工具,怎么去挑选呢?市面上知名的有Tableau、FineBI等,这两个也是在知乎最受好评的工具,我从下面几个方面简单给你们讲一下。

    • 部署安装:都是基于浏览器端即可使用的工具
    • 学习教程:FineBI更全面
    • 使用体验(上手难度)和需求符合度:FineBI更适合小白
    • 产品功能:Tableau更占优一点,但有些功能并不是国内企业所看重的,FineBI能做复杂报表
    • 报价和服务:FineBI的性价比很高,Tableau很贵

    所以我选择FineBI进行这次可视化分析,先通过下面这个来了解一下:

    可视化超强,超级容易上手的BI工具来了

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    不要单纯的以为它只是个可视化工具,它的本质是数据分析工具,能通过数据对业务产生指导:

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    1、评论里出现最多的关键词

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    可以看见,内衣的颜色和肤色还是有很大关系的,不过据数据统计,妹子喜欢黑色占大多数,因为在人的印象里,好像粉色、紫色都有点怪怪的?

    知道给自己女朋友/老婆买什么颜色了吗?不对,你们不一定有....

    2、哪个尺寸的妹子最多?

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    D的数量很少,符合我们的认知。B的数量等于A+C的总和,这数据应该是准确的,穿B不代表就是B,就像你买衣服也喜欢宽松的,自己体会。

    3、具体大小受什么影响?

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    我从上下围两个角度来分析A/B/C/D的分布,这个应该是迄今为止最全面的内衣分析了,想说的都在图里。

    4、她们喜欢什么时候买内衣?

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    高峰期在上午和晚上,这也可以理解,大家都在玩手机,但是夜里3点买的人,我想问问,你图啥?

    5、内衣的评价如何?

    13分钟,教你python可视化分析20W数据,找到妹子最爱的内衣

    图片来自于网络

    这是词云图,字越大,代表占的比重就越大,FineBI也能做,方法也是一样,有了数据直接拖拽,然后选择合适的图表类型即可。

    内衣毕竟是衣服,女性关注的点肯定是效果与舒适度,男性的话我就不知道了。

    关于代码和数据可视化工具,关注我,并转发该文章,回复“内衣”即可获得!!!

    各位绅士,你们怎么看?

  • 相关阅读:
    Centos下安装Redis
    Web框架的本质
    DOM Event
    HTML DOM
    JavaScript运算符
    JavaScript基础
    开发中常用的插件与框架
    selector模块
    IO模型(阻塞、非阻塞、多路复用与异步)
    事件驱动模型
  • 原文地址:https://www.cnblogs.com/hzcya1995/p/13325548.html
Copyright © 2011-2022 走看看