代码改变世界
[登录 · 注册]
  • 某连锁酒店泄露数据的分析
  • 声明

    不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。

    前言

    这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。

    源文件

    源文件是一个SQL Server数据库备份文件,从数据库“shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49  备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。

    基本信息

    1. 字段

    数据库只有一个表,叫cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。

    而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。

    2. 记录

    里面有20050144条记录(2005万)。

    3. 姓

    取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(数学里面的pi)。。。相信是乱写的。

    10大姓里面已经占了821万用户。

    4. 性别

    男性比女性多一倍。

     

    5. 年龄段

    剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。

    5. 省份

    省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。

     

    6. 更多

    其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。

    后言

    互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。

    我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。

  • 上一篇:澳洲生活宝典 (兼我的2013总结)
    下一篇:我的回忆录
  • 【推广】 阿里云小站-上云优惠聚集地(新老客户同享)更有每天限时秒杀!
    【推广】 云服务器低至0.95折 1核2G ECS云服务器8.1元/月
    【推广】 阿里云老用户升级四重礼遇享6.5折限时折扣!
  • 原文:https://www.cnblogs.com/unruledboy/p/HotelDataAnalysis.html
走看看 - 开发者的网上家园