zoukankan      html  css  js  c++  java
  • 数据挖掘:(一)数据获取

    • 数据分析:利用统计分析方法,从数据中提取有用的信息,并进行总结和概括的过程。
    • Python 的胶水特性:Python 可以粘合其它语言代码段。

    一、数据获取手段

     1)数据仓库

    • 将所有业务数据汇总处理,构成数据仓库(DW);
    • 特点:
    1. 全部事实的记录(必须是全面的、完备的、尽可能详细的);
    2. 可以方便的以不同维度抽取和整理数据(数据是拿来用的,一般一个特定的场景不会使用全部的数据,数据仓库非常丰富,必须根据不同的应用调取相应的数据,这些被抽取和整理的数据称为数据集市-DW);
      1、数据库 VS 仓库
    1.  数据库面向业务存储,需要保证高频繁、快速读写、数据结构精简,主要为用户提供精致的体验;
    2. 仓库面向主题存储,是根据一个个主题进行存储的;(主题:较高层次上对分析对象数据的一个完整并且一直的描述;如,一次购买行为,包含时间、商品、金额、用户等各个维度的信息)
    3. 数据库针对应用(为用户提供数据上的支持与服务,此过程称为“OLTP”——联机事务处理),仓库针对分析(仓库进行全面和详细的记录,一般就是用来分析的,此过程称为“OLAP”——联机分析处理);
    4. 数据库组织规范,仓库可能冗余,相对变化大,数据量大(仓库几乎每时每刻都在记录);

     2)监测与抓取

    • 监测:利用设备和算法直接获取数据;(如传感器、网络等)
    • 抓取:直接解析网页、接口、文件的信息;
    • Python 中的常用抓取工具:urllib、urllib2、requests、scrapy;
    • Python 中的常用解析工具:PhantomJS(渲染数据)、beautifulSoup(解析路径)、Xpath(lxml,解析路径)

      3)填写、埋点、日志

    • 填写:用户填写的信息;(如注册信息)
    • 埋点:在APP或网页应用中根据特定的流程,收集一定的信息,用来跟中APP和网页的使用情况,以便后来进一步优化产品或进行运营支持;(比较常见的记录项:访问、访客、停留时间、页面查看、跳出率)(一般可以分为两种:页面统计、统计操作行为)
    • 日志:
    1. 日志和数据仓库有共同的作用,日志更加精简,也可以在出现故障时帮助定位问题;
    2. 以文件形式记录数据,一般也需要统计到仓库中,进行统一的分析;
    3. 日志分前端日志和后端日志:

        # 前端日志,网页或者APP中记录的信息,前端日志需要传输到后端才能被记录;

        # 后端日志,服务器里的日志,可以直接进行处理;

     4)计算
    • 有些属性不能直接获取,必须通过计算得到,如投入产出比;

    二、数据学习网站

  • 相关阅读:
    CentOS 7下搭建配置SVN服务器
    centos7 安装字体库
    redis 开机自启动
    Firewalls
    当安装某个扩展提示错误,显示版本冲突的时候,
    防盗链
    Telnet ping不通443的解决办法
    R处理xml文件
    解决load 函数无法赋予变量名的问题
    用Rprofile文件配置打开时R的设置
  • 原文地址:https://www.cnblogs.com/volcao/p/10486051.html
Copyright © 2011-2022 走看看