zoukankan      html  css  js  c++  java
  • python数据分析4之自动采集数据

    1 数据采集的重要性

    数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样

    2 四类采集方式

    3 如何使用开放是数据源

     

    4 爬虫方式

    (1) 使用request爬取内容。
    (2)使用xpath解析内容,可以通过元素属性进行位置索引
    (3)使用panda保存数据。最后通过panda写入XLS或者mysql数据中

    (3)scapy

    5 常用抓取工具

    (1)火车采集器http://www.locoy.com/
    它不仅可以做抓取工具,也可以做数据清洗、数据分析、数据挖掘和可视化等工作。数据源适用于绝大部分的网页,网页中能看到的内容都可以通过采集规则进行抓取
    (2)八爪鱼
    免费采集 电商类,生活服务类等
    云采集 配置采集任务,一共有5000台服务器,通过云端节点采集,自动切换多个IP等
    (3)集搜客
    没有云采集功能,所有爬虫在自己的电脑进行

    6 如何使用日志采集工具

    (1) 最大的作用就是通过分析用户访问情况,提升系统的性能。
    (2)记载的内容一般包括通过什么渠道访问,执行了哪些操i做,用户IP等

    (3)埋点是什么
    埋点就是在你需要统计数据的那地方统计代码。友盟 google analysis talkingdata 常用的的埋点工具。

    7 总结

    数据的采集渠道很多,可以自己通过爬虫,也可以使用开源的数据源,线程的工具。
    可以直接从Kaggle上下载,不需要自己爬取。
    另一方面根据我们的需求,需要采集的数据也不同,比如交通行业,数据采集会和摄像头或者测速仪有关。对于运维人员,日志采集和分析则是关

  • 相关阅读:
    qmake Manual (EN) 1
    {转}linux gcc gdb使用
    qmake 简介
    {转}linux makefile 详细教程
    {转}Linux下C开发之——gcc,gdb的使用
    关于“做一个聊天+信息分享客户端”的设想(SNS?)
    {转}算法的力量
    hdu 2047 简单递推公式
    RONOJ 6 金明的预算方案
    hdu 2446 二分搜索解题报告
  • 原文地址:https://www.cnblogs.com/lanjianhappy/p/12001462.html
Copyright © 2011-2022 走看看