zoukankan      html  css  js  c++  java
  • 爬虫和数据

    一 为什么要做爬虫?

    首先请问:都说现在是"大数据时代",那数据从何而来?

    1. 企业产生的用户数据:
      百度指数:http://index.baidu.com/
      阿里指数:https://alizs.taobao.com/
      TBI腾讯浏览指数:http://tbi.tencent.com/
      新浪微博指数:http://data.weibo.com/index
    2. 数据平台购买数据:
      数据堂:http://www.datatang.com/about/about-us.html
      国云数据市场:http://www.moojnn.com/data-market/
      贵阳大数据交易所:http://trade.gbdex.com/trade.web/index.jsp
    3. 政府/机构公开的数据:
      中华人民共和国国家统计局数据:http://data.stats.gov.cn/index.htm
      世界银行公开数据:http://data.worldbank.org.cn/
      联合国数据:http://data.un.org/
      纳斯达克:http://www.nasdaq.com/zh
    4. 数据管理咨询公司:
      麦肯锡:http://www.mckinsey.com.cn/
      埃森哲:https://www.accenture.com/cn-zh/
      艾瑞咨询:http://www.iresearch.com.cn/
    二 关于Python爬虫,我们需要学习的有
    1. Python基础语法学习(基础知识)
    2. HTML页面的内容抓取(数据抓取)
    3. HTML页面的数据提取(数据清洗)
    4. 指定要求格式的数据存储(主要是mysql,redis,mongodb数据库的存储)
    5. Scrapy框架以及scrapy-redis分布式策略(第三方框架)
    三 HTTP和HTTPS

    HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。是规范。买卖东西一样。

    HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。

    SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。

    HTTP的端口号为80,

    HTTPS的端口号为443

      

  • 相关阅读:
    在Postgre中设置max_connections时,为什么需要使用连接池 (译)
    既然python的多线程是"伪多线程",那么多线程访问共享资源的时候,还需要线程锁吗
    Debugging: MISCONF Redis is configured to save RDB snapshots(译)
    MySQL集群故障转移的时候在基于python的客户端连接层自动failover实现
    exec: "com.docker.cli": executable file not found in %PATH%
    windows 快捷操作系列
    Docker Build时查看当前镜像目录树
    vs2019生成的dockerfile 手动 build
    Python Records库使用举例
    Jupyter Notebook安装扩充插件与常见问题
  • 原文地址:https://www.cnblogs.com/renshaoqi/p/10419011.html
Copyright © 2011-2022 走看看