zoukankan      html  css  js  c++  java
  • python爬虫常用的库

    1,请求:requests

       requests.get(url, headers)

       requests.post(url, data=data, files=files)

       urllib模块:

       Python2

       import urllib2

       response = urllib2.urlopen('http://www.baidu.com');

       Python3

       import urllib.request

       response =urllib.request.urlopen('http://www.baidu.com');

    2,解析:

      lxml (解析网页)

      from lxml import etree

      # 获取请求网页数据

      html = etree.HTML(text)

    3,存储:

      mongodb数据库

      mysql数据库

      redis数据库

    4,工具:

      selenium自动化工具

    5,框架:

      scrapy和scrapy-redis

  • 相关阅读:
    14.3
    14.2
    14.1
    第14章 抽象类和接口
    13.5
    JAVA异常处理
    12.9
    12.7
    vs 常用快捷键
    click()和onclick()的区别
  • 原文地址:https://www.cnblogs.com/hellohorld/p/10189679.html
Copyright © 2011-2022 走看看