zoukankan      html  css  js  c++  java
  • 爬虫常用库的安装

    urllib 库

    urllib.request库

    re库

    以上三个基本上python3内置

    剩下的用第三方pip安装

    1、pip install requsets

     >>>import requests
     >>>requests.get('http://www.baidu.com')

    返回响应status

    2、pip install selenium(驱动浏览器、自动化测试)

    大多数网页存在js渲染,普通requests无法读,可以通过驱动浏览器渲染读取

    >>>import selenium
    >>>from selenium import webdriver
    >>>driver=webdriver.Chrome()

    报错,缺少浏览器驱动

    3、安装浏览器驱动(chromedriver)

    //(版本对应表

    将解压的exe文件移动到pip执行目录中(大概率是script文件夹)

    命令行执行chromedriver,成功,继续2的代码

    >>>import selenium
    >>>from selenium import webdriver
    >>>driver=webdriver.Chrome()

    成功调用chrome

    >>>driver.get('http://www.baidu.com')
    >>>driver.page_source//打印渲染过的源代码

    4、phantomjs安装

    3步骤的渲染每次都需要掉用浏览器驱动,比较多余,可以用phantomjs来省略

    下载解压得到exe,添加到环境变量中

    
    
    >>>from selenium import webdriver
    >>>driver
    =webdriver.PhontomJS()
    >>>driver.get(
    'http://www.daidu.com')
    driver.page_source
    //直接得到渲染过的源代码

    5、pip install lxml

    此处介绍另一种直接安装‘轮子’的方法,下载对应whl文件

    命令行执行 pip install ***(***为轮子的路径)即可

    6、beautifulsoup安装(需要先安装5)

    pip install beautifulsoup4

    >>> from bs4 import BeautifulSoup
    >>> soup=BeautifulSoup('<html></html>','lxml')
    >>> print(soup)
    <html></html>

    7、pyquery库的安装 

    pip install pyquery

    >>> from pyquery import PyQuery as pq
    >>> doc=pq('<html><h1>你好</h1></html>')
    >>> result=doc('html').text()//此处调用的jquery的语法
    >>> result
    '你好'

    8、mongdb

    安装好后在bin文件夹下面(不是里面)新增‘logs’文件夹,内新增文件mongo.log。。。

    9、redis数据库

    >>> import redis
    >>> r= redis.Redis('localhost',6379)
    >>> r.set('name','bob')
    True
    >>> r.get('name')
    b'bob'
    >>>

    10、flask(web库,设置代理)

    pip install flask

    11、django

    12、jupyter(可以在线执行python代码的工具)

    pip install jupyter

    >>>import jupyter
    >>>jupyter notebbok//跳转浏览器
  • 相关阅读:
    JS之Cookie、localStorage与sessionStorage
    ES6之数组的扩展
    iView Form表单与DatePicker日期选择器
    自己实现LinkedList(非所有功能测试通过)
    自己实现基于数组的ArrayList的基本api
    Leetcode 448. 找到所有数组中消失的数字
    第六届福建省大学生程序设计竞赛不完全题解
    2016多校联合训练contest4 1012Bubble Sort
    2016 Multi-University Training Contest 2 第一题Acperience
    HDU 5726 GCD (2016 Multi-University Training Contest 1)
  • 原文地址:https://www.cnblogs.com/wang666/p/8109247.html
Copyright © 2011-2022 走看看