zoukankan      html  css  js  c++  java
  • 爬虫常用库的安装

    urllib 库

    urllib.request库

    re库

    以上三个基本上python3内置

    剩下的用第三方pip安装

    1、pip install requsets

     >>>import requests
     >>>requests.get('http://www.baidu.com')

    返回响应status

    2、pip install selenium(驱动浏览器、自动化测试)

    大多数网页存在js渲染,普通requests无法读,可以通过驱动浏览器渲染读取

    >>>import selenium
    >>>from selenium import webdriver
    >>>driver=webdriver.Chrome()

    报错,缺少浏览器驱动

    3、安装浏览器驱动(chromedriver)

    //(版本对应表

    将解压的exe文件移动到pip执行目录中(大概率是script文件夹)

    命令行执行chromedriver,成功,继续2的代码

    >>>import selenium
    >>>from selenium import webdriver
    >>>driver=webdriver.Chrome()

    成功调用chrome

    >>>driver.get('http://www.baidu.com')
    >>>driver.page_source//打印渲染过的源代码

    4、phantomjs安装

    3步骤的渲染每次都需要掉用浏览器驱动,比较多余,可以用phantomjs来省略

    下载解压得到exe,添加到环境变量中

    
    
    >>>from selenium import webdriver
    >>>driver
    =webdriver.PhontomJS()
    >>>driver.get(
    'http://www.daidu.com')
    driver.page_source
    //直接得到渲染过的源代码

    5、pip install lxml

    此处介绍另一种直接安装‘轮子’的方法,下载对应whl文件

    命令行执行 pip install ***(***为轮子的路径)即可

    6、beautifulsoup安装(需要先安装5)

    pip install beautifulsoup4

    >>> from bs4 import BeautifulSoup
    >>> soup=BeautifulSoup('<html></html>','lxml')
    >>> print(soup)
    <html></html>

    7、pyquery库的安装 

    pip install pyquery

    >>> from pyquery import PyQuery as pq
    >>> doc=pq('<html><h1>你好</h1></html>')
    >>> result=doc('html').text()//此处调用的jquery的语法
    >>> result
    '你好'

    8、mongdb

    安装好后在bin文件夹下面(不是里面)新增‘logs’文件夹,内新增文件mongo.log。。。

    9、redis数据库

    >>> import redis
    >>> r= redis.Redis('localhost',6379)
    >>> r.set('name','bob')
    True
    >>> r.get('name')
    b'bob'
    >>>

    10、flask(web库,设置代理)

    pip install flask

    11、django

    12、jupyter(可以在线执行python代码的工具)

    pip install jupyter

    >>>import jupyter
    >>>jupyter notebbok//跳转浏览器
  • 相关阅读:
    第二章.md
    第四章.md
    第一章.md
    第九章.md
    png简析.md
    第五章.md
    好看的粒子效果
    缓动 减速运动
    收集的小效果
    粒子效果2
  • 原文地址:https://www.cnblogs.com/wang666/p/8109247.html
Copyright © 2011-2022 走看看