zoukankan      html  css  js  c++  java
  • 爬虫从入门到放弃

    1.安装好前期必备的库 - requests 向网页发出请求

    解释器自带的urllib 和re

    selenium 用于向有js渲染的网页发起请求

    from selenium import webdriver

    driver = webdriver.Chrome() # 生成一个driver对象,并打开谷歌浏览器

    driver.get('https://www.baidu.com')  # 打开百度网页

    driver.page_source  查看网页的源代码,可以拿到渲染的页面源代码

    selenium需要打开网页,不方便

    from selenium import webdriver

    driver = webdriver.PhantomJS() # 生成一个driver对象

    driver.get('https://www.baidu.com')  # 期间不产生任何打开网页的操作

    driver.page_source  查看网页的源代码

    2.lxml库 

    pip3 install lxml

    也可以去python官网下载whl文件,下载好的文件链接,whl结尾的用pip3 install 链接 直接安装

    3.beautifulsoup 也是一个网页解析库

    依赖于lxml,也就是要先安装lxml这个库

    pip3 install beautifulsoup4  表示安装beautifulsoup第四个版本

    >>> from bs4 import BeautifulSoup # 导入BeautifulSoup
    >>> soup = BeautifulSoup('(html)(/html)','lxml')

    为什么是bs4,因为别人写模块的时候定义了一个包就叫ps4,里卖弄存放着这个模块。可以去官网查看源代码

    4.pyquery 解析库

    pip3 install pyquery

    >>> from pyquery import PyQuery as pq
    >>> doc = pq('(html)hello(/html)')
    >>> result = doc('html').text() 可以查看标签对应的内容

    总结:上面都是一些解析库,下面介绍一些存储库

    5.pymysql 操作mysql的库

    pip3 install pymysql

    6 pymongo

    pip3 install pymongo  #  pymongo 是对mongodb数据库的操作

    7 redis 分布式爬虫抓取队列时用

    pip3 install redis

    8 flask web库 代理的获取存储接口

    pip3 install flask

    9.django

    pip3 install django

    10.jupyter

    pip3 install jupyter

    jupyter notebook # 直接在命令行输入。弹出一个浏览器,显示当时运行的文件,可以新建文件

    可以在线运行代码,用的python解释器

  • 相关阅读:
    c语言中限制用户输入整数
    c语言 输入验证(限制输入正数)
    c语言中只读取输入的一行字符的首个字符
    python如何通过代码自动免密登陆ssh
    计算机科学速成课 02:电子计算机、继电器、术语“bug”的来源、真空管、晶体管、发展路径 转
    golang ...用法
    01 _ 程序的运行过程:从代码到机器运行
    深入Golang调度器之GMP模型 转
    golang可视化
    修改默认输入法,用英文标点符号
  • 原文地址:https://www.cnblogs.com/Roc-Atlantis/p/9346767.html
Copyright © 2011-2022 走看看