zoukankan      html  css  js  c++  java
  • Python爬虫常用库安装

    建议更换pip源到国内镜像,下载会快很多:https://www.cnblogs.com/believepd/p/10499844.html

    requests

    pip3 install requests

    selenium

    pip3 install selenium

    安装好后,测试一下:

    from selenium import webdriver
    driver = webdriver.Chrome()

    执行后报错了:

    需要安装chromedriver才能完成chrome浏览器的驱动。

    可以从这里下载适合自己的chromedriver(需要对应自己的chrome版本!!!):https://npm.taobao.org/mirrors/chromedriver

    比如我的是windows,解压后将chromedriver.exe放到某个配置好环境变量的目录下。

    运行:

    from selenium import webdriver
    driver = webdriver.Chrome()
    driver.get("https://www.baidu.com")
    print(driver.page_source)

    可以看到,自动打开百度并获取到了源代码。

    但是,在做爬虫的时候,一直打开浏览器是不方便的,这时就需要一个没有界面的"浏览器"----phantomjs。

    下载phantomjs:http://phantomjs.org/download.html

    解压后,将bin目录配置到环境变量中。

    from selenium import webdriver
    driver = webdriver.PhantomJS(executable_path=r"D:phantomjs-2.1.1-windowsinphantomjs.exe")
    driver.get("https://www.baidu.com")
    print(driver.page_source)

    lxml

    pip3 install lxml

    beautifulsoup

    pip3 install beautifulsoup4
    
    from bs4 import BeautifulSoup
    soup = BeautifulSoup("<html></html>", "lxml")

    pyquery

    pip3 install pyquery
    
    from pyquery import PyQuery as pq
    doc = pq("<html>hello!</html>")
    result = doc("html").text()
    print(result)  # hello!

    pymongo

    pip3 install pymongo
    import pymongo
    client = pymongo.MongoClient("localhost")
    db = client["test_db"]
    db["table"].insert({"name": "pd"})
    result = db["table"].find_one({"name": "pd"})
    print(result)

    jupyter

    pip3 install jupyter

    相当于一个记事本,它是运行在网页端的。

    在cmd中输入:jupyter notebook,就会自动打开浏览器。点击new python3,即可在网页上运行代码。

  • 相关阅读:
    Count and Say
    Valid Sudoku
    Find First and Last Position of Element in Sorted Array
    Search in Rotated Sorted Array
    Longest Valid Parentheses
    web前端中文教程库
    三代基因组拼接软件--Falcon篇
    使用ThreadPoolExecutor并行执行独立的单线程任务
    python中的计时器:timeit
    Python教程
  • 原文地址:https://www.cnblogs.com/believepd/p/10604844.html
Copyright © 2011-2022 走看看