python网络爬虫 - 走看看

zoukankan html css js c++ java

python网络爬虫
爬虫流程
- ①先由urllib的request打开Url得到网页html文档
- ②浏览器打开网页源代码分析元素节点
- ③通过Beautiful Soup或则正则表达式提取想要的数据
- ④存储数据到本地磁盘或数据库（抓取，分析，存储）
网络爬虫的第一步就是根据URL，获取网页的HTML信息。在Python3中，可以使用urllib.request和requests进行网页爬取。
- urllib库是python内置的，无需我们额外安装，只要安装了Python就可以使用这个库。
- requests库是第三方库，需要我们自己安装。
使用requests库获取网页的HTML信息。requests库的github地址：https://github.com/requests/requests

requests安装

在cmd中，使用如下指令安装requests：
```
pip install requests
```
requests库的基础方法

requests.get()方法，它用于向服务器发起GET请求，requests.get()方法就是从服务器得到、抓住数据，也就是获取数据。
```
# -*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'http://gitbook.cn/'
    req = requests.get(url=target)
    print(req.text)
```
requests.get()方法必须设置的一个参数就是url，因为我们得告诉GET请求，我们的目标是谁，我们要获取谁的信息。
查看全文

相关阅读:
poj3718 Facer's Chocolate Dream
codeforces 917D Stranger Trees
uoj#349 【WC2018】即时战略
 bzoj5153 [Wc2018]州区划分
 bzoj5152 [Wc2018]通道
 loj2001[SDOI2017]树点染色
 loj2000[SDOI2017]数字表格
 Atcoder arc092
bzoj4826[hnoi2017]影魔
 bzoj4827 [hnoi2017]礼物

原文地址：https://www.cnblogs.com/aixing/p/13327394.html

Copyright © 2011-2022 走看看