python爬虫之路第一篇：入门

zoukankan html css js c++ java

python爬虫之路第一篇：入门
网络爬虫：

　　又称网页蜘蛛，把互联网想象成类似于蜘蛛网一样的构造，那么这只爬虫，就是要在上面爬来爬去的，以便捕获我们需要的资源。

urllib模块：

　　使用Python编写爬虫代码，要解决的第一个问题是：python如何访问互联网，为了解决这个难题，就需要用到python为我们准备的urllib模块了。urllib由两个单词组成，URL就是平时所说的网页的地址，URL的一般格式：protocol://hostname[port]/path/[;parameters][? query] # fragment,lib就是library(库)的缩写。

URL由三部分组成
- 协议，常见的协议有http、https、ftp、file（访问本地文件夹）等等
- 存放资源的服务器的域名系统（DNS）主机名和IP地址（有时候要包含端口号，各种传输协议都有默认的端口号）
- 主机资源的具体地址，如目录和文件名等
　　其实urllib是一个包，里面总共有四个模块。第一个模块是最复杂的也是最重要的，因为它包含了对服务器请求的发出、跳转、代理和安全等各个方面。通过urllib.request.urlopen()函数就可以访问网页了，可以先来体验一番：
1 import urllib.request 2 response = urllib.request.urlopen("http://www.fishc.com") 3 html = response.read() 4 print(html)
将html还原为带中文的html代码，需要使用decode()方法对其解码，将它变成Unicode编码：
1 import urllib.request 2 response = urllib.request.urlopen("http://www.fishc.com") 3 html = response.read() 4 html = html.decode("utf-8") 5 print(html)
查看全文

相关阅读:
python网站开发准备ubuntu14.04安装mysql实现windows管理
 python 数据结构之二叉树
 python 数据结构之二分查找的递归和普通实现
 python 数据结构之归并排序
 python数据结构之希尔排序
 ctf study of jarvisoj reverse
python数据结构之quick_sort
堆与栈
 汇编整理
 js运算符

原文地址：https://www.cnblogs.com/wanghao123/p/8722246.html

python爬虫之路第一篇：入门

网络爬虫：

urllib模块：