urllib包包含4个模块,在python3里urllib导入要用包名加模块名的方式。
1.urllib.request
该模块主要用于打开HTTP协议的URL
import urllib.request
抓取某个网址的所有HTML代码,返回一个request对象。(网址要带上协议)
urlobject=urllib.request.urlopen('http://www.baidu.com')
用对象的read方法
print (urlobject.read(10))#打印出前10个字符,游标向后移动10位。如果read方法里不写数字默认打印出全部代码
返回字节型数据
>>> type(urlobject.read(10)) <class 'bytes'>
>>> print (urlobject.read(10)) b'<!DOCTYPE ' >>> print (urlobject.read(15)) b'html> <!--STATU' >>> print (urlobject.read(15)) b'S OK--> ' >>>
执行了三次观察了下,都已字母b开头加一个字符串,字符串里面的字符串就是read括号里的数量, 或 占一个字符