python3爬虫.1.简单的网页爬虫 - 走看看

zoukankan html css js c++ java

python3爬虫.1.简单的网页爬虫
此为记录下我自己的爬虫学习过程。

利用url包抓取网页
import urllib.request #url包 def main(): url = "http://www.douban.com/" response = urllib.request.urlopen(url) #请求 html = response.read() #获取 html = html.decode("utf-8") #解码 print(html) #打印 if __name__ == "__main__": main()
urllib.request模块用来打开和读取url

字符常用的几个编码方式:

ASCII编码：用来表示英文，它使用1个字节表示，其中第一位规定为0，其他7位存储数据，一共可以表示128个字符。
拓展ASCII编码：用于表示更多的欧洲文字，用8个位存储数据，一共可以表示256个字符
GBK/GB2312/GB18030：表示汉字。GBK/GB2312表示简体中文，GB18030表示繁体中文。
Unicode编码：包含世界上所有的字符，是一个字符集。
UTF-8：是Unicode字符的实现方式之一，它使用1-4个字符表示一个符号，根据不同的符号而变化字节长度。
查看全文

相关阅读:
display
盒子模型
 css样式
 修改页面标题前的图标
 form表单
 html中列表
 代码书写格式
 dw中的超链接
 硬盘的访问，程序重定位和加载
 Bochs调试指令

原文地址：https://www.cnblogs.com/protogenoi/p/8881149.html

Copyright © 2011-2022 走看看