zoukankan      html  css  js  c++  java
  • python3爬虫.1.简单的网页爬虫

    此为记录下我自己的爬虫学习过程。

    利用url包抓取网页

    import urllib.request                   #url包
    
    def main():
        url = "http://www.douban.com/"
        response = urllib.request.urlopen(url)      #请求
        html = response.read()                      #获取
        html = html.decode("utf-8")                 #解码
        print(html)                                 #打印
    
    if __name__ == "__main__":
        main()
    

     urllib.request模块用来打开和读取url

    字符常用的几个编码方式:

    ASCII编码:用来表示英文,它使用1个字节表示,其中第一位规定为0,其他7位存储数据,一共可以表示128个字符。
    拓展ASCII编码:用于表示更多的欧洲文字,用8个位存储数据,一共可以表示256个字符
    GBK/GB2312/GB18030:表示汉字。GBK/GB2312表示简体中文,GB18030表示繁体中文。
    Unicode编码:包含世界上所有的字符,是一个字符集。
    UTF-8:是Unicode字符的实现方式之一,它使用1-4个字符表示一个符号,根据不同的符号而变化字节长度。

  • 相关阅读:
    display
    盒子模型
    css样式
    修改页面标题前的图标
    form表单
    html中列表
    代码书写格式
    dw中的超链接
    硬盘的访问,程序重定位和加载
    Bochs调试指令
  • 原文地址:https://www.cnblogs.com/protogenoi/p/8881149.html
Copyright © 2011-2022 走看看