zoukankan      html  css  js  c++  java
  • (爬虫)Python爬虫01(入门)

    目录:

    一、基本知识介绍

    二、获取网页

    一、基本知识介绍

    1、主要依赖 urllib:即URL(网页地址)+lib(包);详细解释请参考python文档(打开IDLE -- Help -- Python Docs -- 查询即可);

    2、URL的一般格式(ps: [] 内可省略)

    协议 :// 域名 [ :端口 ] / 路径 /

    其中的名词解释如下:

    协议:如:http,https,ftp,file 等;

    域名:存放资源的服务器域名系统或者IP地址(部分需要加端口号,如:8080),如:www.baidu.com(域名例子),localhost(本机IP地址)等;

    路径:存放资源的具体地址,目录或者文件名等,如:index.html等。

    二、获取网页

    #引入依赖
    import urllib.request
    
    #打开博客园登录地址(即获取该页面),将返回的对象存入response中
    response = urllib.request.urlopen("https://account.cnblogs.com/signin")
    
    #读出刚才返回的对象,将以二进制字符串形式存入html_d中
    html_d = response.read()
    
    #将二进制字符串以 utf-8 解码(主要看页面是用什么编码的,但通常都是 utf-8 )
    html = html_d.decode("utf-8")
    
    #将结果打印出来
    print(html)
    View Code

     爬虫下一篇: (爬虫)python爬虫02(实战)

    本博客参考:

    零基础入门学习Python                      https://www.bilibili.com/video/av4050443?p=54

  • 相关阅读:
    deleted
    deleted
    deleted
    deleted
    deleted
    deleted
    deleted
    CF #505 B Weakened Common Divisor(数论)题解
    HDU 6425 Rikka with Badminton(组合问题签到)题解
    ZOJ 2747 Paint the Wall(离散化+暴力)题解
  • 原文地址:https://www.cnblogs.com/hwh000/p/12445199.html
Copyright © 2011-2022 走看看