zoukankan      html  css  js  c++  java
  • python3爬虫初探(一)之urllib.request

    ---恢复内容开始---

    #小白一个,在此写下自己的python爬虫初步的知识.如有错误,希望谅解并指出。

    #欢迎和大家交流python爬虫相关的问题

    #2016/6/18

    #----第一把武器-----urllib.request---------

      urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码。话不多说,上代码。

    import urllib.request  #调入要使用的库
    
    url = 'http://www.baidu.com'
    data = urllib.request.urlopen(url)  #urlopen用来打开一个网页
    data = data.read()   #这里的rend()是必须的,否则不能打印源码。
    print(data)     #在python3里面print是要加括号的
    #b'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=Edge"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><link rel="shortcut icon" href="/favicon.ico" type="image/
    #这是部分源码,现在已经成功走出第一步了,之后就是解析网页了。
  • 相关阅读:
    PC-CSS-默认字体样式
    PC--CSS维护
    PC--CSS技巧
    PC--CSS优化
    PC--CSS命名
    PC--CSS常识
    Base64与MIME和UTF-7
    Base64算法与多版本加密技术
    Base64算法与MD5加密原理
    log4j的使用
  • 原文地址:https://www.cnblogs.com/buzhizhitong/p/5596384.html
Copyright © 2011-2022 走看看