zoukankan      html  css  js  c++  java
  • Python3 urllib抓取指定URL的内容

    最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

    Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。

    下面是一个简单的代码示例:

    [python] view plaincopy
     
    1. #encoding:UTF-8  
    2. import urllib.request  
    3. def getdata():  
    4.     url="http://www.baidu.com"  
    5.     data=urllib.request.urlopen(url).read()  
    6.     print(data)  
    7.   
    8. getdata()  

    结果:

    中文转码,修改一下代码:

    [python] view plaincopy
     
    1. #encoding:UTF-8  
    2. import urllib.request  
    3. def getdata():  
    4.     url="http://www.baidu.com"  
    5.     data=urllib.request.urlopen(url).read()  
    6.     z_data=data.decode('UTF-8')  
    7.     print(z_data)  
    8.   
    9. getdata()  

    结果如下:

    研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

    好了,以后再慢慢研究。欢各路前辈指导。

  • 相关阅读:
    iOS 11 application 新特性
    Swift循环遍历集合方法
    Swift 使用 #warning
    swift 3.0 正则表达式查找/替换字符
    App Store 审核指南
    iOS 获取设备的各种信息的方法
    闭包(Closure)
    Swift的Guard语句
    Swift 学习指引
    Swift 4.0 废弃的柯里化
  • 原文地址:https://www.cnblogs.com/fclbky/p/4149748.html
Copyright © 2011-2022 走看看