zoukankan      html  css  js  c++  java
  • Python3 urllib抓取指定URL的内容

    最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

    Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。

    下面是一个简单的代码示例:

    [python] view plaincopy
     
    1. #encoding:UTF-8  
    2. import urllib.request  
    3. def getdata():  
    4.     url="http://www.baidu.com"  
    5.     data=urllib.request.urlopen(url).read()  
    6.     print(data)  
    7.   
    8. getdata()  

    结果:

    中文转码,修改一下代码:

    [python] view plaincopy
     
    1. #encoding:UTF-8  
    2. import urllib.request  
    3. def getdata():  
    4.     url="http://www.baidu.com"  
    5.     data=urllib.request.urlopen(url).read()  
    6.     z_data=data.decode('UTF-8')  
    7.     print(z_data)  
    8.   
    9. getdata()  

    结果如下:

    研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

    好了,以后再慢慢研究。欢各路前辈指导。

  • 相关阅读:
    卫星列表
    常见28个问题处理方法
    Dr.COM EPortal 认证
    Linux命令--chroot
    2020 最好的Linux网络监控工具
    auditctl(8)
    ElasticSearch 7.1.1 集群环境搭建
    ElasticSearch 常用 curl 命令
    利用Java的动态编译、动态加载结合EasyRules实现业务规则的动态性
    java根据数据库自动生成JavaBean或pojo
  • 原文地址:https://www.cnblogs.com/fclbky/p/4149748.html
Copyright © 2011-2022 走看看