zoukankan      html  css  js  c++  java
  • 2,简单的Python爬虫

    前言

         根据上一篇 1,Python爬虫环境的安装 我们已经在本地安装好了Python环境,那么这一篇就开始学习如何用Python来爬虫!

     环境:操作系统:Windows10

                IDE:   PyCharm2018.1

                解释器:python3.6

    1,只需短短4行

         或许Python爬虫给大家的感觉就是比较高级,比较牛逼的一项技术,而其实呢,它的核心代码就只有以下几行!(至少对于初学者来说,只需要知道它如何使用)

    1 import requests    # 导入requests模块。如果报错,就是没有安装该模块;安装:鼠标点击红色部分->【ALT+回车】->回车。或在命令行使用pip install requests安装。
    2 
    3 url = "http://www.baidu.com"   # 要爬取网站的网址,一定要加http://
    4 page = requests.get(url)    # 模拟请求(与浏览器原理相同)
    5 print(page.text)    # 输出网站的源码(HTML代码)

     

    2,对比

         一开始大家(包括我自己)接触比较多的可能是urllib和urllib3;python2用的是urllib和urllib2,在python3中已经没有urllib2了,所以在看教程的时候一定要看清是python2还是python3。

    其实用哪个库都没有太大关系,因为他们其实都是在底层实现了HTTP协议,然后自己再把接口封装以下,理解了原理其实都是差不多的;但是推荐大家使用requests库(我看很多大牛都推荐这个),他是个第三方库(不是python自家的),所以需要安装,代码中给出了安装方法。这个库给我的感觉就是使用起来更加简单,可读性很好,比较符合Python的风格,大牛们推荐他可能还有其他原因,有待学习!

    3,解析

        所谓爬虫,其实也就是在互联网这张大网中筛选我们需要的信息。上面的代码只是把整个页面的内容下载下来了,并没有什么实际作用。而我们实际需要的是其中的一些图片或者某些文字,那就需要对这些下载下来的内容进行解析了,最简单粗暴的方法是使用正则(re)表达式来匹配(这是必备的,网上有很多学习教程);而更好的方法是先使用xpath(一种解析html文档的语法)获取想要的内容,然后再用re处理获取的内容,使内容更符合我们需要。

    4,要学什么

        上面是让大家更好地理解爬虫,和基本步骤;下面就是初学需要学些什么东西:

        爬虫三部曲:

                1,下载页面:使用requests下载网站页面;学习requests模块的基本使用。

                2,解析页面:在下载下来的页面中获取想要的信息;学习lxml模块,re模块,xpath语法和re语法的基本使用。

                3,保存信息:把解析后的信息保存到本地(先学会保存到Excel表);学习xlwt模块。

  • 相关阅读:
    Visual studio之C# 调用系统软键盘(外部"osk.exe")
    Visual studio之C# 重新定义Messbox的显示窗口位置
    Visual studio之C#的一些常见问题
    C8051F340之USB简介
    CentOS 安装 Sun JDK
    配置Tomcat以指定的身份(非root)运行
    CentOS6 root 用户 vi/vim 无法开启高亮
    删除 Mac OS X 中“打开方式”里重复或无用的程序列表
    快速建立Linux c/c++编译环境
    Ubuntu 安装 Sun JDK
  • 原文地址:https://www.cnblogs.com/shendeng23/p/9419729.html
Copyright © 2011-2022 走看看