zoukankan      html  css  js  c++  java
  • Python 爬虫1——爬虫简述

            Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的。

    一、爬虫的定义:

            爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

    二、学习内容:

    1.Python基础知识;

    2.Python的两个库:urlliburllib2

    3.Python正则表达式;

    4.Python爬虫框架Scrapy

    三、内容解析:

    1.urllib和urllib2库和正则表达式:

            urllib和urllib2两个库是Python中最基本的爬虫库,利用这两个库可以获取指定网页的内容,然后使用正则表达式对内容进行提取和解析,便可得到我们想要的内容。

            Python的正则表达式是一种用来匹配字符串的工具,它的设计思想:用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为它“匹配”的,否则该字符串就不匹配。

    2.Scrapy框架:

            其实上述的库和正则表达式已经能够完成基本的爬虫功能,使用框架的目的是为了更快地获取更多的信息内容,关于Scrapy的介绍如下:

            Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

  • 相关阅读:
    软件工程结课作业
    第四次博客作业-结对项目
    软件工程第三次作业——关于软件质量保障
    20194744自动生成四则运算题第一版报告
    构建之法第一章
    dotNET面试(三)
    dotNET面试(二)
    dotNET面试(一)
    ebtables和iptables与linux bridge的交互
    自我认知(二)
  • 原文地址:https://www.cnblogs.com/linshuhe/p/5733263.html
Copyright © 2011-2022 走看看