zoukankan      html  css  js  c++  java
  • 小白必看的Python爬虫流程

    定义:

    网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

    简介:

    网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

    爬虫整体流程:

    ①先由urllib的request打开Url得到网页html文档

    ②浏览器打开网页源代码分析元素节点

    ③通过Beautiful Soup或则正则表达式提取想要的数据

    ④存储数据到本地磁盘或数据库(抓取,分析,存储)

    详细步骤

    第一步:抓取网页

    搜索引擎网络爬虫的基本工作流程如下:

    首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

    取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

    分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

    第二步:数据存储

    搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

    搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

    第三步:预处理

    搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

    提取文字

    中文分词

    消除噪音(比如版权声明文字、导航条、广告等……)

    索引处理

    链接关系计算

    特殊文件处理

    最后将数据存储起来以备使用。

    本文转载于https://www.py.cn/jishu/spider/10790.html

  • 相关阅读:
    【scala】定义变量和函数
    【python】self用法详解
    【Hive】自定义函数
    【Java】抽象类和接口
    Linux中的wheel用户组是什么?
    CentOS6.9切换root用户su root输入正确密码后一直提示Incorrect password,如何解决?
    CentOS7.X中使用yum安装nginx的方法
    Win10提示“因为文件共享不安全,所以你不能连接到文件共享”如何处理
    vim编辑器-多行加注释与去注释
    CentOS7.4用yum安装并配置MySQL5.7
  • 原文地址:https://www.cnblogs.com/jsdd/p/11558630.html
Copyright © 2011-2022 走看看