zoukankan      html  css  js  c++  java
  • 小白必看的Python爬虫流程

    定义:

    网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。

    简介:

    网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

    爬虫整体流程:

    ①先由urllib的request打开Url得到网页html文档

    ②浏览器打开网页源代码分析元素节点

    ③通过Beautiful Soup或则正则表达式提取想要的数据

    ④存储数据到本地磁盘或数据库(抓取,分析,存储)

    详细步骤

    第一步:抓取网页

    搜索引擎网络爬虫的基本工作流程如下:

    首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

    取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。

    分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环

    第二步:数据存储

    搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。

    搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到访问权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

    第三步:预处理

    搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理。

    提取文字

    中文分词

    消除噪音(比如版权声明文字、导航条、广告等……)

    索引处理

    链接关系计算

    特殊文件处理

    最后将数据存储起来以备使用。

    本文转载于https://www.py.cn/jishu/spider/10790.html

  • 相关阅读:
    Blend混合模式 与 20余种颜色混合模式代码实现
    unity2020相关
    Unity3D研究院之加密Assetbundle不占内存(一百零五)
    Unity AssetBundle 加密
    Unity AssetBundle高效加密案例分享
    AssetBundle压缩/内部结构/下载和加载
    uml类图
    l2j开源java mmo服务器
    Unity开发(三) AssetBundle同步异步引用计数资源加载管理器
    Unity 引擎资源管理代码分析
  • 原文地址:https://www.cnblogs.com/jsdd/p/11558630.html
Copyright © 2011-2022 走看看