zoukankan      html  css  js  c++  java
  • 【网络爬虫】 预备知识

    【网络爬虫】 预备知识

     一. 正则表达式之常用表达式

     正则表达式里有很多东西,学精不易,但做爬虫不需要学精,只要会其中部分就行,下面将介绍本人常用的表达式,基本够用了。

     1. 去头去尾 --- (?<=...)...(?=...)

     该表达式是本人用的最多的,如题意,去头去尾匹配中间,匹配单条数据时非常好用,正则好写,容易理解,且匹配出来的东西就是想要的

     2. 分组 ---(?<组名>...)...

     该表达式主要用在用一个正则匹配多条数据时使用

     会了上面2个基本就没问题了

    二. 抓包工具,做爬虫这是至关重要的,没有工具基本是做不出来的

     这里推荐 ie11 自带的 F12。

     目前还没发现抓不到的包,而且自带搜索功能也很给力

    三. Http

      1. 头信息 :

        a. Accept -- 接收到数据的类型,常见的有 html,txt, js, css, jpg

        b. Referer -- 上次请求的 url

        c. User-Agent -- 浏览器类型

        d. Host -- 抓取网站域名

        e. Cookie -- 头信息里最重要的,上面几个参数基本都可以通过抓包工具获取,但 Cookie 有些会失效 ,所以需要自己解析并仿照

      2. 发包方式 :

        a. 发包方式有2中 : GET 和 POST 可以有抓包工具获取

        b. GET 方式较 POST 要简单, GET 的参数是放在 Url 里的,仿照起来较简单

        c. POST 方式,POST 参数一般都会经过加密处理,而且还有些参数是通过 js 计算得到的,要想仿照就比较难了,尤其是登录的时候,对密码的加密,而且一般还会涉及到 Cookie,还有些网站有防爬验证,所以能不能成功大多看网站的安全性。

            

  • 相关阅读:
    url处理函数
    各种排序方法(冒泡,快速,插入,选择),二分查找
    js二叉树,前序/中序/后序(最大最小值,排序)
    vs中nuget命令的用法
    父子页面间调用
    Ubuntu16.04.2 LTS下使用编译安装程序(使用configure、make、 make install)
    windows与虚拟机的linux共享一个文件夹
    Linux下安装nginx
    Linux下安装VSCode
    Ubuntu下安装jdk
  • 原文地址:https://www.cnblogs.com/fzz2727551894/p/4140646.html
Copyright © 2011-2022 走看看