zoukankan      html  css  js  c++  java
  • python爬虫基本知识

    一、基础

    1)反爬:useragent/cookie/代理ip/js生成/需要登陆/refer/
    2)url得到方式:network/search
    3)提取方式:正则/xpath/bs4/josn/jsonpath/css
    4)验证码处理:手动/打码平台/tesseract识别
    5)数据去重:数据库分组去重/set去重/管道去重/url去重
    6)加密方式:md5/sha1

    7)request和response的区别:

        request是服务器对浏览器请求封装,

        response是服务器对服务器响应封装。

    8)响应码:200正常访问/300重定向/400客户端错误/500服务器错误
    9)OCR光学文字识别, tesseract模块
    10)redis数据类型:集合/字符串/列表/哈希(hash)/有序集合(zset)

    11)GET和POST区别

      GET在浏览器回退时是无害的,而POST会再次提交请求。
      GET产生的URL地址可以被Bookmark,而POST不可以。
      GET请求会被浏览器主动cache,而POST不会,除非手动设置。
      GET请求只能进行url编码,而POST支持多种编码方式。
      GET请求参数会被完整保留在浏览器历史记录里,而POST中的参数不会被保留。
      GET请求在URL中传送的参数是有长度限制的,而POST么有。
      对参数的数据类型,GET只接受ASCII字符,而POST没有限制。
      GET比POST更不安全,因为参数直接暴露在URL上,所以不能用来传递敏感信息。
      GET参数通过URL传递,POST放在Request body中。

    二、screpy框架

    pipeline:返回items并存储
    middleware:设置反爬机制,设置对应的反反爬对策:IP池,user-agent
    settings:配置文件
    spider:爬取所需的数据

    注意:本篇文章是个人总结,仅供参考。若出现其他问题,与写者无关,切勿用于商业获取福利!

       如果总结有勿,或者交流与学习,请与写着联系!qq:1349176744

  • 相关阅读:
    JavaScript递归方法 生成 json tree 树形结构数据
    分布式系统唯一ID生成方案汇总
    Twitter-Snowflake,64位自增ID算法详解
    手机端页面自适应解决方案—rem布局
    vue.js之路由
    kafka数据迁移实践
    mysql查询时强制区分大小写
    js加密参数传给后台,后台解密base64
    Target runtime com.genuitec.runtime.generic.jee60 is not defined
    怎么在点击浏览器前进、后退键时刷新页面而不读取缓存
  • 原文地址:https://www.cnblogs.com/quietly-elegant/p/10257160.html
Copyright © 2011-2022 走看看