zoukankan      html  css  js  c++  java
  • 爬虫基础知识

    HTTP       超文本传输协议                 默认端口号:80
    
    HTTPS      HTTP + SSL(安全套接字层)       默认端口号:443

    HTTPS比HTTP更安全,但是性能更低
    HTTP常见请求头

    1
    . Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)

    ------------------------------

    爬虫的分类:聚焦爬虫和通类爬虫-

    --------------------------------

    微指数-新浪

    -----------------------------------

    robots.txt

    Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    ------------------------------------

    爬虫的概念

    • 爬虫是模拟浏览器发送请求,获取响应

    爬虫的流程

    • url--->发送请求,获取响应--->提取数据---》保存

    • 发送请求,获取响应--->提取url

    ------------------------------------

    爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不一样

    页面上的数据在哪里

    • 当前url地址对应的响应中

    • 其他的url地址对应的响应中

      • 比如ajax请求中

    • js生成的

      • 部分数据在响应中

      • 全部通过js生成

    -----------------------------------------------

     

  • 相关阅读:
    java基础-数组
    泛型 --集合
    单例模式(新)
    static 关键字
    单例模式
    迭代器模式(java版)
    Object类
    JavaWeb学习总结(十七)——JSP中的九个内置对象
    javaweb学习总结(十六)——JSP指令
    javaweb学习总结(十五)——JSP基础语法
  • 原文地址:https://www.cnblogs.com/wsg-python/p/10083524.html
Copyright © 2011-2022 走看看