zoukankan      html  css  js  c++  java
  • 爬虫基础知识

    HTTP       超文本传输协议                 默认端口号:80
    
    HTTPS      HTTP + SSL(安全套接字层)       默认端口号:443

    HTTPS比HTTP更安全,但是性能更低
    HTTP常见请求头

    1
    . Host (主机和端口号) 2. Connection (链接类型) 3. Upgrade-Insecure-Requests (升级为HTTPS请求) 4. User-Agent (浏览器名称) 5. Accept (传输文件类型) 6. Referer (页面跳转处) 7. Accept-Encoding(文件编解码格式) 8. Cookie (Cookie) 9. x-requested-with :XMLHttpRequest (是Ajax 异步请求)

    ------------------------------

    爬虫的分类:聚焦爬虫和通类爬虫-

    --------------------------------

    微指数-新浪

    -----------------------------------

    robots.txt

    Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    ------------------------------------

    爬虫的概念

    • 爬虫是模拟浏览器发送请求,获取响应

    爬虫的流程

    • url--->发送请求,获取响应--->提取数据---》保存

    • 发送请求,获取响应--->提取url

    ------------------------------------

    爬虫要根据当前url地址对应的响应为准 ,当前url地址的elements的内容和url的响应不一样

    页面上的数据在哪里

    • 当前url地址对应的响应中

    • 其他的url地址对应的响应中

      • 比如ajax请求中

    • js生成的

      • 部分数据在响应中

      • 全部通过js生成

    -----------------------------------------------

     

  • 相关阅读:
    python的multiprocessing模块进程创建、资源回收-Process,Pool
    python在windows和linux环境的进程对比
    python的引用计数分析(二)
    python的计数引用分析(一)
    如何让每个 WordPress 页面有不同的风格或者样式
    linux教程网站
    cacati的安装
    让PHPCms内容页支持JavaScript_
    lnmp服务器的目录信息
    nginx配置
  • 原文地址:https://www.cnblogs.com/wsg-python/p/10083524.html
Copyright © 2011-2022 走看看