zoukankan      html  css  js  c++  java
  • 爬虫的基本理念

    什么是爬虫?

    请求网站并提取数据的自动化程序

    爬虫基本流程

    1.发起请求,通过HTTP库向目标站点发起请求,即发送一个Request,请求包含额外的headers信息

    2.获取响应内容,如果服务器正常相应,得到一个Response

    3.解析内容,得到的内容可能是HTML,JSON,二进制数,可以保存或进一步处理

    4.保存数据,保持形式多样,可以保存到数据库或文本

    request

    GET

    POST  含有formdata

    请求的url ,统一资源定位符

    RequestHeaders 请求头 UA Host Cookies

    response

    状态码

    响应头 set-cookie

    响应体

    response.headers  响应头

    response.status——code  响应状态码

    可以抓怎样的数据

    1.网页文本 HTML,JSON,等

    2.图片  response.content  响应体的二进制形式

    3.视频 二进制抓取

    4.其他

    解析方式

    1.直接处理 返回字符串

    2.Json解析

    3.正则表达式

    4.BS4 解析库

    5.PyQuery

    6.Xpath

    为什么我抓的和浏览的不一样?

    一些数据都是通过js代码,他们发送ajax请求获取到的后台数据来在前端显示

    怎样解决JS渲染问题?

    1.分析ajax请求

    2.Selenium/Webdriver

    3.Splash

    4.pyv8

    怎样保存数据?

    1.文本

    2.数据库

  • 相关阅读:
    0528习题 11-15
    通过文档算学生的平均分
    给定两个列表,转换为 DataFrame 类型
    一千美元的故事(钱放入信封中)
    pandas 几个重要知识点
    python文件操作
    是否感染病毒
    安装 kreas 2.2.4 版本问题
    小技巧_01
    【Liunx】Linux 系统启动过程
  • 原文地址:https://www.cnblogs.com/zhangqing979797/p/10891312.html
Copyright © 2011-2022 走看看