zoukankan      html  css  js  c++  java
  • 爬虫基本原理1

    爬虫基本原理
    1. request请求方式: 主要有GET; POST;另外还有HEAD, PUT,DELETE,OPTIONS等;
    请求URL:又称资源定位符,类似网页文档,图片,视频都可以用URL唯一来确定;
    请求头:包含USER-AGENT,HOST,COOKIES等信息
    请求体: 请求时额外携带的数据
    2. response: 先判断状态码,然后拿出响应体
    响应状态STATUS_CODE: 有多重响应状态码
    响应头HEADERS:如内同类型,内容长度,服务器信息,设置cookies等:如内同类型,内容长度,服务器信息,设置cookies等
    响应体:最主要的部分,包含请求资源的内容,如网页,图片,二进制数据等。
    3. 爬虫抓取的数据:
    网页文本: 如HTML,JSON格式文本等
    图片或视频信息:多为二进制流: response.content,然后写入:
    with open('保存路径/保存文件名','wb') as f
    f.write(response.content)
    f.close()
    4. 解析方式:
    直接处理:适合比较的内同
    json解析:
    正则表达式:
    beautifulSoup:
    PyQuery:
    XPath:
    5.解决JavaScript渲染的问题:
    分析ajax请求
    使用Selenium、WebDriver驱动浏览器:其实是做自动化的工作,模拟浏览器的请求
    Splash:模拟js的渲染
    PyV8.Ghost.py等
    6. 保存数据:
    文本: 纯文本,Json,Xml等。
    关系型数据库: MySQL, Oracle, SQL Server
    非关系型数据库: MongoDB,redis等
    二进制文件: 如图片,视频,音频等直接报春成特定格式即可。

  • 相关阅读:
    智能聊天机器人——基于RASA搭建
    十分钟学会写shell脚本
    浅谈并发并行异步同步
    C/S系统实现两数求和(非阻塞+epoll+心跳包检测用户在线状况+滚动日志+配置文件.)
    编程之美第一篇 01分数规划
    欧拉函数
    奇妙的算法之LCS妙解
    N种方法妙讲LIS算法
    基于FeignClient提供简单的用户查询服务
    SpringCloud简介
  • 原文地址:https://www.cnblogs.com/spencersun/p/9531113.html
Copyright © 2011-2022 走看看