zoukankan      html  css  js  c++  java
  • 爬虫基本原理1

    爬虫基本原理
    1. request请求方式: 主要有GET; POST;另外还有HEAD, PUT,DELETE,OPTIONS等;
    请求URL:又称资源定位符,类似网页文档,图片,视频都可以用URL唯一来确定;
    请求头:包含USER-AGENT,HOST,COOKIES等信息
    请求体: 请求时额外携带的数据
    2. response: 先判断状态码,然后拿出响应体
    响应状态STATUS_CODE: 有多重响应状态码
    响应头HEADERS:如内同类型,内容长度,服务器信息,设置cookies等:如内同类型,内容长度,服务器信息,设置cookies等
    响应体:最主要的部分,包含请求资源的内容,如网页,图片,二进制数据等。
    3. 爬虫抓取的数据:
    网页文本: 如HTML,JSON格式文本等
    图片或视频信息:多为二进制流: response.content,然后写入:
    with open('保存路径/保存文件名','wb') as f
    f.write(response.content)
    f.close()
    4. 解析方式:
    直接处理:适合比较的内同
    json解析:
    正则表达式:
    beautifulSoup:
    PyQuery:
    XPath:
    5.解决JavaScript渲染的问题:
    分析ajax请求
    使用Selenium、WebDriver驱动浏览器:其实是做自动化的工作,模拟浏览器的请求
    Splash:模拟js的渲染
    PyV8.Ghost.py等
    6. 保存数据:
    文本: 纯文本,Json,Xml等。
    关系型数据库: MySQL, Oracle, SQL Server
    非关系型数据库: MongoDB,redis等
    二进制文件: 如图片,视频,音频等直接报春成特定格式即可。

  • 相关阅读:
    gulp 安装时一直提示缺少模块( Cannot find module 'gulp-load-plugins')
    webpack4.0入门以及使用
    重装系统(Win)
    单个雪碧图多个图像资源你该如何解决它们的定位?
    手机加载优化
    怎么下载google商店的扩展程序?
    ajax请求后台交互json示例
    scss
    Koala
    webpack-安装
  • 原文地址:https://www.cnblogs.com/spencersun/p/9531113.html
Copyright © 2011-2022 走看看