关于 ContentEncoding: gzip 知道创宇

zoukankan html css js c++ java

关于 ContentEncoding: gzip 知道创宇
关于 Content-Encoding: gzip - 知道创宇
关于 Content-Encoding: gzip
2012-04-20
背景
===
如果你的网页抓取程序（例如爬虫）在抓取网页时没有发送 Accept-Encoding: gzip，那么你 out 了：
因为今天超过 99% 的网页抓取程序都会声明支持 gzip （或 deflate）编码。
如果你的程序属于这 99%，那么恭喜，但别高兴的太早。你的程序是否正确处理了 Content-Encoding: gzip？
问题
===
典型的处理 Content-Encoding: gzip 的代码片段 (python)：
html_data = GzipFile(fileobj=StringIO(html_data), mode="r").read()
假设 html_data 为 Web 服务器返回的Content-Encoding 为 gzip 的数据。
那么在大多数情况下，上述代码都能正确处理。但很不幸，你会发现，对有些 url，浏览器可以正常显示内容，
但是你的网页抓取程序会出错！
分析
===
不是所有 Web 服务器（或应用）都是遵纪守法的公民。极少数应用，会在 gzip 压缩后的数据后面，添加一些“尾巴”数据。
一些数据解压模块（如Python 的 GzipFile 模块）在这种情况下会出现处理异常。
例外的是浏览器。它们充分体会和考虑到了现实世界的复杂，会自动抛弃多出的“尾巴”，正常解压和处理页面数据。
解决
===
Python GzipFile 模块有个未公开属性： extrabuf，负责保存已经成功解压的数据。因此，下面的代码有更好的兼容性：
try: gf = GzipFile(fileobj=StringIO(html_data), mode="r") html_data = gf.read() except: html_data = gf.extrabuf
查看全文

相关阅读:
anoconda 安装jieba库
 数据挖掘算法
 统计学方法论
 PowerBI 的简单介绍
 Numpy的补充（重要！！）
Mysql语法顺序和执行顺序
 快速激活Navicat Premium 12
day4-Mysql数据库基础操作
 day3-Mysql多实例配置
 day2-Mysql5.6.36编译安装

原文地址：https://www.cnblogs.com/lexus/p/2997451.html

热门文章
Django中间件
 权限
 curd 插件
 popup
单选框复选框
 simple_tag
ModelForm
Tableau
文本分类实战
 文本预处理去除标点符号

关于 ContentEncoding: gzip 知道创宇

关于 Content-Encoding: gzip