zoukankan html css js c++ java

scrapy采集gb2312网页中文乱码笔记

由于目标采集资源为gb2312发生乱码，采用中间件的解决方式，中间件为DownloaderMiddleware

1     def process_response(self, request, response, spider):
2         # Called with the response returned from the downloader.
3         # Must either;
4         # - return a Response object
5         # - return a Request object
6         response = HtmlResponse(url=response.url, body=response.body, encoding='utf-8')
7         # - or raise IgnoreRequest
8         return response

即在下载网页阶段是将网页转换为utf-8格式，另外需要将中间激活，在配置文件settings.py文件中插入代码，以激活

1 DOWNLOADER_MIDDLEWARES = {'news.middlewares.NewsDownloaderMiddleware': 1000}

至此，爬虫文件中不需要进行额外的转码，即可正常显示中文了

查看全文

相关阅读:
vue全局变量定义和修改
 vue格式化显示json数据
 javascript cookie 操作
 bootsrap Collapse用法
 django form 的内置字段类型
 django（channel）到 ubuntu
django 模型操作
 django 单点登录思路-装饰器
 浏览器右下角提示实现
 django websocket

原文地址：https://www.cnblogs.com/youligai/p/14485089.html