Node.js制作图片下载爬虫的一般步骤 - 走看看

zoukankan html css js c++ java

Node.js制作图片下载爬虫的一般步骤

图片下载爬虫分两部分：爬页面和下载图片。

爬页面时先看网址是https还是http的，然后选择不同的内置对象；

其次看编码，如果是charset=gb2312的网页就需要iconv帮忙转码，好在大部分都是utf8了这步多数可以省却，之后输出页面代码看看，不乱码就可以进行分析了；

有时候网页使用gzip编码压缩了（网页头字段Content-Encoding是gzip），这时必须用zlib解码再读取；

接下来用cheerio分析页面，用的是和jQuery相似的语法，分析出图片地址和下一页地址就完成任务了。

爬图片相对简单一些，首先还是要网址是https还是http的，然后选择不同的内置对象；

先试着下载一次，正常就OK了，如果下载下来的图片只有1K那么说明网站用了反爬虫手段，一般在header里加上Referer就好了，Referer地址就是网站的host地址。

好了，目前基本上就是这些，以后有必要再补充。

2017年11月20日08:24:17

查看全文

相关阅读:
ruby -- 修改rubymine的字体大小
 ruby -- 基础学习（二）外键配置实现级联删除
 ruby -- 基础学习（一）项目文件夹说明
 ruby -- 问题解决（二）rails4.0create引起的ActiveModel::ForbiddenAttributesError错误
 ruby -- 问题解决（一）无法连接mysql数据库
 enumerate用法
 python文件调用
 第二天----列表、深浅拷贝、元组、字符串、算数运算、字典、while
P1005 矩阵取数游戏（动态规划+高精度）
P1242 新汉诺塔（搜索+模拟退火）

原文地址：https://www.cnblogs.com/heyang78/p/7864811.html

Copyright © 2011-2022 走看看