zoukankan      html  css  js  c++  java
  • Node.js制作图片下载爬虫的一般步骤

    图片下载爬虫分两部分:爬页面和下载图片。

    爬页面时先看网址是https还是http的,然后选择不同的内置对象;

    其次看编码,如果是charset=gb2312的网页就需要iconv帮忙转码,好在大部分都是utf8了这步多数可以省却,之后输出页面代码看看,不乱码就可以进行分析了;

    有时候网页使用gzip编码压缩了(网页头字段Content-Encoding是gzip),这时必须用zlib解码再读取;

    接下来用cheerio分析页面,用的是和jQuery相似的语法,分析出图片地址和下一页地址就完成任务了。

    爬图片相对简单一些,首先还是要网址是https还是http的,然后选择不同的内置对象;

    先试着下载一次,正常就OK了,如果下载下来的图片只有1K那么说明网站用了反爬虫手段,一般在header里加上Referer就好了,Referer地址就是网站的host地址。

    好了,目前基本上就是这些,以后有必要再补充。

    2017年11月20日08:24:17

  • 相关阅读:
    js数组基础
    JavaScript原型链
    js之promise讲解
    ajax登录验证-js
    js事件委托
    js中的回调函数的理解和使用方法
    js闭包的理解
    JavaScript是如何实现继承的(六种方式)
    js创建对象的几种常用方式小结
    canvas绘图详解-08-样式填充
  • 原文地址:https://www.cnblogs.com/heyang78/p/7864811.html
Copyright © 2011-2022 走看看