zoukankan      html  css  js  c++  java
  • 抓取防盗链图片显示

    我们网站有一个“日志聚合”的功能,可以导入用户自己其他博客的文章,文字可以保存到数据库,图片没有存储而是直接引用原图片地址,而大部分图片都做了防盗链处理,为了能保证用户正常浏览,对抓取后的图片地址做了引用处理。

    办法很多,参考鲜果和GoogleReader的方式,实际上就是通过伪装Referer信息来实现,这种方式的代码量以及图片下载响应速度的效果是最好的,还有用WebRequest和Iframe的方式也都可以达到我们的目的。

     

    效果对比

    图(1)采用“伪装Referer”的方式

     

    图(2)采用"WebRequest"的方式

     

    核心代码
    1.伪装Referer方式

    MSXML2.XMLHTTPClass oxmlHttp = new MSXML2.XMLHTTPClass(); 
     
    oxmlHttp.open("Get", url, false, null, null); 
    oxmlHttp.setRequestHeader("Referer", url); 
    oxmlHttp.send("0"); 
     
    if (oxmlHttp.readyState == 4 && oxmlHttp.status == 200) 
       return (Byte[])oxmlHttp.responseBody; 

    2.WebRequest方式

    WebRequest request = WebRequest.Create(url); 
    WebResponse response = request.GetResponse(); 
    Stream reader = response.GetResponseStream();3.Iframe方式
     

    <script>var im = "<img src="图片URL" />";</script> 
    <iframe id="im" style="border: 0px; overflow: hidden;" scrolling="no" frameborder="0" src="javascript:parent.im;"onload="javascript:var x=document.getElementById('im').contentWindow.document.images[0];this.width=x.width+10;this.height=x.height+10;"></iframe>
     

    总结

    一开始使用的是WebRequest的方式,将获取到的内容写入到MemoryStream中,再输出到页面,但是速度从上面图(2)可见,而且对于BlogBus会返回505的错误。如果有空会再次研究一下这种方式为什么这么慢,瓶颈在哪儿。

    使用XMLHTTPClass的方式,注意要返回的属性是responseBody,常见的抓取文本返回的属性是responseText,因为没有注意这个细节,导致始终无法输出图片。

  • 相关阅读:
    机器学习实战1:朴素贝叶斯模型:文本分类+垃圾邮件分类
    Hadoop实战1:MapR在ubuntu集群中的安装
    建站、开发工具,持续更新。。。
    Mysql多表联合更新、删除
    List的深度copy和浅度拷贝
    HashMap和List遍历方法总结及如何遍历删除元素
    for循环的两种写法哪个快
    MySQL的隐式类型转换整理总结
    Java BigDecimal类的使用和注意事项
    MySQL DECIMAL数据类型
  • 原文地址:https://www.cnblogs.com/top5/p/2268696.html
Copyright © 2011-2022 走看看