zoukankan      html  css  js  c++  java
  • 如何面对博文被抓取

    昨天把hexo博客的url的日期去掉了,号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候,不小心多带了一个空格,导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾,隐去了作者信息。有的给个原文连接,有的是啥也不给。

    昨晚搞到1点多,才搞出来。然后轻轻松松被拿走,然后加广告。。。

    所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个),有个更牛逼, 把标题和作者改成自己,图片添加了自己的水印(清屏网)。

    所以,花样百出,防不胜防。


    首先,应该如何看待这个问题?

    我认为既然选择了互联网,就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx, 因为这关系到了作者的切身意义,都是钱啊。 而写博客的呢,这又是为了什么? 是为了记录。那么,被爬去也是没啥坏处的,坏就坏在盗版小说会标注作者,盗版博客会去掉作者。

    怎么解决

    全手工的盗版,是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾,所以把作者写到博客里,把作者写到代码注释里,把作者写到demo里。如果对于盗图有意见,可以加防盗链,可以加水印,或者制作图片的时候就加上作者。

  • 相关阅读:
    <转> 百度空间 最大子图形问题详解
    Hdu 1124 Factorial
    Uva 457 Linear Cellular Automata
    求01矩阵中的最大的正方形面积
    【HYSBZ】1036 树的统计Count
    【SPOJ】375 Query on a tree
    【POJ】3580 SuperMemo
    【CodeForces】191C Fools and Roads
    【FOJ】2082 过路费
    【HDU】3726 Graph and Queries
  • 原文地址:https://www.cnblogs.com/woshimrf/p/how-to-deal-with-web-crawler.html
Copyright © 2011-2022 走看看