如何面对博文被抓取 - 走看看

zoukankan html css js c++ java

如何面对博文被抓取

昨天把hexo博客的url的日期去掉了，号称说3级以下的地址可以提高爬虫的rank。今天早上输入网址的时候，不小心多带了一个空格，导致变成了google搜索。然后就发现了文章被爬去的事情。打开发现爬去的文章掐头去尾，隐去了作者信息。有的给个原文连接，有的是啥也不给。

昨晚搞到1点多，才搞出来。然后轻轻松松被拿走，然后加广告。。。

所谓的CC by xxx 没有任何意义。看到有个爬虫专门把文章转换成繁体的(好几个)，有个更牛逼, 把标题和作者改成自己，图片添加了自己的水印(清屏网)。

所以，花样百出，防不胜防。

首先，应该如何看待这个问题？

我认为既然选择了互联网，就拥抱这种现象吧。起点的作者总是在写文章时不时的加一句看盗版的xxx, 因为这关系到了作者的切身意义，都是钱啊。而写博客的呢，这又是为了什么？是为了记录。那么，被爬去也是没啥坏处的，坏就坏在盗版小说会标注作者，盗版博客会去掉作者。

怎么解决

全手工的盗版，是防不住的。关键是大量的爬虫盗版。这个可以有。爬虫通常掐头去尾，所以把作者写到博客里，把作者写到代码注释里，把作者写到demo里。如果对于盗图有意见，可以加防盗链，可以加水印，或者制作图片的时候就加上作者。

查看全文

相关阅读:
防止死锁的加锁机制
 python线程threading.Timer源码解读
 python语言线程标准库threading.local源码解读
 栈和队列的总结
 如何根据入栈序列判断可能的出栈序列
 使用 Air 热编译 Gin 项目
 【Golang设计模式】7.外观模式
 Go中的数据类型、指针、new和make
【Golang设计模式】6.模板方法模式
 【Golang设计模式】5.原型模式

原文地址：https://www.cnblogs.com/woshimrf/p/how-to-deal-with-web-crawler.html

Copyright © 2011-2022 走看看