今天无意中发现自己的某些博文被更多的“黑”网站不注明转载地就copy过去了,或者说是被爬虫过去了,听说其实csdn博文基本是上了些字数的都会被一大堆爬虫爬,所以我猜只有很少阅读量的那些博文估计就是被爬虫爬出来的,可能并没真正的一人看过。一些“黑”网站就靠这爬取csdn或者博客园等等的一些原创内容网站的优质原创内容然后直接抄袭过去,赖以为生。而在对于搜索引擎搜索结果(SEO),这类黑网站往往比你本身的博文出处例如csdn更排到前列,我也试过,发现百度搜出来的我一些文章第一页统统是黑网站抄袭过去的,而我自己的csdn的出处却要到第二第三页才能找得到,也就是相当于找不到了。
也确实,在如今全民互联网,阅读量爆炸的时代,优质原创内容相比这么多人的阅读需求,其实还是有些稀缺,所以就养活了一大堆不靠自己原创内容而靠去转载或者叫组合别人原创内容的公司或者网站或者个人。这个在新闻上就太过普遍了,毕竟真正参与进去新闻事件当中的记者就那么几个,原始报道就那么一两个,其他网站要想报导同样的新闻,只能是转载或者加工成自己的新闻了。这里面就会导致一些问题的产生,在中国,知识版权的意识还是太差,很多这类靠爬别人的资源为生的企业或个人,并不会在转载别人的内容之前先问问原创者,甚至转载未注明出处,那就直接成了抄袭了。另外,对于后期还加工了下的,未免就可能导致三人成虎的结果。当然,原本就错误的内容也会到处泛滥,而且一发不可收拾,即便原创作者删除了原出处,但因为已经被其他网站爬虫(机器或人工)去了所以已经很难全删除了。这某种方面,也是互联网的可怕之处。
所以,经常看到大牛们会在一些技术博文下面提醒作者说:有bug,慎发。哈哈,你猜中了,我就试过,倒不是因为有bug,只是后期自己觉得不该把一些东西放上来,所以对博文进行了删除,例如我在某篇博文上放了校内课程实验课的所有代码,后来发现确实会有同校的师弟师妹直接copy过去应付课程任务,当然,我也知道,即便一些师弟师妹们在网上拿不到代码来抄,也会去抄同学的。但我们从道义上确实不应该这样大范围传播这些东西,毕竟课程TA们含辛茹苦地灌了鸭,最后却收到的是学生copy来的代码,自然不好,而我相信很多学校的很多计算机类课程,用的实验题目和内容几年不变,或者稍加修改就直接应用到下一届的教学任务中。
所以,对于是校内课程积累写出来的博文,我觉得更应该做好这方面的三思。
互联网的强大之处也在于此,好的坏的都可能被大范围传播,身败名裂还是一夜出名,都有可能,所以我们在将自己的一言一行公布到互联网上之前,应该确认自己发的东西是正确无误的,起码,不会因为自己的疏漏害了很多其他人。所以我估计这也是为什么做毕业设计时,严格来说不允许随意引用网上的一些不严谨的出处,要求尽量是paper论文类型的,因为确实后者的严谨性一般会比未经三思和审查就发布到互联网上的前者更强。
其实,这个道理我觉得可以扩散到生活更多地方,包括说你在某个QQ群微信群说话或者发票圈时,也是应该想到有一堆人正在看着你讲话,你的厉害之处自然会慢慢被人们看见,但是你的错误也可能因此而被传播或者被更多人知道。
须知道,民众之口和互联网传播一样,都是覆水难收。好比我删除了自己发在CSDN的博文但是发现仅仅在发布到删除之间的几天时间已经被众多黑网站爬虫去了,而那些网站我并无那个时间精力去叫他们删除博文。就像古代皇帝说过的话,那真是君子一言,驷马难追,一旦传播地比较广了,自然就无法再收回前言了,当然那时候的皇帝有那样的权威去封住民众之口。但在互联网的时代,收回覆水,这已经几乎是不可能的事情了。
本文作者为吕浪(lvlang),出自Victor Lv的CSDN博客,转载请注明出处,人工转载的不要问我该怎么写明出处,你该懂写;机器爬虫?好吧,你赢了。