zoukankan      html  css  js  c++  java
  • 终于见识到垃圾站了

      以前只是听别人提起垃圾站,不知道什么叫做垃圾站,今天是彻底被恶心到了。所谓的垃圾站,大部分是指采集站,即用机器去采集大网站的内容,至于采集的是什么,就看这个机器人怎么写了。

        昨天刚写的两篇博客,是在csdn上写的,然后发现被第七城市网站收录了,我一开始还是挺高兴的,因为我是学过PHP的,也知道采集程序的一些做法,但是自己还是没动手写过采集站。今天我再搜搜自己写的那篇博客把,好像被上海一家什么公司给收录了,收录之后我习惯性的点击去看了下,发现了好多错别字,我就纳闷了:我虽然打字可能有手误,但是不至于差这么十万八千里啊,于是,就回到我原来的博客的地方看了下,发现没错误啊。

         于是就百度了下采集站,看了几个小站长的生存方式,终于知道怎么回事了,这个设计到被百度收录的一些算法问题,因此他们会根据一些SEO的知识来修改这些采集来的信息,虽然修改之后会导致一些错误,但是读者通常会认为是作者一时手快打错的,也不会太在意。

          本来我对采集这件事并不反感,但是你采集的信息再加上一些错误信息,就让我特别恼火了,这种垃圾站的用处何在?难道说只是为了让信息更加膨胀吗?人人都在刷IP,最终坑的是用户,哎,难道就不能有一种完美的解决方案吗?

         我真的不知道说什么了,难道流量对你们那么重要?

  • 相关阅读:
    ll command not found 当ll无法识别的解决办法
    idea控制台全屏
    查看centos版本号
    java Error: 无法访问org.apache.http.annotation.ThreadSafe 找不到org.apache.http.annotation.ThreadSafe的类文件
    DigestUtils.md5Hex()加密
    JAVA 8 '::' 关键字
    CVE-2020-1472 NetLogon特权提升漏洞
    OpenSSH的scp命令注入漏洞(CVE-2020-15778)
    redis未授权访问漏洞&简单利用&总结
    常见web信息泄露
  • 原文地址:https://www.cnblogs.com/xinxing/p/3857658.html
Copyright © 2011-2022 走看看