zoukankan      html  css  js  c++  java
  • 网页内容抗排重的几种方式

     

     

    本来呢,这个应该是不传之秘的,不信到谷歌/baidu去搜搜看,"内容/页面/网页 抗排重"看有没有结果。

    不过我根据一个信念,那就是但凡你想得到的,谷歌都能搜得到,若是搜不到呢,那我就把它加上,让谷歌可以搜到。

    什么叫做抗排重呢,我们知道,许多网页的内容都是重复的,搜索引擎若是搜到的大篇大篇都是重复内容,自然没人去用了。所以在业界,剔除这些重复内容,通常我们叫做排重,也有叫"消重"的。

    这个世界上,有矛就有盾,所以就有了抗排重这么一说。

    如今的网页内容排重基本上都是根据信息指纹摘要来做的,这种做法可以保证完全相同的网页,一定能判断出它们重复,可是不完全相同的网页,可能有误判。

    大致是:先去除噪声,即页面中的无关紧要的tag,广告,只留下正文内容(详细什么算正文,算法说了算)。然后对正文进行分词,分词完后,去除高频词(事先会有一个高频词表),剩下的结果按照词频排序,组成这样的串,如:

    内容10重复8噪声1......

    然后从中按一定规则取一部分或许悉数,做一个hash摘要。以后每碰到一个网页,就按此法取摘要值,和已有的进行对比,据此判断是否重复。

    下面我引用一段别人总结的抗排重办法:

    办法一:拆分法

    把原有连续的文章,平均的截取成为2段3段或是更多。

    优点:下降类似度、提高访问者阅读的速度、添加页面访问量

    缺陷:文章无法连续阅读,原有的一次性阅读变得繁琐,同时对Title标题的优化也有一定的晦气,因为会有重复。不过数量较小的情况下不会有什么大碍。
     
    办法二:跟随法

    把每一个段落的结尾都添加一段话,可以是有情提示,小调查,或是其他文章的推荐。

    优点:进一步下降类似度,给可以更多讯息,提供更多运用的功能,例如"回到最上面"。

    缺陷:运用不当将下降用户体会,若是运用JAVASCEIPT等作有可能影响页面加载速度,干扰客户阅读主线。

    办法三:标签法

    在特定的关键词后添加友情注释。例如:我们所倡导的SEO(SEO相关信息)思想是......

    优点:添加用户体会,让客户可以了解更多并不熟悉的专业名词,从而更好理解文章含义。 还可以自然的重复关键词,添加关键词密度。

    缺陷:若是运用过多,会造成页面信息繁乱,下降用户体会。添加页面体积,下降加载速度。干扰原有关键词规划和密度。
     
    办法四:隐身法

    将一些没有实践用处的词运用图像代替,经过优化的GIF图像只有十几个字节,将文章中呈现的部分特定字或词进行隐身,也可以很好的到达下降页面类似度的效果。

    优点:不干扰关键词规划、不干扰用户体会、不影响阅读和加载速度、有效防止被采集。

    缺陷:只是添加少许加载时间,但几乎可以省略不计。

    这些办法呢,我没怎么用过,它们不是太麻烦自己就是太麻烦用户,可是我从排重算法本身的缺陷总结了一种办法,可谓万能抗排重法,既让用户用的很爽,自己实现也很轻松,还让搜索引擎摸不着头脑。

    今天写累了,改天有空接着写。

    注:此文重要意图在于让抗排重几个字能在谷歌搜到,并非为了普及垃圾站建站知识。所以读者不要当真,真有这么好办法我自己留着。

  • 相关阅读:
    hdu5728 PowMod
    CF1156E Special Segments of Permutation
    CF1182E Product Oriented Recurrence
    CF1082E Increasing Frequency
    CF623B Array GCD
    CF1168B Good Triple
    CF1175E Minimal Segment Cover
    php 正则
    windows 下安装composer
    windows apache "The requested operation has failed" 启动失败
  • 原文地址:https://www.cnblogs.com/mfryf/p/3121436.html
Copyright © 2011-2022 走看看