zoukankan      html  css  js  c++  java
  • 搜索引擎

    工作原理简介
    工作过程三阶段:
    1、爬行和抓取:搜索引擎机器人(也称蜘蛛)跟踪链接url访问网页,获取页面代码存入数据库;
    2、预处理:索引程序对所抓取页面数据进行分析和文字提取等处理;
    3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,最后按一定格式生成搜索结果页面。

    蜘蛛访问一个网站时,会先访问网站根目录下robots.txt文件,并遵守协议确定是否获得抓取网址的权限。在获得权限许可后,蜘蛛会爬行遍历页面上的链接,通常有两种方式遍历爬行:深度优先和广度优先。虽然理论上能爬行和抓取所有页面,但实际上并不会这么做。
    吸引蜘蛛的因素:
    网站页面权重:网页深度、内页被收录多;
    页面更新度:蜘蛛的放弃已经存储过并且没有更新的网页;
    与首页的层级高低:层级越近首页,权重越高,被蜘蛛爬行机会越大。

    网页常用SEO优化手段:原创度、更新频率、【相关度】和外链权重。用户体验也会影响网站在搜索引擎中的排名,搜索引擎会记录用户点击行为,包括点击率,点击深度等,记录下来,表现好会有利于提高排名,表现差就反之,百度表现明显。

    爬行复制内容检测:蜘蛛在爬行和抓取文件时会进行一定程度的复制内容检测。对权重低的网站上有大量重复抄袭内容,将取消继续爬行。
    《SEO实战密码》

  • 相关阅读:
    Python
    Linux, Nginx
    Python
    C#图像处理(各种旋转、改变大小、柔化、锐化、雾化、底片、浮雕、黑白、滤镜效果)
    堆——神奇的优先队列(下)
    堆——神奇的优先队列(上)
    二叉树
    开启“树”之旅
    巧妙的邻接表(数组实现)
    Dijkstra最短路算法
  • 原文地址:https://www.cnblogs.com/Ajay-blog/p/6397562.html
Copyright © 2011-2022 走看看