搜索引擎 - 走看看

zoukankan html css js c++ java

搜索引擎

工作原理简介
工作过程三阶段：
1、爬行和抓取：搜索引擎机器人（也称蜘蛛）跟踪链接url访问网页，获取页面代码存入数据库；
2、预处理：索引程序对所抓取页面数据进行分析和文字提取等处理；
3、排名：用户输入关键词后，排名程序调用索引库数据，计算相关性，最后按一定格式生成搜索结果页面。

蜘蛛访问一个网站时，会先访问网站根目录下robots.txt文件，并遵守协议确定是否获得抓取网址的权限。在获得权限许可后，蜘蛛会爬行遍历页面上的链接，通常有两种方式遍历爬行：深度优先和广度优先。虽然理论上能爬行和抓取所有页面，但实际上并不会这么做。
吸引蜘蛛的因素：
网站页面权重：网页深度、内页被收录多；
页面更新度：蜘蛛的放弃已经存储过并且没有更新的网页；
与首页的层级高低：层级越近首页，权重越高，被蜘蛛爬行机会越大。

网页常用SEO优化手段：原创度、更新频率、【相关度】和外链权重。用户体验也会影响网站在搜索引擎中的排名，搜索引擎会记录用户点击行为，包括点击率，点击深度等，记录下来，表现好会有利于提高排名，表现差就反之，百度表现明显。

爬行复制内容检测：蜘蛛在爬行和抓取文件时会进行一定程度的复制内容检测。对权重低的网站上有大量重复抄袭内容，将取消继续爬行。
《SEO实战密码》

查看全文

相关阅读:
ASP.NET MVC 重点教程一周年版第七回 UrlHelper 【转】
Pycharm集成Python编程环境IDE
每天前进一厘米如何快速迎头赶上
 终于开博
 大家觉得我有理，可以赞扬一下，觉得无理，可以骂一下。
好久没有见到有人谈论代码生成器了
 看了FxCop工具
 关于30岁的“青春饭”问题的看法。
更改后缀为.dex文件为.odex文件让你的程序瘦身运行更稳定
 HTC Sensation亲测修改gps.conf 教你显著提高GPS定位速度

原文地址：https://www.cnblogs.com/Ajay-blog/p/6397562.html