zoukankan      html  css  js  c++  java
  • 爬网站的过程:

    l1、发现网站。百度把csdn当成关键网站,顺着已知的网站链接找到新的网站或者新的页面。
    lSEO(搜索引擎优化)的第一个手段:建外链(外部链接)。新网站吸引蜘蛛。对于非新网站,搜索引擎考虑一个“权重”,重点考察外链数量。权重越高搜索结果越靠前,“权重”的一个重要因素就是“外链”数量,外链质量(外链网站的PR值,PageRank,决定一个网站的质量的值,PR值越高网站越重要,原创、创建时间等等),Alexa 排名(全球网站排名)
    l页面数据量:几十万条。
    lSEO(搜索引擎优化)目的:让搜索引擎更多的收录网站的页面,让被收录页面的权重更靠前,让更多的人能够通过搜索引擎进入这个网站。2、抓取网页。蜘蛛会定时抓取网站的内容,发现网站内容变化、发现新增内容就反映到搜索引擎中。
    lrobots.txt是公约,搜索引擎都建议遵守,相当于一个指路牌:想让那些搜索引擎搜索,想让那些页面搜索
  • 相关阅读:
    C语言常用函数
    信号处理函数误用不可重入函数导致的进程死锁情况
    Shell脚本学习
    文件I/O详解
    字体标记的使用
    无序列表标记
    换行标记的使用
    HTML文件的基本结构
    预格式化标记的使用
    特殊标记的使用
  • 原文地址:https://www.cnblogs.com/hewencong/p/2786461.html
Copyright © 2011-2022 走看看