zoukankan      html  css  js  c++  java
  • Information Retrieval II

    Information Retrieval II

      搜索引擎分类:

        1、目录式搜索引擎。

        2、全文搜索引擎。

        3、元搜索引擎(Meta-Search Engine)。

      搜索引擎的4个阶段:下载(crawl) -> 分析(segment & pagerank)-> 索引(indexing)-> 查询(retrieval)。

      crawler,也就是传说中的爬虫,或者蜘蛛。

      

      下载、分析、索引被称为“离线部分”(offline part),也叫做在线系统;查询部分被称为“在线部分“(online part),也叫做离线系统。在线系统需要毫秒级的访问速度,而离线系统无时间要求,所以大部数的离线工作会设计成需要1-4周。

      对于网页搜索(即传说中的大搜索),存储分为网页数据(镜像)和网页索引。

    网页抓取策略

      网页的重要性:  

      1、链接欢迎度:反向链接。

      2、链接重要度:包括.com或home的URL重要度高,以及具有较少斜框‘/’的重要度高。

      3、平均链接深度:离种子网页越近的重要度越高。

      所以,重要性=a*反向链接标量 + b*链接重要度标量。

    Robots协议

      robots协议是一个robots.txt名字的文件,放置在站点的根目录上。里面记录了哪些是不让抓取的目录。

    抓取提速策略

      1、提高抓取单个网页的速度。(被证明基本不可行)

      2、尽可能减少不必要的抓取任务。(难度大)

      3、增加同时工作的爬虫数量。(可行)

        对于小的网站,为了节省成本,通过多个域名会映射到一个IP;而对于大型网站,因为访问量大,使用了负载均衡,即一个域名对应多个IP。所以无论按域名还是按IP来分工crawler的任务,都会有重复。在实际应用中,通过是按照域名来划分crawler任务,国为小在网页即始重复数据也不多,可以接受。

    网页结构化数据

      

     anchor,全称是anchor text,中文名字叫锚文本。

    齐普夫法则

      齐普夫法则为:第k个最经常出现的词,其词频与1/k成正比。即第k常出现的词,他的出现率为一个常量的1/k。

      

  • 相关阅读:
    BEGINNING SHAREPOINT® 2013 DEVELOPMENT 第15章节--开发SP2013工作流应用程序 总结
    OpenStreetMap初探(一)——了解OpenStreetMap
    企业服务总线架构介绍
    【Stackoverflow好问题】java在,如何推断阵列Array是否包括指定的值
    C和指针 (pointers on C)——第一章:高速启动
    类别sort使用排序
    [Oracle]
    4点,从今天谈用户体验设计经验京东亚马逊购物
    从[java.lang.OutOfMemoryError: Java heap space]恢复
    C++学习笔记32 断言函数
  • 原文地址:https://www.cnblogs.com/tekkaman/p/3390260.html
Copyright © 2011-2022 走看看