zoukankan      html  css  js  c++  java
  • 关注垂直搜索引擎

         垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

    简介  垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

    垂直搜索引擎和普通网页搜索的区别

      垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。   微软研究院一名技术专家曾经说过:“75%的内容使用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。

    应用方向

      垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。

    技术

      垂直搜索引擎大体上需要以下技术   

      

    系统结构图

    1.搜索引擎爬虫:抓取互联网上的相关网页   2.网页结构化信息抽取技术或元数据采集技术:从网页中抽取出结构化的数据   3.分词、索引:存储并索引数据   4.数据展现:由于存储的数据并非简单的网页数据,需要考虑根据行业需求进行展示   5.其他信息处理技术

    技术评估

      垂直搜索引擎的技术评估应从以下几点来判断   1.全面性   2.更新性   3.准确性   4.功能性   垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。 简介  垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

    垂直搜索引擎和普通网页搜索的区别

      垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

      微软研究院一名技术专家曾经说过:“75%的内容使用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。

      垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。

      垂直搜索引擎大体上需要以下技术

      

      

    系统结构图

    1.搜索引擎爬虫:抓取互联网上的相关网页

      2.网页结构化信息抽取技术或元数据采集技术:从网页中抽取出结构化的数据

      3.分词、索引:存储并索引数据

      4.数据展现:由于存储的数据并非简单的网页数据,需要考虑根据行业需求进行展示

      5.其他信息处理技术

      垂直搜索引擎的技术评估应从以下几点来判断

     

      1.全面性

      2.更新性

      3.准确性

      4.功能性

      垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有技术优势的,绝对不要想像着招几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目来说对技术的把握控制程度又是垂直搜索成功的重要因素之一。

  • 相关阅读:
    函数重载及缺省参数
    巨大的斐波那契数!
    求任意多边形的面积
    hdu1068 Girls and Boys 匈牙利算法(邻接表)
    C. Coconut(2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛)
    A. Banana (2017 ACM-ICPC 亚洲区(乌鲁木齐赛区)网络赛)
    hdu6195 cable cable cable(from 2017 ACM/ICPC Asia Regional Shenyang Online)
    hdu6201 transaction transaction transaction(from 2017 ACM/ICPC Asia Regional Shenyang Online)
    hdu3938 Portal 离线+并查集
    同构图
  • 原文地址:https://www.cnblogs.com/tuyile006/p/1892391.html
Copyright © 2011-2022 走看看