zoukankan      html  css  js  c++  java
  • 搜索技术(2)

    自然语言处理

      基于规则

      基于统计

    统计语言模型

    中文分词

      梁南元--查字典

      郭进--统计语言模型

      Basis Technology 通用分词器

      葛显平、朱安

    隐含马尔科夫模型

    信息熵

    贾里尼克、香农、雅各布森、乔姆斯基、弗兰德、哈克特

    统计语音识别和自然语言处理

    雅让斯基、布莱尔


    阿米特.辛格


    搜索引擎:自动下载尽可能多的网页---》建立快速有效的索引---》根据相关性对网页进行公平准确的排序

    搜索原理:下载----》索引-----》排序

    布尔代数:George Boole:与、或、非

    莱布尼兹


    图论:网络爬虫:遍历

    欧拉----图论

    DFS:深度优先搜索、广度优先搜索

    哈希表

    如何构建一个网络爬虫?----》如何在有限时间里最多地爬下最重要的网页?

    网络爬虫:分布式系统:成千上万的服务器

    浏览器内核工程师---》网络爬虫解析程序


     网页排名技术

    PageRank:

      网页链接、承认和依赖

      二维矩阵相乘

      稀疏矩阵计算

      2003:MapReduce

      整个互联网--整体--系统论

      相关性:网页内容与查询语句、网页之间的联系


    查询与内容相关性

    关键词的频率:单文本词频:Term Frequency

    萨尔顿 Salton IDF


    地图和本地搜索:有限状态机和动态规划

    地址匹配技术、有限状态机

    有限状态机:AT&T:莫瑞、皮耶尔、瑞利

    全球导航和动态规划(Dynamic Programming)

      寻找全程最短路线---》寻找局部最短路线


    辛格、马特.克茨、马丁.柯斯尔基

    作弊问题:Spam

    乌迪.曼波、费尔南多.皮耶尔


    密码学

    凯撒大帝

    亚德丽:独臂海盗:中国黑室

    RSA:李维斯特Rivest、沙米尔Shamir、阿德尔曼Adleman

    香农:信息论,信息检索,现代密码学

    冯诺依曼:现代电子计算机、博弈论


    搜索引擎反作弊

    搜索引擎优化者、SEO

    余弦距离、余弦定理


    最大熵原理、最大熵模型


    柯林斯

    布莱尔


    马尔科夫链:贝叶斯网络

      主题、概念、关键词:Phil Cluster

  • 相关阅读:
    ABAP的HTTP_GET和Linux的curl
    SAP CRM点了附件的超链接后报错的处理方式
    一个JSON字符串和文件处理的命令行神器jq,windows和linux都可用
    如何在Ubuntu里安装Helm
    如何实现Windows宿主系统和虚拟机ubuntu系统文件互相访问
    如何安装Virtual Box的VBox Guest Additions扩展程序
    最简单的教程:在Ubuntu操作系统里安装Docker
    在ubuntun虚拟机里安装goLang语言编程环境
    hi35183e增加exfat文件系统的支持
    可以返回执行结果的system函数加强版本
  • 原文地址:https://www.cnblogs.com/defineconst/p/4296033.html
Copyright © 2011-2022 走看看