zoukankan      html  css  js  c++  java
  • 面试--百度网页搜索部一面总结

    1.树的遍历

    深度、广度、前中后序

    2.linux

    VIM:文本编辑器;

    AWK:awk '{pattern + action}' 或者 awk 'pattern {action}';一种编程语言,因其模式匹配语法而特别有用,通常用于数据检索和数据转换;一行分成数段操作。

    GREP:从结果中选取内容,cut;

    sed:sed [options] 'command' file(s),sed [options] -f scriptfile file(s) ;整行操作。

    3.项目

    (1)内容抽取(文章抽取[起止标签]、自动摘要[替换标签<*>,取前500])

    (2)索引(中文二级hash+英文set)

    (3)简单的web内容(GET、POST、COOKIE、SESSION、AJAX、JAVASCRIPT、框架)

    (4)网络协议(百度检索框中输入检索词百度一下至返回结果)

    百度一下-->GET方法得到url-->DNS解析出百度服务器地址-->将检索词送达百度服务器-->检索词分词得到关键词-->查询关键词索引得到命中网页-->命中网页排个序,返回top10内容--->网页再自动加载些信息

    (5)网页优先抓取(广度优先,插入排序,链接多的网站优先抓)

  • 相关阅读:
    API开放平台基于accessToken实现
    web记住我功能的实现
    SpringBoot整合AbstractRoutingDataSource实现读写分离
    手写简化版SpringBoot
    mybatisGenerator
    C程序编译执行过程
    用WaveX实现音频文件的录音
    java学习--数组
    Linux学习笔记--vim
    PHP常量总结
  • 原文地址:https://www.cnblogs.com/siliconvalley/p/3167105.html
Copyright © 2011-2022 走看看