1.树的遍历
深度、广度、前中后序
2.linux
VIM:文本编辑器;
AWK:awk '{pattern + action}' 或者 awk 'pattern {action}';一种编程语言,因其模式匹配语法而特别有用,通常用于数据检索和数据转换;一行分成数段操作。
GREP:从结果中选取内容,cut;
sed:sed [options] 'command' file(s),sed [options] -f scriptfile file(s) ;整行操作。
3.项目
(1)内容抽取(文章抽取[起止标签]、自动摘要[替换标签<*>,取前500])
(2)索引(中文二级hash+英文set)
(3)简单的web内容(GET、POST、COOKIE、SESSION、AJAX、JAVASCRIPT、框架)
(4)网络协议(百度检索框中输入检索词百度一下至返回结果)
百度一下-->GET方法得到url-->DNS解析出百度服务器地址-->将检索词送达百度服务器-->检索词分词得到关键词-->查询关键词索引得到命中网页-->命中网页排个序,返回top10内容--->网页再自动加载些信息
(5)网页优先抓取(广度优先,插入排序,链接多的网站优先抓)