1.17搜索
17搜索基本框架已经搭好,从博客园、CSDN、月光博客收录的博文也越来越多,功能涵盖了基本的重要网页优先抓取、多线程抓取、间隔抓取、中断抓取、url查重、博文抽取、标题分词、倒排索引、查询、网页排名、自动摘要、页面翻转等,但在具体算法效率和可扩展性都还存在很多问题进步解决,下一步的重点主要还是放在服务器端,待完成的任务主要有重要关键词cache、线程池、DNS自动解析、压缩存储等,路还很长继续加油。
2.准备找工作
目标单位:北京大中型互联网公司。
2.1重点要读的书
重点是算法思想、底层原理、基础和常见的笔面题。
算法分析与设计、数据结构、深入理解计算机系统(内存管理、进程调度)、深度理解C++对象模型、STL源码剖析、Effective c++、数据挖掘(关联规则、分类、聚类)、设计模式、剑指offer、编程之美、数学之美、程序员面试宝典、c++ primer、unix高级编程、unix网络编程、精通unix C语言编程与项目实践。
2.2次重点要读的书
继续不断完善17搜索。
信息检索实践、搜索引擎实践原理、解密搜索引擎技术实践、搜索引擎-核心技术详解等搜索相关书书籍。
2.2其它
主要是一些基础知识。
数据库、操作系统、网络。
推荐系统实践。
hadoop做两个实验:统计词数和url。
书挺多,虽然多数都看过或正在看,但任务还是蛮重,务必抓紧时间。
3.毕业论文
目前大致想法是基于聚类的协同过滤算法改进。