zoukankan      html  css  js  c++  java
  • 阶段性总结20130613

    1.17搜索

    17搜索基本框架已经搭好,从博客园、CSDN、月光博客收录的博文也越来越多,功能涵盖了基本的重要网页优先抓取、多线程抓取、间隔抓取、中断抓取、url查重、博文抽取、标题分词、倒排索引、查询、网页排名、自动摘要、页面翻转等,但在具体算法效率和可扩展性都还存在很多问题进步解决,下一步的重点主要还是放在服务器端,待完成的任务主要有重要关键词cache、线程池、DNS自动解析、压缩存储等,路还很长继续加油。

    2.准备找工作

    目标单位:北京大中型互联网公司。

    2.1重点要读的书

    重点是算法思想、底层原理、基础和常见的笔面题。

     算法分析与设计、数据结构、深入理解计算机系统(内存管理、进程调度)、深度理解C++对象模型、STL源码剖析、Effective c++、数据挖掘(关联规则、分类、聚类)、设计模式、剑指offer、编程之美、数学之美、程序员面试宝典、c++ primer、unix高级编程、unix网络编程、精通unix C语言编程与项目实践。

    2.2次重点要读的书

    继续不断完善17搜索。

    信息检索实践、搜索引擎实践原理、解密搜索引擎技术实践、搜索引擎-核心技术详解等搜索相关书书籍。

    2.2其它

    主要是一些基础知识。

    数据库、操作系统、网络。

    推荐系统实践。

    hadoop做两个实验:统计词数和url。

    书挺多,虽然多数都看过或正在看,但任务还是蛮重,务必抓紧时间。

    3.毕业论文

    目前大致想法是基于聚类的协同过滤算法改进。

  • 相关阅读:
    QT visual stuido 集成插件不能打开ui文件的解决方法(去掉xml的UTF8标记)
    就异地协作办公来说, 360的体验完爆他们——360书生企业云盘 来了
    MVC 4
    Mvc的多层架构
    代码生成器
    js理解
    我(webabcd)的文章索引
    多个视图结果显示于一个共用预览视图内
    .NET源码
    Using Ninject in a Web Application
  • 原文地址:https://www.cnblogs.com/siliconvalley/p/3133507.html
Copyright © 2011-2022 走看看