1.确定搜索的内容
2.网络信息爬去
2.1 抓取网页(网络浏览器和网络爬虫)
2.2 多线程,从一个种子集合开始
2.3 robots.txt允许访问的文件,礼貌策略,访问时间限制
2.4 时新性,评估每一个页面的变化比率
2.5 垂直搜索,面向主题的信息采集,主题爬虫,判断一个网页和某个主题相关,
2.6 深层网络,(私人站点,表单结果,脚本页面(比较复杂,需要模拟js运行))
2.7 网站地图(robots.txt含有一个对网站地图的引用,可以告诉爬虫爬取网页的相关信息,例如时薪,重要,主题
2.8 分布式网络爬虫,使用多个URL队列,使用散列函数,将URL分配给多个信息采集的计算机,当一个爬虫程序看到一个新的URL,就对该地址计算散列值,已确定有哪个计算机负责
3. 文档和电子邮件的采集
4. 转换问题
5. 字符编码
6. 文档存储
使用数据库系统
随机存取
压缩大规模文件
更新
BigTable数据库
7. 文本重复检测
信息指纹
文本相似度(余弦定理相似度)
8.去除噪声