zoukankan      html  css  js  c++  java
  • 信息采集和信息源

    1.确定搜索的内容

    2.网络信息爬去

      2.1 抓取网页(网络浏览器和网络爬虫)

      2.2 多线程,从一个种子集合开始

      2.3 robots.txt允许访问的文件,礼貌策略,访问时间限制

      2.4 时新性,评估每一个页面的变化比率

      2.5 垂直搜索,面向主题的信息采集,主题爬虫,判断一个网页和某个主题相关,

      2.6 深层网络,(私人站点,表单结果,脚本页面(比较复杂,需要模拟js运行))

      2.7 网站地图(robots.txt含有一个对网站地图的引用,可以告诉爬虫爬取网页的相关信息,例如时薪,重要,主题

      2.8 分布式网络爬虫,使用多个URL队列,使用散列函数,将URL分配给多个信息采集的计算机,当一个爬虫程序看到一个新的URL,就对该地址计算散列值,已确定有哪个计算机负责

    3. 文档和电子邮件的采集

    4. 转换问题

    5. 字符编码

    6. 文档存储

      使用数据库系统

      随机存取

      压缩大规模文件

      更新

      BigTable数据库

    7. 文本重复检测

      信息指纹
      文本相似度(余弦定理相似度)

    8.去除噪声

  • 相关阅读:
    mvn
    MySQL 数据类型
    Request获取客户端IP
    struts1
    tomcat8.5 Host-Manager配置访问的方法
    struts2框架
    windows注册表
    windows常用命令
    浏览器内核
    创建分区swap分区
  • 原文地址:https://www.cnblogs.com/csxf/p/3421724.html
Copyright © 2011-2022 走看看