zoukankan      html  css  js  c++  java
  • 6-25

    抓取目标描述
    现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。
    基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:
    (1) 预先给定的初始抓取种子样本;
    (2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
    (3) 通过用户行为确定的抓取目标样例,分为:
    (a) 用户浏览过程中显示标注的抓取样本;
    (b) 通过用户日志挖掘得到访问模式及相关样本。
    其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。
  • 相关阅读:
    ajax优缺点
    关于测量专业软件使用感受及建议
    12.7
    12.6
    场景调研
    对搜狗输入法的看法及建议
    12.9
    12.8
    12.5站立会议
    12.4站立会议
  • 原文地址:https://www.cnblogs.com/coder-2017/p/9225879.html
Copyright © 2011-2022 走看看