zoukankan      html  css  js  c++  java
  • 爬虫技术 -- 基础学习(四)HtmlParser基本认识

      利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容。

      下面介绍一种抽取工具 -- HtmlParser

      HtmlParser是一个用来解析HTML文件的java包,主要用于转换、抽取两个方面。

    • 利用HtmlParser可以实现下面内容的抽取

    (1)文本抽取。作为一些垂直搜索引擎的检索内容放入数据库中。

    (2)链接抽取。

    (3)资源抽取。可以搜索到图像和声音等资源。

    (4)链接检查。保证链接是有用的。

    (5)站点检查。可以查看页面不同版本之间的差异(在爬虫过程中,防止重复抓取页面)。

    • HtmlParser的转换功能通常用在以下几个方面:

    (1)URL重写。可以修正页面中的错误链接。

    (2)广告消除。清除页面中的广告内容和指向广告的链接。

    (3)将HTML页面转换成XML页面。

    (4)HTML页面清理。

  • 相关阅读:
    vue自定义指令使用注意事项
    es6新增方法---实用
    webpack和gulp的区别
    OSI 5层协议,socket,从协议角度看网络通信
    网络通信流程
    数据相关的模块
    一些模块
    面向对象
    ATM作业
    XML模块增删改查基本操作
  • 原文地址:https://www.cnblogs.com/lmei/p/3469331.html
Copyright © 2011-2022 走看看