爬虫技术 -- 基础学习（四）HtmlParser基本认识 - 走看看

zoukankan html css js c++ java

爬虫技术 -- 基础学习（四）HtmlParser基本认识
　　利用爬虫技术获取网页源代码后，针对网页抽取出它的特定文本内容，利用正则表达式和抽取工具，能够更好地抽取这些内容。

　　下面介绍一种抽取工具 -- HtmlParser

　　HtmlParser是一个用来解析HTML文件的java包，主要用于转换、抽取两个方面。
- 利用HtmlParser可以实现下面内容的抽取：
（1）文本抽取。作为一些垂直搜索引擎的检索内容放入数据库中。

（2）链接抽取。

（3）资源抽取。可以搜索到图像和声音等资源。

（4）链接检查。保证链接是有用的。

（5）站点检查。可以查看页面不同版本之间的差异（在爬虫过程中，防止重复抓取页面）。
- HtmlParser的转换功能通常用在以下几个方面：
（1）URL重写。可以修正页面中的错误链接。

（2）广告消除。清除页面中的广告内容和指向广告的链接。

（3）将HTML页面转换成XML页面。

（4）HTML页面清理。
查看全文

相关阅读:
通过wifi上网，桥接模式下virtualBox虚拟机无法连上网的解决办法
 Djangio笔记
 nginx hello模块代码
 nginx 访问第三方服务（1）
ngxin error日志
 lvs 负载均衡 NAT模式
 nginx location的命中过程
 linux epoll总结
 【转】操作系统 gdt ldt
linux文件系统

原文地址：https://www.cnblogs.com/lmei/p/3469331.html

Copyright © 2011-2022 走看看