zoukankan      html  css  js  c++  java
  • 网页正文内容的提取

    这里说的正文提取/抽取,指的是从任意页面中抽取出网页的正文内容,要过滤掉导航、广告等不相关内容。

    从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果从语法分析去考虑,这个部分不参与人工,目前还没看到有成功的案例。 在垂直搜索中,目前绝大多数以模板为主。

    网页的正文提取有好多种算法,有基于视觉的、基于标记窗的、基于双层决策的、基于链接密度分布等算法。

    实际上,比较简单适用的是统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。

  • 相关阅读:
    MySQL性能调优——索引详解与索引的优化
    Linux命令之文件搜索
    MySQL中的行级锁,表级锁,页级锁
    MySQL存储引擎
    Linux软链接和硬链接
    linux学习笔记
    在浏览器中输入一个网址后,发生了什么?
    二叉排序树
    有序表查找
    为view设置虚线边框
  • 原文地址:https://www.cnblogs.com/xinzhyu/p/1352228.html
Copyright © 2011-2022 走看看