zoukankan      html  css  js  c++  java
  • 一个网站新闻页通用的正文抽取组件libnpce

    一、背景

        在舆情系统中,通常会有一个网络新闻爬虫子系统,准实时的采集互联网上的媒体新闻数据,以供上层聚类事件分析。这类新闻数据的组成元素包括:

    • 标题
    • 发布时间
    • 来源及其URL链接地址
    • 正文文本内容
    • 正文图片信息(图片位置、图片的URL路径等)
    • 其他

    二、libnpce组件

        新闻文章正文抽取News Passage Content Extractor (NPCE),是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

       详细介绍可参考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

    三、组件演示

    打开页面:   https://gitee.com/inrgihc/libnpce/releases/v1.0 

    下载httpd_npce_py-v1.0-bin.tar.gz文件,在centos环境下解压,然后执行:

    cd httpd_npce_py/
    ./startup.sh

    命令启动服务,打开浏览器访问服务器上的服务:http://XXX.XXX.XXX.XXX:7645

    在页面中的URL栏中粘贴一个新闻页面的URL地址,然后点击右侧的“抽取”按钮查看效果,我的截图如下:

    抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

     

    三、性能测试

        经本人工作期间,将libnpce与计算所的constor组件(闭源)进行比较测试,性能相当,并应用在公司底层的爬虫模块中进行实时正文抽取。

  • 相关阅读:
    3--jsp编译指令和动作指令
    2-hello world
    1.搭建JSP开发环境
    4-Http通信
    P1879 [USACO06NOV]玉米田Corn Fields
    P3110 [USACO14DEC]驮运Piggy Back
    P2327 [SCOI2005]扫雷
    P1004 方格取数
    P2854 [USACO06DEC]牛的过山车Cow Roller Coaster
    P1353 [USACO08JAN]跑步Running
  • 原文地址:https://www.cnblogs.com/inrgihc/p/13466736.html
Copyright © 2011-2022 走看看