一个网站新闻页通用的正文抽取组件libnpce

zoukankan html css js c++ java

一个网站新闻页通用的正文抽取组件libnpce
一、背景

在舆情系统中，通常会有一个网络新闻爬虫子系统，准实时的采集互联网上的媒体新闻数据，以供上层聚类事件分析。这类新闻数据的组成元素包括：
- 标题
- 发布时间
- 来源及其URL链接地址
- 正文文本内容
- 正文图片信息（图片位置、图片的URL路径等）
- 其他
二、libnpce组件

新闻文章正文抽取News Passage Content Extractor (NPCE)，是为抽取HTML中的文章正文而设计的。该组件提供给予so动态链接库的调用接口和给予RESTful服务调用的接口形式。并支持python调用接口。

详细介绍可参考：https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

三、组件演示

打开页面： https://gitee.com/inrgihc/libnpce/releases/v1.0

下载httpd_npce_py-v1.0-bin.tar.gz文件，在centos环境下解压，然后执行：
cd httpd_npce_py/ ./startup.sh
命令启动服务，打开浏览器访问服务器上的服务：http://XXX.XXX.XXX.XXX:7645

在页面中的URL栏中粘贴一个新闻页面的URL地址，然后点击右侧的“抽取”按钮查看效果，我的截图如下：

抽取的URL地址：http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、性能测试

经本人工作期间，将libnpce与计算所的constor组件（闭源）进行比较测试，性能相当，并应用在公司底层的爬虫模块中进行实时正文抽取。
查看全文

相关阅读:
Unity《ATD》塔防RPG类3D游戏架构设计（一）
计算机网络基础笔记运输层协议UDP/TCP
空间划分的数据结构(四叉树/八叉树/BVH树/BSP树/k-d树)
游戏设计模式——内存池管理
 Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)
博客部署设计和构建
 教你如何把浏览器变为浏览“神器”
珍藏多年的学习资料300G+，赶紧免费领取，从此离大神更进一步(文末有彩蛋)
图解一致性哈希算法，全网（小区局域网）最通俗易懂
 SpringBoot整合Mail发送邮件&发送模板邮件

原文地址：https://www.cnblogs.com/inrgihc/p/13466736.html

一个网站新闻页通用的正文抽取组件libnpce

一、背景

二、libnpce组件

三、组件演示

三、性能测试