zoukankan      html  css  js  c++  java
  • 开源 java CMS

    原文地址:http://javaz.cn/site/javaz/site_study/info/2015/23312.html

    项目地址:http://www.freeteam.cn/

    Web页面信息採集

       从FreeCMS 2.1開始支持

    通过简单配置就可以抓取目标网页信息,支持增量式採集、keyword替换、定时採集,同一採集规则可採集多个页面(静态和动态)。可採集多种信息属性。可自己主动审核且静态化信息页面。

    採集规则管理

    从左側管理菜单点击採集规则进入。

    加入採集规则

    在採集规则列表下方点击"加入"button。

    填写相关属性后点击"保存"button就可以。

    採集规则属性说明

    採集规则属性分为基本、设置、採集地址,採集属性。关键词替换。

    普通情况下仅仅要在基本选项卡填写相关属性就可以完毕。假设须要很多其它高级设置能够使用后面几个选项卡。

    以下针对主要属性进行解释说明。

    名称:採集规则的名称。

    採集到栏目:採集的信息要加入到那个栏目。

    页面编码:目标网页的页面编码,默觉得UTF-8。

    採集地址:目标网页的地址。在基本选项卡中仅仅能设置一个,想要设置多个能够在採集地址选项卡中设置。

    採集调度:设置定时运行採集操作,这个设置很重要。仅仅有设置了採集调度系统才运行採集操作。

    内容列表開始结束html:由于系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的開始结束html就非常重要,一定要设置为相对照较唯一的開始结束html,这样系统才干正确的截取到目标属性。

    此属性主要为了截取目标页面信息列表的html.

    内容地址開始结束html:依据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

    内容标题開始结束html:依据上面的属性获取内容地址后。系统会抓取此内容地址的网页内容。然后依据此属性截取内容标题。内容相关属性的设置跟此属性类似。以下不再赘述。

    状态:启用状态下的採集规则,系统才会运行。

    採集图片:将信息内容中的图片下载到本地。

    自己主动审核通过:将採集的信息直接设置为已审核状态。

    使用採集信息点击量:默认採集到的信息的点击量为0。设置此属性和内容点击量開始结束html后系统会截取目标信息的点击量,设置为採集后信息的点击量。

    最多採集内容数:默认不限制,假设设置了此属性,系统会从採集记录中统计此採集规则已採集了多少条信息,假设超过最多採集内容数。系统将不再採集。

    将首幅图片设为标题图片:假设信息内容中有图片,则提取第一张做为标题图片。并设置信息为图片信息。

    清除内容中的html标签:将信息内容中的html标签清除。保留纯文本。

    当内容为空时是否採集:可设置在内容为空时不採集此信息。

    使用採集信息的加入时间:默认採集到的信息的加入时间为当前时间。设置此属性和内容加入时间開始结束html后系统会截取目标信息的加入时间,设置为採集后信息的加入时间。

    採集信息加入时间格式:默认格式为yyyy-MM-dd,假设目标页面的加入时间格式不同,须要在这里设置为正确的日期格式。

    採集開始时间:默觉得当前时间,假设不到採集開始时间,系统是不会採集的。

    採集结束时间:默觉得永不结束,假设超过採集结束时间,系统是不会採集的。

    内容地址补全url:由于有些网页使用的是相对路径或绝对路径。能够设置内容地址的前缀。

    图片地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置图片链接地址的前缀。

    内容中A标签链接地址补全url:由于有些网页使用的是相对路径或绝对路径,能够设置内容中A标签链接地址的前缀。

    採集地址分为静态和动态地址,静态地址为固定的地址。动态地址一般指能够分页的地址,通过{page}来代表分页变量,能够设置从那一页採集到那一页,如http://www.freetam.cn/list_{page}.html,设置開始页数为1,结束页数为10,系统会自己主动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html全部页面的数据。

    普通情况下我们仅仅採集信息的标题和内容就能够了,系统还提供採集内容描写叙述、点击量、作者、来源、加入时间属性的功能。

    通过关键词替换功能,您能够将採集到的信息里面的关键词替换为自己想要的关键词。


    编辑採集规则

    选择须要编辑的採集规则,然后点击"编辑"button。

    注意:同一时候仅仅能编辑一个採集规则。

    填写相关属性后点击"保存"button就可以。

    採集

    选择须要採集的採集规则。然后点击"採集"button。

    注意:同一时候仅仅能对一个採集规则进行採集操作。

    删除採集规则

    选择须要删除的採集规则,然后点击"删除"button。

    提示:同一时候能够删除多个採集规则。

    为了防止误操作,系统会提示用户是否删除,点击"确定"完毕删除操作。

    查看採集记录

    从左側管理菜单点击採集记录进入。

    在这里能够查看到全部web页面採集记录,您能够删除指定的採集记录。但并不会删除已採集的信息数据,选择须要删除的採集记录。然后点击"删除"button。

       提示:同一时候能够删除多个採集记录。


    为了防止误操作,系统会提示用户是否删除。点击"确定"完毕删除操作。

  • 相关阅读:
    亿级 Web 系统搭建:单机到分布式集群
    机器学习14种常见算法
    Nginx——使用 Nginx 提升网站访问速度【转载+整理】
    全栈开发工程师,就是个神话~【转载+整理】
    谷歌、亚马逊相继宣布屏蔽 Flash 广告,又一个时代行将结束?【转载+整理】
    前端框架现状调查【转载+整理】
    Swift 编程语言【转载+整理】
    如何将 Java 项目转换成 Maven 项目
    Eclipse 4.5.0 离线安装 Veloeclipse 插件
    Java 8 新特性——Lambdas 表达式
  • 原文地址:https://www.cnblogs.com/hrhguanli/p/5060280.html
Copyright © 2011-2022 走看看