zoukankan      html  css  js  c++  java
  • 马克斯4.0 采集规则的编写

    当配置好 MaXCMS 后,进入后台,比如我的是:http://localhost/maxcms/admin/index.asp

    第一步 设置基本参数

    选择采集主菜单,点击 添加采集规则(我的其实是修改,不过和添加规则的流程一样。此处讲解主要是通过修改别人的,来了解采集规则的编写)

    maxcms-1

    目标站点网址:http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-1-12.html

    ======

    这个就是列表的第一页

    批量生成采集地址:http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-{$ID}-12.html

    =======

    这个是通过分页,具有相类似的URL的网址,通常都是一个ID的改变而已,比如 第一页就是xxx-1-12.html ,第二页就是xxx-2-12.html

    其他

    =======

    播放来源要选择好,如果目标不再这个上面,应该 不可以采集!!有能力的研究下,自己该下源码,添加下规则。

    分页设置,这里是采集分页形式的,也可以采集单个页面

    内容过滤设置,这个应该是 只采集 或者 不采集 这些标签的。看样子应该是只采集这些标签内容。

    下一步 采集列表连接设置  

    这个页面是最关键的设置。需要对前面的 http://list.juchang.com/jcl/2-0-118-0-0-0-4-4-1-1-12.html 的源代码进行分析。

    目标区域列表就是右边的那些,可以看到这块的上下 在源码理有相应的注释,那么 列表开始 和 列表结束 就是 这两个注释了。其他情况可能没有注释,需要找一些 带有 class或者id 的div块来区分了。

    下面的 在源码里,图片下面的电影的链接 是 <a target="_blank" href="http://www.juchang.com/film/123311.html" title="成家立业">成家立业</a>

    链接开始:<a target="_blank" href="

    链接结束:"

    第三步:采集内容与数据地址设置

    在第三步理的设置才是更细节的内容呢。此时,这个步骤设置的就是电影播放的页面的详细信息了。比如就是上面的那个链接:http://www.juchang.com/film/123311.html

    根据这些名称,对照者源码,进行查找。应该是必须找到唯一的,才算。这个比较累人。麻烦。我这个应该是过时了,需要更新的。

    回来再补充完善。通过研究,我发现制作一些采集规则还是比较折腾的,还可以。就是没有方便的教程。

    转载请注明出处:http://www.cnblogs.com/ayanmw 多谢

    ------------------------------------------------------------------------------------------------

    一定要专业!本博客定位于 ,C语言,C++语言,Java语言,Android开发和少量的Web开发,之前是做Web开发的,其实就是ASP维护,发现EasyASP这个好框架,对前端后端数据库 都很感觉亲切啊。. linux,总之后台开发多一点。以后也愿意学习 cocos2d-x 游戏客户端的开发。

  • 相关阅读:
    实验室机器OracleXE客户端连接远程Oracle服务器
    PLSQL Developer 远程连接Oracle XE数据库(其他Oracle数据库类似)
    VB进制转化大全
    给定一个硬盘标识,umout掉所有相关挂载
    linux读取硬盘指定扇区
    开发板上挂载NTFS分区
    write error:file too large!!!
    一些自用的c函数
    主引导记录(MBR)分析
    strtok_r函数学习
  • 原文地址:https://www.cnblogs.com/ayanmw/p/2124912.html
Copyright © 2011-2022 走看看