zoukankan      html  css  js  c++  java
  • 织梦部分采集规则DedeCms

     

    1.幻剑书盟小说采集节点
    {dede:comments}
    {!-- 采集列表获取规则 --}
    {/dede:comments}
    {dede:list source='single' sourcetype='list'
    varstart='1' varend='10'}
    {dede:url ='http://read.hjsm.tom.com/book/[var:分页]/html/contents.html'}
    {/dede:url}
    {dede:need}http://read.hjsm.tom.com/book/{/dede:need}
    {dede:cannot}{/dede:cannot}
    {/dede:list}
    {dede:comments}
    {!-- 网页内容获取规则 --}
    {/dede:comments}
    {dede:art sptype='full'}
    {dede:sppage}{/dede:sppage}
    {dede:note field='title' ='[var:内容]'
    isunit='' isdown=''}
    {dede:match}<DIV class=title align=center>[var:内容]</div><HR>{/dede:match}
    {/dede:note}
    {dede:note field='writer' ='[var:内容]'
    isunit='' isdown=''}
    {dede:match}/index.php"><font color=blue>[var:内容]的会客室{/dede:match}
    {/dede:note}
    {dede:note field='body' ='[var:内容]'
    isunit='1' isdown='1'}
    {dede:match}</div><HR>[var:内容]</TD></TR>{/dede:match}
    {dede:trim}<p>{/dede:trim}
    {/dede:note}
    {/dede:art}
    2.翠微居小说采集节点
    {dede:comments}
    {!-- 采集列表获取规则 --}
    {/dede:comments}
    {dede:list source='single' sourcetype='list'
    varstart='34271' varend='34272'}
    {dede:url ='http://www.cuiweiju.com/articleinfo.php?id=[var:分页]'}
    {/dede:url}
    {dede:need}http://www.cuiweiju.com/htmpage/{/dede:need}
    {dede:cannot}{/dede:cannot}
    {/dede:list}
    {dede:comments}
    {!-- 网页内容获取规则 --}
    {/dede:comments}
    {dede:art sptype='full'}
    {dede:sppage}{/dede:sppage}
    {dede:note field='title' ='[var:内容]'
    isunit='' isdown=''}
    {dede:match}<div align='center'><span class='max'>[var:内容]</span><br><br><span class='min'>{/dede:match}
    {/dede:note}
    {dede:note field='writer' ='[var:内容]'
    isunit='' isdown=''}
    {dede:match}</span><br><br><span class='min'>作者:[var:内容]</span><br><br></div><div align='left'>{/dede:match}
    {/dede:note}
    {dede:note field='body' ='[var:内容]'
    isunit='1' isdown='1'}
    {dede:match}<span class='middle' id='content' name='content'><!--this-is-text-->[var:内容]<!--this-is-text--></span>{/dede:match}
    {/dede:note}
    {/dede:art}
    上面的两个都是一些小数据量的采集,由于大数据量太费时间了,所以把网址的范围写小了,有需要的朋友可以把网址的范围写大一些。


    作者:水木    
     
  • 相关阅读:
    pandas中的时间序列基础
    Python中的进程
    Pandas透视表和交叉表
    Pandas分组级运算和转换
    Python中的线程详解
    Pandas聚合
    Python面试题整理
    Pandas分组
    暑假集训 || 动态规划
    DFS || HDU 2181
  • 原文地址:https://www.cnblogs.com/hsapphire/p/1664829.html
Copyright © 2011-2022 走看看