zoukankan      html  css  js  c++  java
  • Webmagic入门案例

    webmagic

    需要的依赖:

    <dependencies>   
    <dependency>      
      <groupId>us.codecraft</groupId>                      <artifactId>webmagic-core</artifactId>                <version>0.7.3</version>  
    </dependency>  
    <dependency>      
       <groupId>us.codecraft</groupId>                       <artifactId>webmagic-extension</artifactId>           <version>0.7.3</version>    
       </dependency>
    </dependencies>

    注意:0.7.3版本对SSl的支持并不完全,如果是直接从maven中央仓库下载依赖,在爬虫时只支持SSLv1.2的网站会有SSL异常抛出

    解决方案:

    引入配置文件:log4j.properties

    详细代码:

    package cn.itcast.webmagic;

    import us.codecraft.webmagic.Page;
    import us.codecraft.webmagic.Site;
    import us.codecraft.webmagic.Spider;
    import us.codecraft.webmagic.processor.PageProcessor;

    public class JobProcessor implements PageProcessor {
    //解析页面
    public void process(Page page) {
    //解析返回的数据page,并且把解析的结果放到ResultItems中
    page.putField("title",page.getHtml().css("titile").all());
    }
    private Site site=Site.me();
    public Site getSite() {
    return site;
    }
    //主函数,执行爬虫
    public static void main(String[] args) {
    Spider.create(new JobProcessor())
    .addUrl("https://kuaibao.jd.com/?ids=234893388,234357425,234234634,235018377")//设置爬虫数据的页面
    .run();
    }
    }
    这个案例是对京东的一个页面进行数据的爬取,这只是一个简单的爬虫实例,还是比较容易看懂的,通过这个代码我们也可以对其他任何网页的信息进行爬取例如淘宝等,只需要修改上面有背景颜色的代码
    就可以实现。
  • 相关阅读:
    原生JS里获取class属性
    在Aptana下安装Zen coding
    一个Vim配置
    在Aptana下安装Zen coding
    Sublime Text2破解
    评价。评星级js代码
    javascript 6步搞定性能优化!
    document.getElementById的简写方式
    aptana 代码折行
    vim的代码折叠:设置默认代码不折叠
  • 原文地址:https://www.cnblogs.com/juddy/p/13141246.html
Copyright © 2011-2022 走看看