zoukankan      html  css  js  c++  java
  • Webmagic入门案例

    webmagic

    需要的依赖:

    <dependencies>   
    <dependency>      
      <groupId>us.codecraft</groupId>                      <artifactId>webmagic-core</artifactId>                <version>0.7.3</version>  
    </dependency>  
    <dependency>      
       <groupId>us.codecraft</groupId>                       <artifactId>webmagic-extension</artifactId>           <version>0.7.3</version>    
       </dependency>
    </dependencies>

    注意:0.7.3版本对SSl的支持并不完全,如果是直接从maven中央仓库下载依赖,在爬虫时只支持SSLv1.2的网站会有SSL异常抛出

    解决方案:

    引入配置文件:log4j.properties

    详细代码:

    package cn.itcast.webmagic;

    import us.codecraft.webmagic.Page;
    import us.codecraft.webmagic.Site;
    import us.codecraft.webmagic.Spider;
    import us.codecraft.webmagic.processor.PageProcessor;

    public class JobProcessor implements PageProcessor {
    //解析页面
    public void process(Page page) {
    //解析返回的数据page,并且把解析的结果放到ResultItems中
    page.putField("title",page.getHtml().css("titile").all());
    }
    private Site site=Site.me();
    public Site getSite() {
    return site;
    }
    //主函数,执行爬虫
    public static void main(String[] args) {
    Spider.create(new JobProcessor())
    .addUrl("https://kuaibao.jd.com/?ids=234893388,234357425,234234634,235018377")//设置爬虫数据的页面
    .run();
    }
    }
    这个案例是对京东的一个页面进行数据的爬取,这只是一个简单的爬虫实例,还是比较容易看懂的,通过这个代码我们也可以对其他任何网页的信息进行爬取例如淘宝等,只需要修改上面有背景颜色的代码
    就可以实现。
  • 相关阅读:
    Oracle通过透明网关连接SQL SERVER
    无法初始化链接服务器 "(null)" 的 OLE DB 访问接口 "Microsoft.Jet.OLEDB.4.0" 的数据源
    DBGrid应用
    C#学习之C#3.0语言功能
    windows 下 java 环境配置
    discuz UCenter对接遇到问题总汇
    mysql 备份之mysqldump 常用命令
    struts2与FreeMarker 简单配置实现
    hessian 简单实现
    jquery ui
  • 原文地址:https://www.cnblogs.com/juddy/p/13141246.html
Copyright © 2011-2022 走看看