需要的依赖:
<dependencies>
<dependency>
<groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version>
</dependency>
</dependencies>
注意:0.7.3版本对SSl的支持并不完全,如果是直接从maven中央仓库下载依赖,在爬虫时只支持SSLv1.2的网站会有SSL异常抛出
解决方案:
-
等作者的0.7.4的版本发布
-
直接从gethub上下载最新代码,安装到本地仓库
package cn.itcast.webmagic;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class JobProcessor implements PageProcessor {
//解析页面
public void process(Page page) {
//解析返回的数据page,并且把解析的结果放到ResultItems中
page.putField("title",page.getHtml().css("titile").all());
}
private Site site=Site.me();
public Site getSite() {
return site;
}
//主函数,执行爬虫
public static void main(String[] args) {
Spider.create(new JobProcessor())
.addUrl("https://kuaibao.jd.com/?ids=234893388,234357425,234234634,235018377")//设置爬虫数据的页面
.run();
}
}
这个案例是对京东的一个页面进行数据的爬取,这只是一个简单的爬虫实例,还是比较容易看懂的,通过这个代码我们也可以对其他任何网页的信息进行爬取例如淘宝等,只需要修改上面有背景颜色的代码
就可以实现。