业务分析
获取 www.51.job.com 上的招聘信息。只爬取“计算机软件”和“互联网电子商务”两个行业的信息。
1. 查询页面,获取查询到列表的中的url
2. 跳转到相应页面,获取需要的数据
存储数据
创建数据库,创建存储对应数据的表
实现流程
开始 —— > 列表页面 —— > 获取url —— > url加入任务 —— > 结束
Scheduler 组件
在解析页面时,很可能会解析出相同url地址,如果不进行处理,同样的url解析处理多次,浪费资源。需要一个url去重功能。
Scheduler 是 WebMagic 中进行URL管理的组件。包括两个功能:
1. 对抓取的URL页面队列进行管理;
2. 对已抓取的URL进行去重
- WebMagic 内置来几个常用的Scheduler,再本地执行规模比较小的爬虫,那么基本无需定制Scheduler:
-
-
DuplicateRemoveScheduler:抽象基类,提供一些模板方法;
-
QueueScheduler:使用内存队列保存待抓取的URL。(内存空间小,易造成内存溢出)
-
FileCacheQueueScheduler:使用文件保存抓取URL,可以在关闭程序并下次启动时,从之前抓取到的URL继续抓取(需指定路径,会建立 .urls.txt 和 .cusor.txt两个文件)
-
PriorityScheduler:使用带有优先级的内存队列保存待抓取的URL
-
RedisScheduler:使用 Redis 保存抓取队列,可以进行多台机器同时合作抓取(需要安装并启动 Redis)
-
- 去重部分被单独抽象成了一个接口:DuplicateRemove。从而可以为同一个 Scheduler 选择不同的去重方式,以适应不同的需求。目前提供了两种去重方式:
-
HashSetDuplicateRemove(默认):使用 HashSet 来进行去重,占用内存比较大
-
BloomFilterDuplicateRemove:使用 BloomFilter 来进行去重,占用内存比较小,但可能漏抓页面
-
如果使用 BloomFilter ,必须加入依赖:
-
<!-- WebMagic 对布隆过滤器的支持 -->
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>18.0</version>
</dependency>
代码实现
1. 导入相关依赖包
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.2.RELEASE</version> </parent> <groupId>com.xiaojian</groupId> <artifactId>crawler-jobinfo</artifactId> <version>1.0-SNAPSHOT</version> <dependencies> <!--SpringMVC--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> </dependency> <!--SpringData Jpa--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-jpa</artifactId> </dependency> <!--MySQL连接包--> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.17</version> </dependency> <!--WebMagic核心包--> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> </exclusions> </dependency> <!-- WebMagic扩展包 --> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency> <!-- WebMagic 对布隆过滤器的支持 --> <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>18.0</version> </dependency> <!--工具包--> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> </dependency> </dependencies> </project>
2. application.properties 配置文件
#DB Configuration: spring.datasource.driverClassName=com.mysql.cj.jdbc.Driver spring.datasource.url=jdbc:mysql://localhost:3306/db_crawler?serverTimezone=GMT%2B8&useUnicode=true&characterEncoding=UTF-8&zeroDateTimeBehavior=convertToNull spring.datasource.username=root spring.datasource.password=243600 #JPA Configuration: spring.jpa.database=mysql spring.jpa.show-sql=true
3. 书写相关类:pojo、dao、service、引导类
pojo类
@Entity @Table(name = "t_jobinfo") public class JobInfo { // 主键 @Id @GeneratedValue(strategy = GenerationType.IDENTITY) private Long id; // 公司名称 private String companyName; ... set,get.toString.....
dao
public interface JobInfoDao extends JpaRepository<JobInfo,Long> { }
service
public interface JobInfoService { /** * 保存招聘信息 * @param jobInfo */ void save(JobInfo jobInfo); /** * 根据条件查询招聘信息 * @param jobInfo */ List<JobInfo> findJobInfo(JobInfo jobInfo); }
serviceImpl
@Service public class JobInfoServiceImpl implements JobInfoService { @Resource private JobInfoDao jobInfoDao; @Override @Transactional public void save(JobInfo jobInfo) { // 根据招聘url和发布时间查询数据 JobInfo param = new JobInfo(); param.setUrl(jobInfo.getUrl()); param.setTime(jobInfo.getTime()); // 查询 List<JobInfo> list = this.findJobInfo(param); // 判断数据是否已存在 if(list.size() == 0){ // 如果数据库为空,表示招聘信息数据不存在,或者已经更新了,需要新增或更新数据 this.jobInfoDao.saveAndFlush(jobInfo); } jobInfoDao.save(jobInfo); } @Override public List<JobInfo> findJobInfo(JobInfo jobInfo) { // 设置查询条件 Example<JobInfo> example = Example.of(jobInfo); return jobInfoDao.findAll(example); } }
引导类
@SpringBootApplication // 使用定时任务,需要开启定时任务,需要加注解 @EnableScheduling public class Application { public static void main(String[] args) { SpringApplication.run(Application.class,args); } }
JobProcessor.java
@Component public class JobProcessor implements PageProcessor { private String url = "https://search.51job.com/list/030200%252C110200,000000,0000,01%252C32,9,99,java,2,1.html" + "?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary" + "=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="; @Override public void process(Page page) { // 解析页面,获取招聘信息详情的url地址 List<Selectable> list = page.getHtml().css("div#resultList div.el").nodes(); // 判断list集合是否为空 if(list.size() == 0){ // 为空: 表示详情页 // 保存招聘详情信息 this.saveJobInfo(page); } else{ // 不为空: 表示招聘列表页 // 解析出详情页url,放到任务队列中 for(Selectable s : list){ // 获取url地址 String link = s.links().toString(); // 把获取到的ulr地址放到任务队列中 page.addTargetRequest(link); } // 获取下一页url地址 String nextUrl = page.getHtml().css("div.p_in li.bk").nodes().get(1).links().toString(); // 把下一页url放到任务队列中 page.addTargetRequest(nextUrl); } String html = page.getHtml().toString(); } private Site site = Site.me() .setTimeOut(10 * 1000) // 设置超时时间 .setCharset("gbk") // 编码 .setRetryTimes(3) // 重试次数 .setRetrySleepTime(3000) // 重试间隔时间 ; @Override public Site getSite() { return site; } /** * 保存招聘详情信息 * @param page */ private void saveJobInfo(Page page) { Html html = page.getHtml(); JobInfo jobInfo = new JobInfo(); // 将信息封装到对象中 // 公司名称 jobInfo.setCompanyName(html.css("div.cn p.cname a","text").toString()); ... 根据需求,抓取对应的数据 // 把结果保存起来 page.putField("jobInfo",jobInfo); } // initialDelay,任务开启后,等多久执行方法 // fixedDelay,每隔多久执行一次 @Scheduled(initialDelay = 1000,fixedDelay = 600 * 1000) public void processor(){ Spider.create(new JobProcessor()) .addUrl(url) .setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(10000))) .addPipeline(springDataPipeline) // 数据要保存到数据库中 .thread(10) .run() ; } }
SpringDataPipeline.java
@Component public class SpringDataPipeline implements Pipeline { @Resource private JobInfoService jobInfoService; @Override public void process(ResultItems resultItems, Task task) { // 获取封装好的JobInfo对象 JobInfo jobInfo = resultItems.get("jobInfo"); // 判断数据不为空 if(jobInfo != null){ this.jobInfoService.save(jobInfo); } } }
4. 启动 Application.java
完成 !