zoukankan      html  css  js  c++  java
  • 网络爬虫-案例实现

    业务分析

        获取 www.51.job.com 上的招聘信息。只爬取“计算机软件”和“互联网电子商务”两个行业的信息。

        1. 查询页面,获取查询到列表的中的url

        image.png

        2. 跳转到相应页面,获取需要的数据

            image.png

    存储数据

    创建数据库,创建存储对应数据的表

            image.png

    实现流程

        开始 —— > 列表页面 —— > 获取url —— > url加入任务 —— > 结束

        

    Scheduler 组件

        在解析页面时,很可能会解析出相同url地址,如果不进行处理,同样的url解析处理多次,浪费资源。需要一个url去重功能。

        Scheduler 是 WebMagic 中进行URL管理的组件。包括两个功能:

            1. 对抓取的URL页面队列进行管理;

            2. 对已抓取的URL进行去重

        

        - WebMagic 内置来几个常用的Scheduler,再本地执行规模比较小的爬虫,那么基本无需定制Scheduler:

      • DuplicateRemoveScheduler:抽象基类,提供一些模板方法;

      • QueueScheduler:使用内存队列保存待抓取的URL。(内存空间小,易造成内存溢出)

      • FileCacheQueueScheduler:使用文件保存抓取URL,可以在关闭程序并下次启动时,从之前抓取到的URL继续抓取(需指定路径,会建立 .urls.txt 和 .cusor.txt两个文件)

      • PriorityScheduler:使用带有优先级的内存队列保存待抓取的URL

      • RedisScheduler:使用 Redis 保存抓取队列,可以进行多台机器同时合作抓取(需要安装并启动 Redis)

        - 去重部分被单独抽象成了一个接口:DuplicateRemove。从而可以为同一个 Scheduler 选择不同的去重方式,以适应不同的需求。目前提供了两种去重方式:

      • HashSetDuplicateRemove(默认):使用 HashSet 来进行去重,占用内存比较大

      • BloomFilterDuplicateRemove:使用 BloomFilter 来进行去重,占用内存比较小,但可能漏抓页面

        • 如果使用 BloomFilter ,必须加入依赖:

        • <!-- WebMagic 对布隆过滤器的支持 -->
          <dependency>
              <groupId>com.google.guava</groupId>
              <artifactId>guava</artifactId>
              <version>18.0</version>
          </dependency>

    代码实现        

        1. 导入相关依赖包

    <?xml version="1.0" encoding="UTF-8"?>
    <project xmlns="http://maven.apache.org/POM/4.0.0"
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
    
        <parent>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-parent</artifactId>
            <version>2.0.2.RELEASE</version>
        </parent>
    
        <groupId>com.xiaojian</groupId>
        <artifactId>crawler-jobinfo</artifactId>
        <version>1.0-SNAPSHOT</version>
    
        <dependencies>
            <!--SpringMVC-->
            <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-web</artifactId>
            </dependency>
    
            <!--SpringData Jpa-->
            <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-data-jpa</artifactId>
            </dependency>
    
            <!--MySQL连接包-->
            <dependency>
                <groupId>mysql</groupId>
                <artifactId>mysql-connector-java</artifactId>
                <version>8.0.17</version>
            </dependency>
    
            <!--WebMagic核心包-->
            <dependency>
                <groupId>us.codecraft</groupId>
                <artifactId>webmagic-core</artifactId>
                <version>0.7.3</version>
                <exclusions>
                    <exclusion>
                        <groupId>org.slf4j</groupId>
                        <artifactId>slf4j-log4j12</artifactId>
                    </exclusion>
                </exclusions>
            </dependency>
    
            <!-- WebMagic扩展包 -->
            <dependency>
                <groupId>us.codecraft</groupId>
                <artifactId>webmagic-extension</artifactId>
                <version>0.7.3</version>
            </dependency>
    
            <!-- WebMagic 对布隆过滤器的支持 -->
            <dependency>
                <groupId>com.google.guava</groupId>
                <artifactId>guava</artifactId>
                <version>18.0</version>
            </dependency>
    
            <!--工具包-->
            <dependency>
                <groupId>org.apache.commons</groupId>
                <artifactId>commons-lang3</artifactId>
            </dependency>
    
        </dependencies>
    </project>

      2. application.properties 配置文件

    #DB Configuration:
    spring.datasource.driverClassName=com.mysql.cj.jdbc.Driver
    spring.datasource.url=jdbc:mysql://localhost:3306/db_crawler?serverTimezone=GMT%2B8&useUnicode=true&characterEncoding=UTF-8&zeroDateTimeBehavior=convertToNull
    spring.datasource.username=root
    spring.datasource.password=243600
    
    #JPA Configuration:
    spring.jpa.database=mysql
    spring.jpa.show-sql=true

        3. 书写相关类:pojo、dao、service、引导类

    pojo类

    @Entity
    @Table(name = "t_jobinfo")
    public class JobInfo {
        // 主键
        @Id
        @GeneratedValue(strategy = GenerationType.IDENTITY)
        private Long id;
        // 公司名称
        private String companyName;
        ...
        set,get.toString.....

    dao

    public interface JobInfoDao extends JpaRepository<JobInfo,Long> {
    }

    service

    public interface JobInfoService {
        /**
         * 保存招聘信息
         * @param jobInfo
         */
        void save(JobInfo jobInfo);
    
        /**
         * 根据条件查询招聘信息
         * @param jobInfo
         */
        List<JobInfo> findJobInfo(JobInfo jobInfo);
    }

    serviceImpl

    @Service
    public class JobInfoServiceImpl implements JobInfoService {
        @Resource
        private JobInfoDao jobInfoDao;
        @Override
        @Transactional
        public void save(JobInfo jobInfo) {
            // 根据招聘url和发布时间查询数据
            JobInfo param = new JobInfo();
            param.setUrl(jobInfo.getUrl());
            param.setTime(jobInfo.getTime());
            // 查询
            List<JobInfo> list = this.findJobInfo(param);
            // 判断数据是否已存在
            if(list.size() == 0){
                // 如果数据库为空,表示招聘信息数据不存在,或者已经更新了,需要新增或更新数据
                this.jobInfoDao.saveAndFlush(jobInfo);
            }
    
            jobInfoDao.save(jobInfo);
        }
    
        @Override
        public List<JobInfo> findJobInfo(JobInfo jobInfo) {
            // 设置查询条件
            Example<JobInfo> example = Example.of(jobInfo);
    
            return jobInfoDao.findAll(example);
        }
    }

    引导类

    @SpringBootApplication
    // 使用定时任务,需要开启定时任务,需要加注解
    @EnableScheduling
    public class Application {
    
        public static void main(String[] args) {
            SpringApplication.run(Application.class,args);
        }
    
    }

    JobProcessor.java

    @Component
    public class JobProcessor implements PageProcessor {
        private String url = "https://search.51job.com/list/030200%252C110200,000000,0000,01%252C32,9,99,java,2,1.html" +
                "?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary" +
                "=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=";
        @Override
        public void process(Page page) {
            // 解析页面,获取招聘信息详情的url地址
         List<Selectable> list = page.getHtml().css("div#resultList div.el").nodes();
         // 判断list集合是否为空
         if(list.size() == 0){
                // 为空: 表示详情页
         // 保存招聘详情信息
         this.saveJobInfo(page);
         } else{
                // 不为空: 表示招聘列表页
         // 解析出详情页url,放到任务队列中
         for(Selectable s : list){
                    // 获取url地址
         String link = s.links().toString();
         // 把获取到的ulr地址放到任务队列中
         page.addTargetRequest(link);
         }
                // 获取下一页url地址
         String nextUrl = page.getHtml().css("div.p_in li.bk").nodes().get(1).links().toString();
         // 把下一页url放到任务队列中
         page.addTargetRequest(nextUrl);
         }
        
            String html = page.getHtml().toString();
        }
    
        private Site site = Site.me()
            .setTimeOut(10 * 1000) // 设置超时时间
            .setCharset("gbk")    // 编码
            .setRetryTimes(3)    // 重试次数
            .setRetrySleepTime(3000)    // 重试间隔时间
            ;
        @Override
        public Site getSite() {
            return site;
        }
         /**
         * 保存招聘详情信息
         * @param page
         */
        private void saveJobInfo(Page page) {
            Html html = page.getHtml();
        
            JobInfo jobInfo = new JobInfo();
            // 将信息封装到对象中
            // 公司名称
            jobInfo.setCompanyName(html.css("div.cn p.cname a","text").toString());
            ... 根据需求,抓取对应的数据
        
            // 把结果保存起来
            page.putField("jobInfo",jobInfo);
        }
        
        // initialDelay,任务开启后,等多久执行方法
        // fixedDelay,每隔多久执行一次
        @Scheduled(initialDelay = 1000,fixedDelay = 600 * 1000)
        public void processor(){
            Spider.create(new JobProcessor())
                    .addUrl(url)
                    .setScheduler(new QueueScheduler().setDuplicateRemover(new BloomFilterDuplicateRemover(10000)))
                    .addPipeline(springDataPipeline)    // 数据要保存到数据库中
                    .thread(10)
                    .run()
            ;
        }
    }

    SpringDataPipeline.java

    @Component
    public class SpringDataPipeline implements Pipeline {
    
        @Resource
        private JobInfoService jobInfoService;
    
        @Override
        public void process(ResultItems resultItems, Task task) {
            // 获取封装好的JobInfo对象
            JobInfo jobInfo = resultItems.get("jobInfo");
            // 判断数据不为空
            if(jobInfo != null){
                this.jobInfoService.save(jobInfo);
            }
        }
    }

    4. 启动 Application.java

        image.png

    完成 !

  • 相关阅读:
    第一次作业
    java基础随笔09
    java基础随笔08
    java基础随笔07
    java基础随笔06
    java基础随笔05
    java基础随笔04
    java基础随笔03
    java基础随笔02
    java基础随笔01
  • 原文地址:https://www.cnblogs.com/jr-xiaojian/p/12310480.html
Copyright © 2011-2022 走看看