zoukankan      html  css  js  c++  java
  • 数据採集之Web端上传文件到Hadoop HDFS

    前言

    近期在公司接到一个任务。是关于数据採集方面的。
    需求主要有3个:

    • 通过web端上传文件到HDFS;
    • 通过日志採集的方式导入到HDFS;
    • 将数据库DB的表数据导入到HDFS。

    正好近期都有在这方面做知识储备。正所谓养兵千日,用兵一时啊。

    学习到的东西仅仅有应用到真实的环境中才有意义不是么。

    环境

    这里仅仅做模拟环境。而不是真实的线上环境,所以也非常easy。假设要使用的话还须要优化优化。

    说明一下,这个系统OS最好使用Linux的。然后Hadoop也推荐使用CDH发行版的,由于在兼容性、安全性、稳定性都要好于开源的版本号。

    比方说CDH的易于升级维护,已解决好Hadoop生态其它产品的版本号兼容问题,补丁更新比开源要及时(毕竟商业公司支持)等等
    还有之所以使用SpringBoot是由于快捷,方便,不用做一大堆的配置,无论是作为演示还是生产开发都挺好的。

    项目搭建

    这里仅仅是做一个非常easy的演示,就是在Web页面提供一个上传button,使用户能够将本地文件上传至Hadoop集群平台。

    pom.xml

    首先看下pom文件的依赖:

    <?xml version="1.0" encoding="UTF-8"?>
    <project xmlns="http://maven.apache.org/POM/4.0.0"
             xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
    
        <groupId>com.infosys.hadoop</groupId>
        <artifactId>upload</artifactId>
        <version>1.0-SNAPSHOT</version>
    
        <name>upload</name>
    
        <packaging>jar</packaging>
        <parent>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-parent</artifactId>
            <version>1.5.1.RELEASE</version>
            <relativePath/> <!-- lookup parent from repository -->
        </parent>
    
        <properties>
            <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
            <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
            <hadoop.version>2.6.5</hadoop.version>
    
        </properties>
    
        <dependencies>
            <dependency>
                <groupId>org.springframework.boot</groupId>
                <artifactId>spring-boot-starter-web</artifactId>
            </dependency>
    
            <dependency>
                <groupId>javax.servlet</groupId>
                <artifactId>javax.servlet-api</artifactId>
                <version>3.1.0</version>
            </dependency>
    
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-client</artifactId>
                <version>${hadoop.version}</version>
                <exclusions>
                    <exclusion>
                        <groupId>org.slf4j</groupId>
                        <artifactId>slf4j-log4j12</artifactId>
                    </exclusion>
                </exclusions>
            </dependency>
    
            <!-- Test -->
            <dependency>
                <groupId>junit</groupId>
                <artifactId>junit</artifactId>
                <version>4.12</version>
                <scope>test</scope>
            </dependency>
    
            <dependency>
                <groupId>org.apache.mrunit</groupId>
                <artifactId>mrunit</artifactId>
                <version>1.1.0</version>
                <classifier>hadoop2</classifier>
                <scope>test</scope>
            </dependency>
    
            <dependency>
                <groupId>org.apache.hadoop</groupId>
                <artifactId>hadoop-minicluster</artifactId>
                <version>${hadoop.version}</version>
                <scope>test</scope>
            </dependency>
        </dependencies>
    
    
        <build>
            <finalName>${project.artifactId}</finalName>
            <plugins>
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-archetype-plugin</artifactId>
                    <version>2.2</version>
                </plugin>
    
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-resources-plugin</artifactId>
                    <configuration>
                        <encoding>UTF-8</encoding>
                    </configuration>
                </plugin>
    
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-compiler-plugin</artifactId>
                    <version>3.1</version>
    
                    <configuration>
                        <source>1.8</source>
                        <target>1.8</target>
                    </configuration>
                </plugin>
    
                <plugin>
                    <groupId>org.apache.maven.plugins</groupId>
                    <artifactId>maven-jar-plugin</artifactId>
                    <version>2.5</version>
                    <configuration>
                        <outputDirectory>${basedir}</outputDirectory>
                    </configuration>
                </plugin>
    
                <plugin>
                    <groupId>org.springframework.boot</groupId>
                    <artifactId>spring-boot-maven-plugin</artifactId>
                </plugin>
            </plugins>
        </build>
    </project>

    我们就是加入了一个SpringBootHadoop Client的依赖。其它的是一些測试相关的。

    关于这个Hadoop Client它提供了一些开发Hadoop应用所需的全部依赖,能够參考之前的一篇博客:Hadoop 2.x Maven开发环境搭建

    首页

    首页界面就仅仅是提供一个上传表单button:
    index.html

    <!doctype html>
    <html lang="en">
    <head>
        <meta charset="UTF-8">
        <meta name="viewport"
              content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
        <meta http-equiv="X-UA-Compatible" content="ie=edge">
        <title>Upload</title>
    </head>
    <body>
    <form action="/upload" method="post" enctype="multipart/form-data">
        <p>
            文件:<input type="file" name="file">
        </p>
        <p>
            <input type="submit" value="上传">
        </p>
    </form>
    </body>
    </html>

    然后在Controller提供一个接口进行訪问首页:
    HomeController.java

    @Controller
    @RequestMapping(value = "/")
    public class HomeController {
    
        public ModelAndView home() {
            return new ModelAndView("index");
        }
    
    }

    上传

    上传的逻辑也非常easy,就是使用SpringBoot上传文件的形式先将文件接收到后台。然后调用Hadoop提供的接口API运行上传。


    上传接口UploadController.java

    @Controller
    public class UploadController {
    
        @PostMapping("/upload")
        @ResponseBody
        public String handleFileUpload(@RequestParam("file") MultipartFile file) {
    
            if (!file.isEmpty()) {
                try {
                    String originalFilename = file.getOriginalFilename();
    
                    BufferedOutputStream out = new BufferedOutputStream(
                            new FileOutputStream(
                                    new File(originalFilename)
                            )
                    );
    
                    out.write(file.getBytes());
    
                    out.flush();
                    out.close();
    
                    String destFileName = "/user/hadoop/" + originalFilename;
    
                    Upload.main(new String[]{originalFilename, destFileName});
    
                } catch (FileNotFoundException e) {
                    e.printStackTrace();
                    return "上传失败," + e.getMessage();
                } catch (IOException e) {
                    e.printStackTrace();
                    return "上传失败, " + e.getMessage();
                }
    
    
                return "上传成功";
    
            } else {
                return "上传失败。文件为空。

    "; } } }

    最后我们在提供一个类来操作Hadoop接口。


    Upload.java

    public class Upload {
    
        public static final String FS_DEFAULT_FS = "fs.defaultFS";
        public static final String HDFS_HOST = "hdfs://192.168.1.2:9000";
        public static final String CROSS_PLATFORM = "mapreduce.app-submission.cross-platform";
    
    
        public static void main(String[] args) throws IOException {
    
            Configuration conf = new Configuration();
    
            conf.setBoolean(CROSS_PLATFORM, true);
            conf.set(FS_DEFAULT_FS, HDFS_HOST);
    
            GenericOptionsParser optionsParser = new GenericOptionsParser(conf, args);
    
            String[] remainingArgs = optionsParser.getRemainingArgs();
            if (remainingArgs.length < 2) {
                System.err.println("Usage: upload <source> <dest>");
                System.exit(2);
            }
    
            Path source = new Path(args[0]);
            Path dest = new Path(args[1]);
    
            FileSystem fs = FileSystem.get(conf);
    
            fs.copyFromLocalFile(true, false, source, dest);
        }
    }
    

    当中的fs.defaultFS属性须要与集群Master NameNode节点中配置的一直。该属性配置一般在etc/hadoop/core-site.xml文件里进行定义。
    能够看到我们实际的操作非常easy,就仅仅是调用Hadoop的FileSystem接口中的copyFromLocalFile方法。该方法參数说明:

    • 第一个參数:表示是否删除本地的源文件。也就是上传文件后是否保留原文件。这里为了避免兴许文件越来越多,就直接採用上传成功就删除的方式。
    • 第二个參数:表示是否覆盖已存在的文件,这里false表示不覆盖,假设HDFS集群中已存在该文件,就提示上传失败。
    • 第三个參数:源文件路径
    • 第四个參数:上传到HDFS指定的路径

    后记

    当然上传的方式肯定不止这一种,比方:通过Hadoop的rest接口调用PUT也能够上传,还有Python等其它语言也有对应的API接口等等

    假设是要做成平台的话,这样肯定是远远不够的,每一个用户都能够上传就须要做好隔离措施,我们能够採用HDFS文件夹隔离的方式,只是我认为这样不够好,最好採用CDH支持的kerberos进行授权认证的方式比較好。

    开源的Hadoop默认仅仅支持Simple的形式,也就是与操作系统一致的用户验证。

  • 相关阅读:
    【宗萨仁波切】研究佛教即是研究自己,而研究自己即是发现无我
    【佩玛.丘卓】在当下那一刻觉醒...
    佩玛·丘卓:人生基本的事实
    佩玛.丘卓的生活智慧——【空船】
    佩玛·丘卓 | 宽恕自己,重新开始
    佩玛·丘卓:修炼平等心
    佩玛•丘卓 :我们需要的皆已具足
    【佩玛丘卓】喂养好狼
    佩玛.丘卓:为事情如实的面目而喜悦
    佩玛·丘卓:精神勇士的口诀
  • 原文地址:https://www.cnblogs.com/liguangsunls/p/7389180.html
Copyright © 2011-2022 走看看