zoukankan      html  css  js  c++  java
  • 数据工程师必备的8项技能,不要只知道Python!

    欢迎关注公众号:机器学习算法与Python实战(ID:tjxj666)

    原作:Mohammed M Jubapu
    译者:机器学习算法与Python实战(公众号ID:tjxj666)
    英文https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

    数据工程师是当今市场上最受欢迎的工作之一。数据无处不在,被认为是新时代的能源。公司从不同来源生成大量数据,数据工程师的任务是组织数据信息的收集,处理和存储。但是,要成为一名数据工程师,您需要具备一些出色的技能,例如数据库,大数据,ETL和数据仓库,云计算以及编程语言。但是问题来了,您是否想拥有所有这些技能,或者您想使用所有工具?为简化此操作,让我们抓住机会,直接深入研究数据工程人才市场中的最新技能,这肯定会增加您现有的职业生涯或协助您开始数据工程之旅。

    1-精通一种编程语言

    是的,编程语言是数据工程的必备技能。多数职位概况要求精通至少一种编程语言。这些语言是ETL或数据管道框架所必需的。通用编程语言是总体上掌握数据工程和管道所需的核心编程技能。比如,Java和Scala用于在Hadoop上编写MapReduce作业。Python是数据分析和管道的流行选择,而Ruby也是广泛流行的应用程序粘合剂。

    2- Python是最受关注的技能

    Python!Python!Python!是的,大约70%的工作简介中具有Python作为必备技能,其次是SQL,Java,Scala和其他编程技能,例如R,.Net,Perl,Shell脚本等。

    3- Apache Spark在数据处理层的顶部

    数据处理是将数据收集和处理为可用的所需形式。Apache Spark排在数据处理层的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一个功能强大的开源框架,可提供交互式处理,实时流处理,批处理,并以非常快的速度,标准接口和易用性进行内存处理。

    4- Rest API通常用于数据收集

    对于需要分析或处理的任何数据,首先需要将其收集或吸收到数据管道中。REST API是用于此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。

    5-数据缓冲最常见的是Apache Kafka

    数据缓冲是数据工程框架中的关键部分,在将数据从一个地方移到另一个地方以适应大量数据时,需要临时存储数据。Apache Kafka是常用的分布式数据存储,经过优化可实时摄取和处理流数据。流数据是由数千个数据源连续生成的数据,这些数据源通常同时发送数据记录。流平台需要处理这种不断涌入的数据,并按顺序和增量地处理数据。此类别中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。

    6-存储数据– SQL或NoSQL

    数据需要存储以进行处理,分析或可视化,以生成有价值的结果。数据存储可以采用数据仓库,Hadoop,数据库(RDBMS和NoSQL),数据集市的形式。紧随其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。

    7-使用Tableau或PowerBI进行数据可视化

    数据可视化是以图形,图表或其他可视格式表示数据或信息。它传达数据与图像的关系。TableauPowerBI领先于竞争对手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。

    8-数据工程云平台

    有不同的基于云或内部部署的平台,可用于不同的数据工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,AzureApprenda

    好吧,绝非必须精通所有技能和工具,但是通常需要在每个数据管道框架类别中至少掌握其中一个,例如针对云平台的GCP,针对开发的Python,针对数据处理的Apache Spark,针对数据收集的Rest API,针对数据缓冲的Apache Kafka,针对数据存储的Hive,用于数据可视化的PowerBI

  • 相关阅读:
    SpringMVC中静态获取request对象 Spring中获取 HttpServletRequest对象【转载】
    springcloud 的loadbalancer 轮询算法切换方法 2021.4.3
    springboot项目启动增加图标
    rabbitmq 端口作用以及修改方法
    centos8 安装rabbitmq
    springcloud config client Value获取不到信息的问题的处理方法
    springcloud config配置git作为数据源然后启动报错 If you want an embedded database (H2, HSQL or Derby), please put it on the classpath.
    Sublime Text的列模式如何操作
    centos8 安装redis
    jQuery简单的Ajax调用
  • 原文地址:https://www.cnblogs.com/jpld/p/13069821.html
Copyright © 2011-2022 走看看