zoukankan      html  css  js  c++  java
  • Google Professional Data Engineer(PDE)考试

    image.png

    在国内参加PDE考试的人比较少,导致资料也很少。我在19年1月30号去上海参加PDE考试,参加前也是完全没底,因为时间短资料少,但幸运的是顺利通过了。回过头来看,其中有些技巧和重点,在此做一些总结,希望可以给参加PDE考试的同学提供一些帮助。

    收获

    1)对云有新的认识
    2)对大数据架构、机器学习架构设计有新的认识
    3)当然最重要的是获得google官方发的证书

    说说我的准备

    1)花了5周的时间看完google官方提供的视频,几乎是完全脱产(只做一些事故处理)。
    2)试做官方提供example,一共20道题,我错了五道。我错的主要是安全和BigTable相关的。
    3)google的同学建议是看concept的相关内容,但离考试也就剩三四天了,不可能详细复习,concept是一定看不完的。那么就针对没有掌握的知识进行复习,安全相关的官方视频是没有涉及的,所以必须自己找资料看,别的资料也没有,就只能看concept中涉及安全的方便,这个比较少,最多一天就全部看完。BigTable看来我也是掌握不好,那么我就看BigTable的concept知识。
    4)看完上面的就参加考试了,也再没做特别复习。

    整体来看

    google的产品大致涉及存储(cloud storage、SQL、spanner、memory、BigTable、datastore)、消息中间件PubSub、计算(dataproc、BigQuery、Dataflow)、机器学习ML Engine、API、DataLab以及可视化。各个产品的使用场景必须心里有数,如果看完视频忘了,必须重新复习,最好和开源对应起来,因为开源多多少少有点儿了解,不要从头学习google cloud所有产品知识。
    image.png
    image.png

    思维转变

    把自己定位为产品解决方案工程师,不是找最优解,而是找最适合案例的解决方案。

    产品详情

    Cloud SQL & spanner

    Cloud SQL 就是mysqlpostsql的单机版,google帮你做了安装部署和管理(安全、备份等),如果需要水平扩展就是spanner了,而且支持事务,这两个产品的应用场景就是应用交易记录等。

    cloud storage

    就是存储引擎,什么都可以放,没有大小文件、结构化和非结构化的限制,利用好存储级别(正常、nearline(月级访问)和cold(年级访问))可以节约成本。

    BigTable

    考试重点。注意key值的设置,如何避免热点问题,时间序列的问题大部分就是选BigTable存储,BigTable适用于时延性要求高的场景。

    datastore

    类似于mongodb,通过属性来查询,不是重点。

    BigQuery

    考试重点。注意安全和视图相关知识,数据存储在BigQuery和存储在cloud storage的价钱差不多,根据使用情况,会自动处理存储介质,降低价格,一定要合理利用BigQuery。

    Dataproc

    主要是为了适应客户原来使用hadoop堆栈,现在不像修改代码,就像上云的场景。

    dataflow

    是google大力推进的产品,是替代Dataproc的下一代计算引擎,实现自动扩缩容,并且流处理和批处理代码保持一致。题外话:dataflow和bigquery(秒级响应)是google大数据方面两大杀伤性武器,区别于其他云的地方。

    PubSub

    PubSub和dataflow配合使用处理事件流,延时性要求高选用BigTable存储,不高选用BigQuery。

    ML Engine

    tensorflow的云化版,实现离线训练和在线服务的自动化,配合dataprep可以实现离线数据的预处理,datalab(jupyter notebook)实现数据探索和离线训练。

    Auto ML

    Auto ML是为了丰富API,容许用户自己提供数据,对模型进行训练。

    综述

    其实知识点也不那么难,最后难得可能是英语这一关,视频和考试全英语。祝大家顺利通过考试。

    如果有疑问欢迎关注下面公众号进行交流。

    datacube.jpg

  • 相关阅读:
    sql server 日期
    restore database
    7.1设计并实现有理数库,使用整数表示分子和分母,完成有理数的加减乘除与化简运算
    6.2写search函数对已经排好的n个元素的整数数组a,查找整数key。
    6.1写sort函数对n个元素的整数数组n,按从小到大排序
    5.2将随机数模拟为不含大小王的扑克牌
    实现一个随机数库
    5.1写函数,返回1~52之间的随机数
    4.2分别使用循环和递归两种策略求二项式从c(n,k);
    4.1将某个大于1的自然数n分解为其素因子的乘积
  • 原文地址:https://www.cnblogs.com/jacksu-tencent/p/10358662.html
Copyright © 2011-2022 走看看