zoukankan      html  css  js  c++  java
  • 2月4日学习记录

    1,背诵单词:elevator:电梯   feature:特征   handsome:英俊的   empire:帝国   mate:伙伴,同事   fiction:小说   lip:嘴唇   election:当选   lifetime:一生,寿命

      govern:统治   expectation:期待   lay:放置   towel:毛巾   transparent:透明的   reality:现实  recognize:认出   temptation:诱惑   typical:典型的   submarine:潜艇

    2,学习spark视频:https://www.bilibili.com/video/av62881491      第50到58集

     新添内容到博客:https://www.cnblogs.com/lq13035130506/p/12239342.html 

      2,操作RDD:

        只有到动作类型操作才会进行计算,转换类型操作只会记录

        

        

         

       3,RDD持久化

         每遇到一次动作操作就会从头到尾计算一次RDD,生成一个job;如果需要前一次的动作操作生成的值,则需要将生成的值缓存

        RDD持久化方法:调用.persist()方法对一个RDD标记为持久化,但不会真正持久化;等遇到下一次动作操作就会真正持久化

        会将值存入内存;当内存不足,则替换之前内存存的值 

        RDD.persist(MEMORY_ONLY)<=>RDD.cache()

         将值存入内存,当内存不足,会将存不下的值存入磁盘

       4,RDD分区:增加程序的并行度实现分布式的计算;减少通信开销;与hdfs的分块不一样

          分区原则:

          

           默认分区命令:如果设置local【n】,则分区为n;Apache  Mesos模式会默认设置分区为8;standalone和yarn模式设置时,当集群中所有CPU数为n;与另一个?(是什么)比较,值最大的设置为分区数

          

          

       3,键值对RDD:

          

    3,遇到的问题:学习RDD分区操作,听得不太懂

    4,明天计划继续学习Spark和学习爬取动态数据

  • 相关阅读:
    Navicat for MySQL远程连接的时候报错mysql 1130的解决方法
    阿里云主机 CentOS6.5 安装Mysql php Apache
    MAC下使用feddler进行抓包
    javascript钩子之Backbone里的实现
    SASS编译
    动态代理模式和AOP探究
    二分查找算法
    MyBatis在非Spring环境下第三方DataSource设置-Druid篇
    写字节流转换String 代码示例
    SpringAOP代理报错问题
  • 原文地址:https://www.cnblogs.com/lq13035130506/p/12261996.html
Copyright © 2011-2022 走看看