zoukankan      html  css  js  c++  java
  • SAS之大话PDV

    SAS之大话PDV

    之所以说是数据源,而非输入缓冲区的原因上一条推送已经说明,这里就不再啰嗦啦。

    这里我们且将DATA步流程简单地分为从数据源读入到pdv和从pdv写入数据集。

    IF语句 & WHERE语句

    这两个语句均是用于条件选择,但二者作用时机却大有不同。简单来说,if语句作用于观测出PDV到生成数据集时;而where语句则作用于观测进入PDV之时。这也奠定了二者效率上的差别。由于where语句作用于观测进入PDV之时,SAS读入的观测已经过选择,读入观测数较少,所以在读入较大数据之时,where语句的优势就尤为明显了。

    但又是因为where语句作用于观测进入PDV之时,也带来了一些限制,如:

    当提交如上语句之时,SAS将会报错:

    ERROR: 变量 x 不在文件“WORK.B”中。

    而使用if语句则不会出现此ERROR。

    对于这些选项的作用,相信大家也都有所了解;如不了解,那就得好好补补基础咯

    言归正传,对于这些语句的作用时机,就不再一一演示,简单来说,rename、keep、drop语句用于PDV到生成数据集的过程中。而对于选项,则需看选项的位置:

    对于上述代码,大家可自行敲击运行,就会发现在数据集b生成过程中出现NOTE: 变量 age 未初始化。  原因就在于当选项用于set语句时,作用时机为原始数据至PDV之间;而当选项用于data语句时,则作用于PDV至生成数据集之间。

    SASDATA步中使用SET语句、MERGE语句和UPDATE语句读入变量时(除赋值语句和input语句外),SAS将会自动retain,即由这些语句读入的变量将不会被置缺失。

    不多说,上例子:

    例1:merge

    结果:

    运行过程:

    从a读入第1条观测,从b读入第1条观测,查看id(即by变量)是否匹配,若不匹配,则读入id较小的观测,若匹配则一起读入PDV。此例为匹配。

    到达RUN语句,将PDV写入数据集

    从a、b分别读入第2条观测,检查发现不匹配。检查id是否与PDV中相同,若是,则读入匹配的观测(即a中第二条观测),若都不同,则将较小的id观测读入。

    达到run语句,OUTPUT;

    读入a的第3条观测,b的第2条观测,检查发现不匹配。再检查id发现a中第3条与PDV中id匹配,将其写入。后output。

    读入a的第4条观测,b的第2条观测,检查发现匹配,再检查发现与PDV中id不同;此时进入另一个by组,初始化DVP。将匹配的观测写入DVP。

    读入a中第5条观测,b中第3条观测,发现id不匹配,再检查发现b中第3条观测id与PDV中id匹配,将其读入,后output。

    读入a中第5条观测,b中第4条观测,发现id匹配并与PDV中id不同,初始化pdv,将两条观测整合写入PDV,后output。

    由于a中观测已读完(EOF),读入b中第5条观测,发现与PDV中id不同,初始化PDV,读入b中第5条观测,output。注意此时由于没有匹配,且为新的by组,不存在retain的x变量,所以最后一条观测中x为空。

    a、b数据集均到达EOF,程序运行结束,保存数据集。

    例2:set

    结果:

    这时候大家可能会发现,第二条观测不是同一个by组吗?为什么第2条观测的x变量不是第一条中x的值呢?为什么没有retain?

    然而,其实还是有retain的,只不过数据集中体现不出来,而结果为什么会是那样呢?这就涉及到PDV的又一个原则,当PDV从一个新的数据集中读入观测时,会将PDV置缺失。

    若你想看出retain的效果呢,有个办法:

    对于UPDATA等其他语句,就不再举例啦,有兴趣者可自行探索。

  • 相关阅读:
    智能推荐算法演变及学习笔记(三):CTR预估模型综述
    从中国农业银行“雅典娜杯”数据挖掘大赛看金融行业数据分析与建模方法
    智能推荐算法演变及学习笔记(二):基于图模型的智能推荐(含知识图谱/图神经网络)
    (设计模式专题3)模板方法模式
    (设计模式专题2)策略模式
    (设计模式专题1)为什么要使用设计模式?
    关于macOS上常用操作命令(持续更新)
    记录下关于RabbitMQ常用知识点(持续更新)
    EMERGENCY! EUREKA MAY BE INCORRECTLY CLAIMING INSTANCES ARE UP WHEN THEY'RE NOT. RENEWALS ARE LESSER THAN THRESHOLD AND HENCE THE INSTANCES ARE NOT BEING EXPIRED JUST TO BE SAFE.
    SpringCloud教程二:Ribbon(Finchley版)
  • 原文地址:https://www.cnblogs.com/amengduo/p/9587059.html
Copyright © 2011-2022 走看看