zoukankan      html  css  js  c++  java
  • 数据预处理和基本数据安全意识

    1.了解数据

    01.数据量是多少?
       -总的数据个数,存储空间的大小
       -分的数据个数,存储空间的大小
      分:
        数据类型有哪些?
         -- 文件夹 文件 
        时间周期
         --
    02.了解数据分布
       最大的数据多少,最小的呢,平均情况
       有无异常文件--空文件夹  find ./ -maxdepth 1 -type d  -empty
       
    03.查看具体的数据示例
        查看具体的文件-确认数据的格式
    	JSON--JSON文件的编码格式, JSON文件中的格式
    

    2.数据预处理

    复制
    移动 : 本地移动  远程移动
    转换格式
    压缩文件夹
    创建目录
    上传数据
    异常数据处理
    

    3.流程总结:

    01.事前有个预判,以期望寻求合适的解决方式
      沟通前有个相应的思路
    02.大批量执行前,应以小批量数据作为基准,进行全流程的测验后,再对大数据进行处理、
      初次处理情况,做好显示执行过程,后续可以隐藏
    03.慎重用 删除处理,非必要的情况下,可以用移动,或者复制
        修改文件前,注意备份,删除文件可以换成移动
    04.注意做事的阻塞点,及时反馈,必要时寻求帮助
    05.注意存储和传输
       存储的数量,空间大小,传输的介质,网络是否有专线,网络的占用的带宽,传输重试的次数
       计算和处理: 处理数据花费的时间,处理数据耗费的资源,处理数据的量的时间
    结构化数据预处理
    图像数据预处理 抽帧 去重 去畸变
    音频数据预处理:
    文本数据预处理
    

    4.命令行示例

    01.Linux命令行
      find ./ -maxdepth 1 -type f
     find ./ -maxdepth 1 -type d 
     ls -l | wc  -l
      scp -r user@IP:/home/oft  /home/Data
     cd /home/test/collect_data
      find /home/test -name 'test_*' -type -d | xargs -i mv {} /home/T
     cp 
     mv 
      python3 /home/testdata.py  /home/te
      -- 存储  df -h 
       du --max-depth 1 -h 
     --压缩-- 还要注意解压后的情况
     --挂载-- 硬盘初次用的时候,可能未挂载,可以查看并挂载  mount  umount
     -- 管道
    02.HDFS命令行
     hadoop fs  -ls hdfs:/data 
     hadoop fs  -get hdfs:/data/test.zip /home/test
     hadoop fs  -put /home/test/mytest.txt hdfs:/data
    

    5 程序处理方式:

     MobaXterm  Filezilla  Dbeaver  listary	
     程序处理方式
        增加异常判断和处理--比如文件不存在情况
        删除要进行输入确认--同时对删除的内容进行限定 --防御式编程  压缩的时候,删除了源文件,异常推出了
        功能解耦-装配式
        多线程多进程增加效率
        明确输入和输出
        队列的形式--便压缩,压缩完成后,进行删除
        断点--接着上次处理的地方,再进行处理
    

    网络排查

    lastb
    cat .bash_history >> history.txt, 查看文件history.txt.
    history 
    echo $HISTSIZE
    echo $HISTFILESIZE
    

    入侵排查以及渗透测试

    sudo 提权
       # root帐号外,其他帐号是否存在sudo权限--
       # 查看sudoers文件
       sudo more /etc/sudoers | grep -v "^#|^$" | grep "ALL=(ALL)"
       # 查看该用户是否是sudo组的成员 
       more /etc/group | grep sudo
    具有root用户权限的SUID文件
       find / -perm -u=s -type f 2>/dev/null
    排查:
      01. /etc/passwd 和 /etc/shadow
      02. Cron Jobs 提权
    

    了解网络渗透:

    渗透测试流程,应该包含以下 8 个步骤:
     主机发现 > 服务枚举 > 实施攻击 > 获取shell > 权限提升 > 权限维持 > 内网渗透 > 痕迹清除
     同时会
      改变自己路由器或者电脑的MAC地址
      进行数据加密以及IP地址隐藏 代理和肉鸡     
    追踪位置:
     物理地址,使用端口,路由的MAC地址
     DNS服务器--网址记录 
    概念:
       横向扩展: 被攻陷的系统为跳板,访问其他主机,获取包括邮箱、共享文件夹或者凭证信息在内的敏感资源。
    

    加强安全措施:

    自我防护 
        修改密码:普通用户运行passwd只能修改它自己的密码
        修改权限: chmod -R 500 /home/ddd
        修改用户所在组: id    groups
        端口: 封锁端口
        网络: trace
    

    概念了解

     HISTSIZE 和 HISTFILESIZE 有什么区别
         说明: 
           HISTSIZE     定义了 history 命令输出的记录数
           HISTFILESIZE 定义了在 .bash_history 中保存命令的记录总数.  
     history显示内存和~/.bash_history中的所有内容;
           内存中的内容并没有立刻写入~/.bash_history,
     	  只有当当前shell关闭时才会将内存内容写入shell
  • 相关阅读:
    mysql 快速生成百万条测试数据
    DEV SIT UAT
    云计算的三层SPI模型
    go的下载
    redis主从 哨兵
    Mybatis 插入操作时获取主键 (Oracle 触发器与SEQ)
    oracle创建表空间
    mycat源码分析
    js判断是否是数字通用写法
    spring aop获取目标对象的方法对象(包括方法上的注解)
  • 原文地址:https://www.cnblogs.com/ytwang/p/14718331.html
Copyright © 2011-2022 走看看