zoukankan      html  css  js  c++  java
  • 预习非数值数据的编码方式

    非数值数据的编码方式

    • 1 非数值数据的类型:逻辑值,西文字符,汉字字符
      逻辑值
    • 1 一般情况逻辑数据和数值数据都是一串0/1序列。逻辑运算指令处理的是逻辑数据,算术运算指令处理的数值数据
    • 2 在形式上无任何差异,需要通过指令的操作码类型来识别他们
      西文字符
    • 1 由拉丁字母、数字、标点符号和一些特殊符号所组成。统称字符
    • 2 字符的集合叫做字符集,字符集中的每一个字符都有一个代码(即二进制编码的0/1序列)。字符集的代码简称码表。码表中的代码具有唯一性。
    • 3 目前最广泛的西文字符集及其编码是ASCLL码
    • 4 ASCII表中每个字符都由7个二进位b6b5b4b3b2b1b0表示,b6b5b4是高位部分,b3b2b1b0是低位部分。最高位b7为0。所以实际上一个字符+在计算机中实际上用8位表示的。

      汉字字符
    • 1 汉字的输入码的码元是西文键盘的某个按键。
    • 2 字符集与汉字内码:不能有二义性,即不能和ASCII码有相同的编码
    • 3 要与汉字在字库中的位置有关系,便于汉字的处理查找
    • 4 编码应尽量缩短
      汉字的字模点阵码和轮廓描述
    • 1 每一个汉字的字形都必须预先存放在计算机内,一套汉字的所有字符的形状描述信息集合在一起称为字形信息库。简称字库
    • 2 汉字的字形主要有字模点阵码描述和轮廓描述。字模点阵描述是将字库的各个汉字或其他字符的字形用一个其元素0和1组成的方阵。汉字或字符中有黑点用1表示,空白处用0表示。汉字的轮廓描述是吧汉字笔画的轮廓用一组直线和曲线来勾画,记下直线和曲线的数学描述公式。
      数据的宽度和存储
    • 二进制数据的每一位(0或1)是组成二进制信息的最小单位,称为一个比特(bit),或称位元,简称位。比特是计算机中处理、存储和传输信息的最小单位。
      在计算机内部,二进制信息的计量单位是字节(byte),也称位组。1 byte = 8 bit。
      计算机中运算和处理二进制信息时使用的单位除了比特和字节之外,还经常使用字(word)作为单位。
      1KB=2^10B; 1MB=2^20B; 1GB=2^30B; 1TB=2^40B; 1PB=2^50B; 1EB=2^60B; 1ZB=2^70B; 1YB=2^80B
      字长等于CPU内部用于整数运算的运算器位数和通用寄存器宽度。
      字用来表示被处理信息的单位,用来度量各种数据类型的宽度;字长表示进行数据运算,存储和传送的部件的宽度,它反映了计算机处理信息的一种能力。

    数据校验码

    • 1 数据在计算机内部会出现差错,常用的数据校验码有奇偶校验码、海明校验码、循环冗余码
      奇偶校验码
    • 1 实现原理

      海明校验码
    • 1 海明码是在 n 位的信息代码之间插入 m 个校验码组成的,当信息代码长度确定后,第一要由信息代码长度 n 计算出所需插入的校验码个数 m;第二是排列信息代码与校验码的位置。
    • 2
      循环冗余码
    • 1 循环冗余码也称 CRC 码(Cyclic Redundancy Code),又称多项式码,是一种在计算机网络和数据通信中被广泛采用的校验码。
    • 2
      困难:
    • 对于数据校验码的实验原理还没搞懂,书上的看着太复杂
  • 相关阅读:
    git 强制覆盖本地
    给mysql添加账户并且赋予权限
    laravel 地址栏传参不了问题
    订单系统开发02
    熵——信息增益
    熵——导读
    熵——自信息
    tensorflow在文本处理中的使用——skip-gram & CBOW原理总结
    霍夫曼树
    tensorflow在文本处理中的使用——Word2Vec预测
  • 原文地址:https://www.cnblogs.com/lft791110/p/13687091.html
Copyright © 2011-2022 走看看