信息分类与编码
为了提高信息的存储、处理和使用效率,有必要对信息进行科学的分类与编码。
信息分类
-
定义:信息分类是指将具有某种共同属性或特征的信息归并一起,把不具有上述共性的信息区别开来的过程。
-
原则:
- 科学性原则:科学性是信息分类的客观要求。通常选择事物或概念(即分类对象)最稳定的本质属性或特征作为分类的基础和依据。
- 系统性原则:将选定的事物或概念的属性或特征按一定排列顺序予以系统化,并形成一个合理的分类体系。
- 可扩展性原则:分类体系的建立应满足事物的不断发展和变化的需要。在设置分类的类目中,要保证在增加新的事务或概念时,不致打乱已建立的分类系统。
- 兼容性原则:分类应与有关标准协调一致。
- 综合实用性原则:信息分类应从系统工程的角度出发,放在具体的应用环境中进行考虑。在类目的设置上,既要体现分类体系的相对稳定性、可扩展性,又要方便用户快速查询。
-
信息分类的方法
信息分类的基本方法有两种:线分类法与面分类法。
-
线分类法
- 线分类法也称等级分类法。线分类法按选定的若干属性(或特征)将分类对象逐次地分为若干层级,每个层级又分为若干类目。同一分支的同层级类目之间构成并列关系,不同层级类目之间构成隶属关系。同层级类目互不重复,互不交叉。
- 例如,我国行政区划编码,是采用线分类法,6位数字码。第一、二位表示省(自治区、直辖市),第3、4位表示地区(市、州、盟),第5、6位表示县(市、旗、镇、区)的名称。湖北省部分行政区的分类及其编码如表2-2所示。
- 线分类法的优点是:层次性好,能较好地反映类目之间的逻辑关系。它属于传统的习惯分类方式,既符合手工处理信息的传统习惯,又便于计算机对信息进行处理。
- 线分类法的缺点是:结构弹性差。分类结构一经确定,不易改动,因此,使用线分类法必须考虑到有足够的后备容量。此外,当线分类层次较多时,将影响数据处理的速度。
-
面分类法
- 面分类法将分类对象按选定的若干个属性或特征,分成彼此之间互不相关的若干方面(简称面),每个面又可分为许多彼此独立的若干类目。不同“面”内的类目互不重复,互不交叉。使用时,可根据需要将这些面中的类目组合在一起,形成一个复合类目。
- 例如,服装的分类可以按照服装所用的材料、男女服装以及服装款式等分成几个面,每个面内又分成若干类目,如表2-3所示。
- 面分类法的主要优点是分类结构具有较大的柔性。分类体系中任何一个“面”内类目的改变,不会影响其他的“面”,易于添加和修改类目。除此以外,面分类适用性比较强,可实现按任意“面”的信息进行检索,这对计算机信息处理有良好的适应性。
- 面分类的主要缺点在于不能充分利用容量。这是因为在实践中许多可组配的类目无实用价值。例如,像纯毛男式连衣裙这样的组合类目就无实用意义。
信息编码
-
编码是指事物或概念的名称、属性、状态等的符号或记号。计算机的数据处理工作是通过编码来识别事物与概念的,同时计算机为了高效地对信息进行收集、存贮、加工与检索等作业,信息的编码工作是必不可少的。例如,一个企业设计了职工编号、物资编号、设备编号、合同编号、会计科目编号等。这些编码设计的目的在于识别事物,以及高效率地处理业务。设计编码的基础是信息分类,有了合理的分类方案才能设计出科学的、使用方便的、高效率的编码。
-
信息编码的功能
- 鉴别。编码是鉴别信息分类对象的唯一标识。
- 分类。当分类对象按一定属性分类时,对每一类别设计一个编码,这时编码可以作为区分对象类别的标识。这种标识要求结构清晰,毫不含糊。
- 排序。由于编码所有的符号都具有一定的顺序,因而可以方便地按此顺序进行排序。
- 专用含义。由于某种需要,当采用一些专用符号代表特定事物或概念时,编码就提供一定的专用含义,如某些分类对象的技术参数,性能指标等。
-
信息编码的原则
- 唯一性原则 编码是人、事、物以及概念的一种唯一性的、不合糊的认定。这是信息编码最重要的原则,也是编码最基本的功能。一个编码只能唯一地标识一个信息分类对象,而一个信息分类对象在一个信息分类编码标准中也只能有一个唯一的编码。
- 正确性原则表示信息编码应当科学、合理,既遵循信息编码的基本原理,又符合组织的实际情况。既能满足组织自身的需要,又能满足组织合作伙伴的特殊要求。既要符合国家的标准或规定,又应该尽可能地遵守国际标准或惯例。
- 可扩展性原则 随着管理信息的不断变化,信息编码不能仅仅考虑当前的信息状况,而且应该考虑未来的发展状况和需要。信息编码应该有足够的编码资源,以便满足不断增长的对信息编码的要求,以适应不断扩充的信息处理的需要。
- 规范性原则 编码应尽量符合标准化的要求。有国际的、国家的、部门的、行业的标准。编码时必须符合这些标准的要求。在一个组织(单位、部门)内部,同一种信息分类对象的编码应该统一。
- 稳定性原则 编码工作是建立信息管理系统的一项基础工作。编码的影响面很大,因而设计编码应该慎重,一旦批准通过后,必须严格执行,轻易不作修改。
-
信息编码方法
- 顺序编码:顺序编码又称系列码。这种编码方法是将要编码的对象按一定的规则(如发生的顺序、大小的顺序等)分配给连续的顺序号码。通常从1开始。例如,一个企业有1000个职工,其职工号可以编成0001、0002、0003、…、1000。顺序码的特点是简单明了,位数少,易于追加,易于管理。但这种码没有逻辑基础,它本身不能说明任何信息的特征,因而不能用于分类处理等场合。同时追加的部分只能列在最后,删除则造成空码。通常,顺序码适合于比较固定的永久性编码(如大城市编码等),或者和其他编码方式配合使用。
- 区间编码:区间编码是对编码对象分区间进行编码。例如,会计科目编码用区间码表示会计科目的性质:101-199表示资产类科目、201-299表示负债类科目、301-399表示所有者权益类科目、401-499表示成本类科、501-599表示损益类科目。这样,以三个数字按区间编码来代表某一科目,因而编码占用的位数不多,而且能表示较多信息,易追加,易插入,但其缺点是处理比较麻烦。
- 字母编码:字母编码是用具有特定意义的字母代表某一类项目。例如,用“L”代表来源类科目,“Z”代表占用类科目。商品编码中用“TV”表示电视机。各种度量单位编码中用“KG”表示公斤,“m”表示米,“cm”表示厘米等等。这种编码的特点是可以通过汉语拼音或英语联想帮助记忆,但其位数较多,处理不便,容易产生重复。例如,中国互联网的行政区域名编码SX代表山西省,SN代表陕西省,HB代表湖北省,HE代表河北省等。
- 组合编码:组合编码是以上述三种编码结合使用的编码方法。常用的有:
- 按位编码和顺序编码的组合编码法。例如,职工编码共5位,前两位是部门编码,后3位是个人编码,而部门编码及个人编码均按顺序编码。邮政编码、身份证号码、学生学号等编码方法相似。
- 字母、数字组合的编码法。是某几位用字母,某几位用数据的编码方法。例如,汽车牌照的编码、电报电传的编码。
- 校验位:为了保证正确的输入,可以在原有编码的右端设计一个校验位,使它事实上变成编码的一个组成部分。校验位通过事先规定的数学方法计算出来。当编码录入时,由计算机按同样的数学方法对输入的编码(原编码部分)数字计算出校验位,并将它与输入的校验位进行比较,以校验输入的编码是否有错。由校验位可以发现以下各种错误:数字看错,例如,1看成7;易位错误,例如,1234输入时误为1324;双易位错,例如,26913输入时误为21963;随机错误,包括以上两种或三种综合性错误或其他错误。
-
校验位的计算方法如下:
- 对每位编码加权。即各位编码乘以权因子,求出各位之积,再将各位积相加求和。一般权因子的取法有如下几种:
- 取一个几何级数,如1、2、4、…。
- 取一个算术级数,如7、6、5、…。
- 都取1。
- 取1、2、1、2、…。
- 取一串质数17、13、7、5、3、…。
- 各位乘积之和取模M的余数R,R即可作为校验位的值。模一般为11、也可以是10、13等。
例2-2 设原编码为1 2 3 4 5,用算术级数法确定权因子,试计算其校验位。 各位分别乘以权:6、5、4、3、2; 得出乘积之和为:(1×6)+(2×5)+(3×4)+(4×3)+(5×2)=50。 对模11求余:50÷11余6,则6为校验位。 因此,原编码加上一位校验位成为1 2 3 4 5 6。 如果将该编码录入时,输入的错误编码为1 2 3 5 5 6,计算机按原来的权重新计算校验位[(1×6)+(2×5)+(3×4)+(5×3)+(5×2)]÷11,余9。由于计算出的验位值与输入的校验位值不一致,即9≠6,因此该类错误可以很容易地捕获。