如上图所示,在处理语料的过程中,会发现语料偏乱的情况,这么乱的语料对于之后的分词等等各种处理都会严重影响效果。对于Unicode编码而言这些“黑底白字”的非正常字符一般都是编码在0-31这个范围的,注意:32就是空格了。所以通过ord()函数判断字符编码,如果在0-31之间就忽略掉。