zoukankan      html  css  js  c++  java
  • Text文档编码识别方法

    Text文档编码识别方法

      在做文档读取的时候,时常碰到编码格式不正确的问题,而要怎么样正确识别文档的编码格式,成了很多程序员的一块心病,今天我就要试着治好这块心病,这段代码的浓缩来自上千万文档的数据分析所得,可靠率极其高。

      应朋友要求,需要帮他做一个文章操作工具,既然想操作,就有文件的读取和修改,本来花费几个小时信心满满把程序交给朋友的时候,朋友突然来了句,很多文章打开出现乱码的情况,我哩个去,像是晴天霹雳深深的击在我的心窝里,我突然想到了文件编码问题,而这个问题,我曾经无数次的尝试,最终都以失败而告终,每次尝试,只不过是减少了错误概率的出现,但是还不足以弥补文件编码格式分析完全的正确,而这次,朋友又提出来编码问题,我瞬间凌乱了。

      如果不把这个问题解决,给朋友做的工具等于没有任何作用,我TM前两天还吃人家一顿大餐,难道还能吐出来吗?这个搞不定,面子就丢大了,无奈之下,我询问了朋友那里有多少文件?得到答复:好几千万。瞬间我眼光放亮了,那就海量数据分析吧。

      海量数据分析的时候,我使用的是一个笨方法,就是把所有文件头数据读取出来,比如读取4个byte,然后将读取的文件内容的前一百个字以(Unicode,UnicodeBigEndian,UTF8,ANSI等等)读取出来,肉眼识别吧,比如

      public class Info{

        public int ch0;//第一个字符

        public int ch1;//第二个字符

        public int ch2;//第三个字符

        public int ch3;//第四个字符

        public string UnicodeStr;//前100个字

        public string UnicodeBigEndianStr;//前100个字

        public string UTF8Str;//前100个字

        public string ANSIStr;//前100个字

      }

    然后使用lambda做排序,个人建议对UnicodeStr,UnicodeBigEndianStr,UTF8Str,ANSIStr这些做排序,因为可识别的字符编码有一定的区间范围,做排序后,可识别汉字的一定都堆在一起;

    再有就是可以对 ch0,ch1,ch2,ch3,做详细分类,看看它们之间都有什么样的关系,通过观察,我也是能发现什么的;通过归纳和总结,就得出了TEXT编码的可识别方法,如下: 

    using System;
    using System.Collections.Generic;
    using System.Linq;
    using System.Text;
    using System.IO;
    
    namespace 文章操作工具
    {
        public class TextHelper
        {
            public static System.Text.Encoding GetType(string filename)
            {
                FileStream fs = new FileStream(filename, FileMode.Open, FileAccess.Read);
                System.Text.Encoding r = GetType(fs);
                fs.Close();
                return r;
            }
            
            public static System.Text.Encoding GetType(FileStream fs)
            {
                /*
                                    Unicode    
                                    ------------------
                                    255    254
    
                                    ======================
                                    UnicodeBigEndian
                                    -------------------
                                    254    255
    
                                    ======================
                                    UTF8
                                    -------------------
                                    34 228
                                    34 229
                                    34 230
                                    34 231
                                    34 232
                                    34 233
                                    239    187
                 
                                    ======================
                                    ANSI
                                    -------------------
                                    34 176
                                    34 177
                                    34 179
                                    34 180
                                    34 182
                                    34 185
                                    34 191
                                    34 194
                                    34 196
                                    34 198
                                    34 201
                                    34 202
                                    34 205
                                    34 206
                                    34 208
                                    34 209
                                    34 210
                                    34 211
                                    34 213
                                    196 167
                                    202 213
                                    206 228
                */
                BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);
                byte[] ss = r.ReadBytes(3);
                int lef = ss[0];
                int mid = ss[1];
                int rig = ss[2];
                r.Close();
                /*  文件头两个字节是255 254,为Unicode编码;
                    文件头三个字节  254 255 0,为UTF-16BE编码;
                    文件头三个字节  239 187 191,为UTF-8编码;*/
                if (lef == 255 && mid == 254)
                {
                    return Encoding.Unicode;
                }
                else if (lef == 254 && mid == 255 && rig == 0)
                {
                    return Encoding.BigEndianUnicode;
                }
                else if (lef == 254 && mid == 255)
                {
                    return Encoding.BigEndianUnicode;
                }
                else if (lef == 239 && mid == 187 && rig == 191)
                {
                    return Encoding.UTF8;
                }
                else if (lef == 239 && mid == 187)
                {
                    return Encoding.UTF8;
                }
                else if (lef == 196 && mid == 167
                    || lef == 206 && mid == 228
                    || lef == 202 && mid == 213)
                {
                    return Encoding.Default;
                }
                else
                {
                    if (lef == 34)
                    {
                        if (mid < 220) return Encoding.Default;
                        else return Encoding.UTF8;
                    }
                    else
                    {
                        if (lef < 220) return Encoding.Default;
                        else return Encoding.UTF8;
                    }
                }
            }
        }
    }
  • 相关阅读:
    MSComm控件进行串口编程的基本步骤(转载)
    Linux C Socket编程原理及简单实例(转载)
    ubuntu14.04英文环境下安装中文输入法(转载)
    2015高工机器人年会第一批100名参会嘉宾名单公布
    中国式人机协作
    优傲机器人:协作机器人助力电子制造业智能转型
    netty学习笔记
    画图模板
    文本建模
    自定义IP协议
  • 原文地址:https://www.cnblogs.com/preacher/p/6084802.html
Copyright © 2011-2022 走看看