zoukankan      html  css  js  c++  java
  • 解码百度输入法词库

        最近需要解析下载得到的百度输入法词库,本来尝试利用深蓝词库转换解决,无奈深蓝词库不能对各个路径下的词库分别进行处理,只能进行合并操作,这就丧失了原来路径具有的分类信息。看来这个坑还得自己填。

        声明:下述没有处理拼音,只是简单的提取词库中的中文词。
        需要处理词库,前提条件是了解词库文件内部存放方式。根据深蓝词库转换源码,我们可以推出百度词库编码方式如下:
    0x350 :词库存放开始位置
        int len 词语的长度,int数 4字节
        长度2*len字节,对应拼音信息
        长度2*len字节,对应unicode编码的中文词
        所以,取出词库中的中文词,只需首先将文件读指针移动到0x350位置,读取词的长度,然后跳过中间的拼音信息,直接取到中文词unicode编码的字符串,然后对其进行解码即可。取出文件中的所有词语,只需要循环这个过程,直至文件读指针到了文件末尾。在我的需求中,需要把转码的中文词写入到文件中。
        思路说完了,下面上代码:
    using System;
    using System.Collections.Generic;
    using System.Linq;
    using System.Text;
    using System.Threading.Tasks;
    using System.IO;
    namespace read_file
    {
        class Program
        {
            public static int ReadInt32(Stream fs)
            {
                var temp = new byte[4];
                fs.Read(temp, 0, 4);
                int s = BitConverter.ToInt32(temp, 0);
                return s;
            }
            public static List<String> readWord(string path,List<String>list)
            {
                var fs = new FileStream(path, FileMode.Open, FileAccess.Read);
                fs.Seek(0, SeekOrigin.End);
                long endPosition = fs.Position;
                fs.Position = 0x350;
                do
                {
                    int len = ReadInt32(fs);
                    fs.Position += len * 2;
                    var temp = new byte[len * 2];
                    fs.Read(temp, 0, len * 2);
                    String word = Encoding.Unicode.GetString(temp);
                    list.Add(word);
                } while (fs.Position <endPosition-1);
                fs.Close();
                return list;
            }
            static void transform_txt(string path)
            {
                var files = Directory.GetFiles(path, "*.bdict");
                List<String> list = new List<string>();
                foreach (var file in files)
                {
                    list = readWord(file, list);
                    Console.WriteLine(file + "文件处理完毕!");
                }
                FileStream fs = new FileStream(path + "dict.txt", FileMode.Append);
                StreamWriter writer = new StreamWriter(fs, Encoding.UTF8);
                foreach (String word in list)
                {
                    writer.Write(word + "
    ");
                }
                writer.Close();
                fs.Close();
            }
            static void Main(string[] args)
            {
                string []paths = { "C:FileRecv\安徽\" };
                foreach (string path in paths)
                    transform_txt(path);
            }
        }
    }
  • 相关阅读:
    python播放音频文件
    安装pyaudio
    给 python工程 打包并上传 PyPI (The Python Package Index)
    python怎么import自己写的包
    pip源使用国内镜像
    Git和GitHub
    nginx的日志轮转
    ab接口压力测试工具
    nginx 性能优化
    https协议
  • 原文地址:https://www.cnblogs.com/zhoudayang/p/5288165.html
Copyright © 2011-2022 走看看