zoukankan      html  css  js  c++  java
  • 关于简繁转换的工作以及校正转换词汇表的设计

    目前,我们要做的工作有好几项。

    1. 整理出一简对多繁和一繁对多简的汉字(在维基百科上似乎有个比较齐全的列表,我已经收集好了)。
    2. 针对这些汉字分别制作转换校正表(ConvertZ本身自带,维基百科上也有,但词汇量还是太少了些)。
    3. 收集简繁转换所用的测试文本范例(目前没找到比较齐全的测试范例)。
    4. 开发程序进行转换。

    除了上述第一条基本上已完成、第四条只能由本人完成之外,第二三条均可通过大家协作来完成。希望有更多的人参与上述工作,让简繁转换的工作能做得更好些。
    我当前的设计目标是尽可能高效地完善简繁汉字转换,而暂时不考虑术语和词汇的转换(如“程序”转为“程式”)。

    暂时将简繁互转的校正词文件格式定为如下形式:

    1. 分三列,以制表符隔开。
    2. 第一列表示汉字转换的字头,第二列表示对应的繁体(或繁转简时的简体)汉字。
    3. 如第一列为空,则第二列内容表示使用上述对应繁体汉字的词条。
    4. 无论是用于简转繁还是繁转简,词条均可为简体或繁体。
    5. 在特定场合下,需要严格匹配词条字符串时,可在词条前加“=”号。
    6. 匹配词条如有特定的繁体(或简体)形式,可在第三列书写转换后的形式(一般场合下不需指定第三列,通常仅用于词条其它字也存在一简对多繁的场合)。如转换后的形式与第二列相同,可在第三列以“=”号代替。
    7. 当某一对多汉字没有特定词条可对应时,采用校正词文件中第一个对应字。
    8. 较长的词汇具有较高的优先级。
    9. “#”或“;”后的内容代表注释内容。


    简繁转换校正词表的示例:

    了    了 ; 指定“了”字的默认繁体为“了”(即大多数场合下不作转换)
        望了望
    了    瞭 ; 在出现下列词条时,将“了”转换为“瞭”
        瞭解 ; 出现“了解”时,转换为“瞭解”
        了解 ; 与上一行相同,程序将此行与上一行视为等同(校正词既可用繁体,也可用简体)
        #明瞭    ;又作“明了”,暂且保留(由于第二列以“#”开始,表示此行为注释)
        瞭望
        瞭然
        瞭望哨
        瞭望臺    瞭望臺 ; 由于“台”转“臺”字也属于一简对多繁形式,故在第三列指定“瞭望臺”
        瞭望山
        瞭若指掌
        瞭如觀火 ; 此条相当于“了如观火”,程序自动将简繁一一对应的“观”转换为“觀”
        瞭如指掌
        眸子瞭
    
    万    萬 ; 默认将“万”转换为“萬”
    万    万 ; 在以下场合下将“万”保持不变
        万俟
        万紐于    万紐于 ; 由于“于”转“于”也属于一简对多繁场合,故在第三列指定“万纽于”转换后的形式
    
    云  雲  ; 默认将“云”转换为“雲”
    云  云  ; 当表示“说”的意思时,保持不变
      诗云  ; “诗”字由程序自动转换为“詩”,“云”字保持不变
      云云  =
      人云亦云  =
    
  • 相关阅读:
    阿里云 k8s 部署 Spring Cloud Alibaba 微服务实践 (四) 自动化部署
    阿里云 k8s 部署 Spring Cloud Alibaba 微服务实践 (三) 服务观测
    阿里云 k8s 部署 Spring Cloud Alibaba 微服务实践 (二) 部署微服务程序
    阿里云 k8s 部署 Spring Cloud Alibaba 微服务实践 (一) 部署 Nacos
    C++知识点
    libmkl 学习笔记
    基于tesseract-OCR进行中文识别
    poco编译与运行
    Linux下的I/O复用与epoll详解(转载)
    高并发网络编程之epoll详解(转载)
  • 原文地址:https://www.cnblogs.com/hanzisearcher/p/2999439.html
Copyright © 2011-2022 走看看