zoukankan      html  css  js  c++  java
  • Python 轻量化简繁转换

    最近项目中用到了简单的简繁转换,如果用OpenCC太重了,于是搜到了 zhconv 这个库。

    zhconv 提供基于 MediaWiki 词汇表的最大正向匹配简繁转换,Python 2, 3 通用。

    支持以下地区词转换:

    • zh-tw 台灣正體
    • zh-hk 香港繁體
    • zh-sg 马新简体
    • zh-hans 简体
    • zh-hant 繁體

    正好适合我不求转换质量的轻量需求,所以介绍给更多需要的人。

    而且虽然该项目stars很少,但中途发现作者还参与过维护jieba分词。

    调用也非常简单

    >>> from zhconv import convert
    >>> convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
    'Python是一種動態的、面向對象的腳本語言'
    复制代码

    支持对地区化词语的转换

    >>> convert('计算机软件', 'zh-tw')
    '計算機軟體'
    >>> convert('計算機軟體', 'zh-hans') # zh-hans只是逐字转换
    '计算机软体'
    >>> convert('計算機軟體', 'zh-cn')
    '计算机软件'
    复制代码

    支持 MediaWiki 人工转换语法

    >>> from zhconv import convert_for_mw
    >>> s = '張國榮曾在英國-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学學習。'
    >>> convert_for_mw(s, 'zh-hans')
    '张国荣曾在英国利兹大学学习。'
    >>> convert_for_mw(s, 'zh-hk')
    '張國榮曾在英國列斯大學學習。'
    >>> convert_for_mw(s, 'zh-tw')
    '張國榮曾在英國里茲大學學習。'
    复制代码

    当然对于复杂高精度的转换需求,还是建议用专业的OpenCC 开源库:

    https://github.com/BYVoid/OpenCC

    欢迎关注

    微信公众号:面向人生编程

    编程思维不应只存留在代码之中,更应伴随于整个人生旅途,这个公众号不只聊技术,还会聊产品/互联网/经济学等广泛话题,所以也欢迎非程序员关注。

  • 相关阅读:
    BZOJ.4293.[PA2015]Siano(线段树)
    洛谷.T21778.过年(线段树 扫描线)
    HDU.6155.Subsequence Count(线段树 矩阵)
    BZOJ.3687.简单题(bitset)
    var let const的区别
    2、electron进程
    1、Electron入门HelloWorld案例
    JUnit@Before失效
    十一、Thymeleaf的基础使用
    九、SpringBoot集成Thymeleaf模板引擎
  • 原文地址:https://www.cnblogs.com/zkqiang/p/10515179.html
Copyright © 2011-2022 走看看