zoukankan      html  css  js  c++  java
  • python 判断语种类别

    使用langdetect 或者langid

    安装

    pip install langid
    or 
    pip install langdetect
    

    适用于linux系统

    测试

    #! /usr/bin/env python
    # -*- coding: utf-8 -*-#
    import langid
    from langdetect import detect
    from langdetect import detect_langs
    from langdetect import DetectorFactory
    
    DetectorFactory.seed = 0
    
    
    def check(line):
        lang_set = set()
        for c in line.strip().split(" "):
            lang_set.add(detect(c.title()))
        return lang_set
    
    
    def main(content_file):
        with open(content_file, mode="r") as f:
            for line in f:
                print(f"{line.strip()}:{detect_langs(line.strip())}")
                print(f"{line.strip()}:{langid.classify(line.strip())[0]}")
                print(check(line))
    
    
    if __name__ == '__main__':
        # content_path = input("请输入文本路径:")
        content_path = r"input_folder/demo.txt"
        main(content_path)
    
    不论你在什么时候开始,重要的是开始之后就不要停止。 不论你在什么时候结束,重要的是结束之后就不要悔恨。
  • 相关阅读:
    java面试总结之框架问题
    数据库设计三大范式
    js 一些技巧
    el 和 fmt 常用
    iframe自适应高度
    MySQL基础
    任意精度整数算法 (BigInteger) 和任意精度小数算法 (BigDecimal)
    hibernate
    Struts2
    Servlet、Cookie、Session
  • 原文地址:https://www.cnblogs.com/yunhgu/p/15402817.html
Copyright © 2011-2022 走看看