import re f = open('geci.txt','r',encoding="gbk") word = f.read() f.close() p2 = re.compile(r'[^u4e00-u9fa5]') zh = "".join(p2.split(word)).strip() print(zh)
txt另存为,编码选ANSI(默认)的话,打开文件时要加上encoding=gbk
中文编码范围是u4e00到u9fa5
所以可以利用正则表达式
pypinyin
http://pypinyin.mozillazg.com/zh_CN/master/usage.html
>>> from pypinyin import pinyin, lazy_pinyin, Style >>> pinyin('中心') [['zhōng'], ['xīn']] >>> pinyin('中心', heteronym=True) # 启用多音字模式 [['zhōng', 'zhòng'], ['xīn']] >>> pinyin('中心', style=Style.FIRST_LETTER) # 设置拼音风格 [['z'], ['x']] >>> pinyin('中心', style=Style.TONE2, heteronym=True) [['zho1ng', 'zho4ng'], ['xi1n']] >>> lazy_pinyin('中心') # 不考虑多音字的情况 ['zhong', 'xin']