import re comments ="abc大家好,浙江省,杭州市,西溪湿地" pattern = re.compile(r'[u4e00-u9fa5]+') filterdata = re.findall(pattern, comments) print(filterdata) # ['大家好', '浙江省', '杭州市', '西溪湿地'] # 连接所有中文 resultdata = ''.join(filterdata) print(resultdata) # 大家好浙江省杭州市西溪湿地
取出文档中的中文
待续。。。