python 正则表达式提取网页中标签的中文

转载请注明出处 http://www.cnblogs.com/pengwang52/。

>>> p= re.compile(r'<div class="comment-content comment-content_new">([^x00-xff]*)</div>')
>>> text='<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>'
>>> for m in p.finditer(text):
...     print m.group(1)
...
测试
学习正则


如果 用findall 输出为中文字符编码
>>> m = re.findall(r'<div class="comment-content comment-content_new">([^x00-xff]*)</div>','<div class="comment-content comment-content_new">测试</div> <div class="comment-content comment-content_new">学习正则</div>')
>>> print m
['xe6xb5x8bxe8xafx95', 'xe5xadxa6xe4xb9xa0xe6xadxa3xe5x88x99']

查看全文

相关阅读:
python入门（3）净化雷锋网网页内容
 Ecos3.0 Spi Driver for Leon3
梦断代码1了解你的编译器和IDE
诚聘高级测试工程师（北京职位）
高级PHP开发工程师、高级前端开发工程师（北京职位）
MySQL DBA （北京职位）
赴百度 Web前端工程师三个职位
 new与malloc的区别
 Google C++编程风格指南
 MFC的picture控件静态加载与动态加载

原文地址：https://www.cnblogs.com/TMatrix52/p/7470752.html

python 正则表达式 提取网页中标签的中文

python 正则表达式提取网页中标签的中文