今天参考资料《从零开始学python网络爬虫》继续学习python
爬虫三大库:requests库(请求网站获取网页数据),lxml库,beautifulSoup库
re模块及其方法:(re模块使得python语言拥有全部的正则表达式功能)
search()匹配并提取第一个符合规律的内容,返回一个正则表达式对象;
sub()替换字符串中的匹配项;
findall()匹配所有符合规律的内容,并以列表的形式返回结果;
beautifulSoup库
解析requests库请求的网页,并把网页源代码解析为soup文档,以便过滤提取数据
lxml库与Xpath语法
lxml库该模块使用C语言编写,解析速度比beautifulSoup更快