学习笔记 - 走看看

zoukankan html css js c++ java

学习笔记

今天参考资料《从零开始学python网络爬虫》继续学习python

爬虫三大库：requests库（请求网站获取网页数据），lxml库,beautifulSoup库

re模块及其方法：（re模块使得python语言拥有全部的正则表达式功能）

search()匹配并提取第一个符合规律的内容，返回一个正则表达式对象；

sub()替换字符串中的匹配项；

findall()匹配所有符合规律的内容，并以列表的形式返回结果；

beautifulSoup库

解析requests库请求的网页，并把网页源代码解析为soup文档，以便过滤提取数据

lxml库与Xpath语法

lxml库该模块使用C语言编写，解析速度比beautifulSoup更快

查看全文

相关阅读:
排序
 Apache架设Web服务器
 函数调用规范
 linux启动流程
 Make工程管理器
 网络相关知识
 数字电路中的建立时间与保持时间
 面试碰到的技术题
 嵌入式linux的驱动程序
 EF实体中的修改

原文地址：https://www.cnblogs.com/sengzhao666/p/12288969.html

Copyright © 2011-2022 走看看