爬虫介绍
1 爬虫:网络蜘蛛 2 爬虫本质:模拟浏览器发送请求(requests,selenium)->下载网页代码->只提取有用的数据(bs4,xpath,re)->存放于数据库或文件中(文件,excel,mysql,redis,mongodb) 3 发送请求:请求地址(浏览器调试,抓包工具),请求头(难),请求体(难),请求方法 4 拿到响应:拿到响应体(json格式,xml格式,html格式(bs4,xpath),加密的未知格式(需要解密)) 5 入库:Mongodb(json格式数据) 6 性能高一些(多线程,多进程,协程),只针对与python语言的cpython解释器(GIL:同一时刻只能由一个线程在执行) -io密集型:用线程 -计算密集型:用进程 7 scrapy框架处理了性能