爬虫
概念
编写程序模拟浏览器上网,让其去互联网上获取数据的过程。
分类
通用爬虫
针对的是一整张页面。搜索引擎。
聚焦爬虫
页面中的局部的内容。
反爬机制
对应的载体是门户网站。
反扒机制手段
robots协议
特点是防君子不防小人。
协议的查看方式为网站的url + robots.txt。
User-Agant 请求载体的身份标识。
反反扒策略
对应的载体是爬虫程序。
对cookie的处理
第一种:
手动提取cookie值封装到请求头信息中。
第二种:
使用session