1.是什么
爬虫:模拟浏览器,发送请求,获取有价值的数据。
能做什么?
1.采集网络数据 2.自动化测试,请求接口,验证数据。 3.做一些脱离手动的操作,例如抢票,微信聊天托管itchat。 4.灰色产业,薅羊毛,但是要慢点薅,别把人家服务器干崩了,就是恶意攻击了。(水军)
知识点
1.网络协议 2.前端知识 3.正则、xpath、bs4 4.数据存储 5.并发处理 6.图像识别(验证码识别,处理反爬),可以接入打码三方
涉及的问题
1.网站分析,以及策略更新 2.解决反爬 3.数据分析 4.模拟登陆 5.爬虫监控及部署 6.数据去重(url去重,内容去重)