爬虫,就是给网站发起请求,并从相应中提取需要的数据的自动化程序
通过http库,对目标站点进行请求。等同于自己打开浏览器,输入网址
常用库:urllib、urllib3、requests
服务器会返回请求的内容,一般为:html、二进制文件(视频,音频)、文档、json字符串等
寻找自己需要的信息,就是利用正则表达式或者其他库获取目标信息
常用库:re、beautifulsoup4
将解析得到的数据持久化到文件或者数据库中