爬虫又称网络蜘蛛,是代码获取资料的一种方式。
常用库:requests,bs4,lxml,fake_useragent。
通常运行模式:
1、发起请求
通常可用requests发起各类的网络请求。
2、获取数据
通常可用requests的get函数获取大部分网页。
3、解析数据
解析方式:
正则表达式
beautifulsoup
xpath
css选择器
4、保存数据。
通常可保存为csv,txt或者存入数据库。
本人学习的网站:B站(问就是一个很好的学习网站),木下瞳爬虫(入门实战,强推!)。
从零入门:五天速成教程。
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _(手动分割线)
博客小白,个人记录,很多待补充,想到再慢慢修改,欢迎批评指正。
摘自:网络上很多的大神。侵删。。
转载请附原文链接以及作者,谢谢。
一个啥都想整小白白白。。。