Python爬虫的简易流程 - 走看看

zoukankan html css js c++ java

Python爬虫的简易流程
　　python网络爬虫，其实就是模拟人类浏览网页的行为，并将这种行为自动化的工具。

　　从技术上来说，就是利用python代码发送特定的request请求到Web页面，最后获得response，并将response解析，提取其中的数据并存储起来。

　　开发一个爬虫程序，首先要确定目标。例如爬取拉勾网的python相关职位信息是我们的目标。根据这个目标，我们可以先使用手工的方式，访问拉勾网，搜索python相关职位，从而对如何从页面获取所需信息有一个直观的理解。

　　其次，可以使用浏览器自带的开发者工具、抓包工具，对我们发出的请求和接受到的响应进行分析，找出在访问该URL时，浏览器是如何构建request的，使用了哪些参数等，然后对接收到的response进行分析，分析网址是如何响应我们的请求的，是返回HTML，还是返回JSON格式的数据，还是使用Ajax更新页面内容等，并response为依据定位我们需要的信息是属于什么元素的。

　　最后，我们需要思考在获取到所需信息后，如何存储这些信息，是使用文本的方式进行存储，还是存储在数据库里等等。

　　简而言之，编写一个爬虫的简易流程如下：
1. 确定爬虫目标
2. 构建request（请求）
3. 获得response（响应）
4. 解析response，得到数据
5. 存储数据
查看全文

相关阅读:
SharePoint 2007 Modal Window
SharePoint XSLT Demo
SPGraphviz SharePoint上创建图表，关系图
 ASP.NET 缓存学习
 使用 WSPBuilder 创建List Instance WSP 包
 JQuery 简单选择器
 SharePoint 2007 _spbodyonloadfunctionnames is undefined
SharePoint 2007 List Template WSP
css选择器:firstchild与:firstoftype的区别
 svn has stoped working

原文地址：https://www.cnblogs.com/stonechen/p/10290256.html

Copyright © 2011-2022 走看看