Python爬虫学习（一） - 走看看

zoukankan html css js c++ java

Python爬虫学习（一）
一、了解爬虫
- 通过程序自动的获取web页面数据
主要步骤：
1. 发送request
2. 获得response
3. 解析数据
4. 保存数据
二、Request和Response

1、Request：浏览器发送消息给网址所在的服务器

包含内容：
- 　　请求方式：post(请求的数据存放在头部)和get(请求的数据在url中)
- 请求url--网址：协议、存有该资源的主机ip地址、主机资源的具体地址，如目录和文件名
- 请求头：包含请求时的头部信息，如：User-Agent，host，cookies等
- 请求体：携带的数据
2、Response：服务器接收到浏览器发来的请求，根据请求，做相应的处理，传回给浏览器

包含内容：
- 第一行：状态行
- 响应状态
- 响应头
- 响应体：请求的资源内容
三、如何解析数据

1、Json解析

2、正则表达式处理

3、Beautiful Soup解析处理

4、PyQuery解析处理

5、XPath解析处理
查看全文

相关阅读:
用CSV文件读写数据的两种方式(转)
利用PHP生成二维码(转)
PHP实现微博的同步发送(转)
php实现网页标签补全方法(转)
php 下载远程图片的几种方法(转)
Masonry+Infinite-Scroll实现无刷新无分页完美瀑布流(转)
分享一个jQuery动态网格布局插件：Masonry(转)
js判断图片是否显示
 PHP写入文件用file_put_contents代替fwrite优点多多(转)
PHP 更高效的字符长度判断方法(转)

原文地址：https://www.cnblogs.com/cola-1998/p/12827192.html

Copyright © 2011-2022 走看看