python抓取网页过程 - 走看看

zoukankan html css js c++ java

python抓取网页过程
准备过程

1.抓取网页的过程

准备好http请求（http request）->提交对应的请求->获得返回的响应（http response）->获得网页源码

2.GET还是POST

3.Headers（可选）

在某些情况下，直接抓取是被禁止的，此时需要提供一个Headers来告诉对方我不是机器人

例如：
1 def getHtml(url): 2 header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'} 3 request=urllib2.Request(url,None,header) 4 response=urllib2.urlopen(request) 5 text=response.read() 6 return text
4.Post Data（可选）

某些情况下是需要登录某网站的，此时需要提交帐号密码之类的，则需要使用Post Data

在IE中称为request body，chrome中成为Post Data

5.Cookie（可选）

一般来说，模拟登陆的时候往往会涉及到Cookie

6.其他（代理，最大超时时间timeout）

内容分析

1.对于html源码，调用BeautifulSoup库

2.正则表达式

本文参考了http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

可以说是一个简化版，想看的可以去看原文

PS：博主提供了很多计算机方面的资料，读后帮助很大，有兴趣的可以过去看看
查看全文

相关阅读:
Dubbo学习系列之六（微服务架构实战）
流式计算（二）-Kafka Stream
流式计算（一）-Java8Stream
Dubbo学习系列之七（分布式订单ID方案）
Dubbo学习系列之十六（ELK海量日志分析框架）
什么情况下不能使用 Java 泛型
 Java Stream 流如何进行合并操作
 可别在代码中写那么多魔法值了，脑壳疼！
你知道如何自动保存 Spring Boot 应用进程号吗
 Spring 官方发起Spring Authorization Server 项目

原文地址：https://www.cnblogs.com/wswang/p/4435093.html

Copyright © 2011-2022 走看看