网站爬取-案例四：知乎抓取(COOKIE登录抓取个人中心)(第一卷) - 走看看

zoukankan html css js c++ java

网站爬取-案例四：知乎抓取(COOKIE登录抓取个人中心)(第一卷)

有很多网站是需要先登录，才可以浏览的，所以我们这个案例主要讲解如何以登陆的方式抓取这类的页面

第一：http本身是一种无状态的协议

这样两个请求没有任何关系，像淘宝这样的网站需要记录用户的每次请求，来看看有状态的请求

看一下COOKIE本地存储

用户名密码可以存到本地，所以安全性不高，这样就出现了SESSION机制，根据用户名和密码生成SESSIONID，根据SESSIONID请求取出用户要的内容

登陆时产生，退出时清空看下登陆时

三个字段为ID，加密字段，失效日期，看下登录后的控制台

说到这里我们不得说一说浏览器请求的几种状态：

这些状态要分析完成之后才可以模拟登陆先来看下知乎这个目标网站

我先用别人的试用用户名和密码做个实验：登陆是爬取知乎的第一步

查看全文

相关阅读:
day67——前后端传输数据的编码格式、ajax传json数据/传文件、批量插入
 day66——choices参数、MTV/MVC模型、三种创建多对多的方式、AJAX
day65——聚合函数、分组查询、F与Q查询、django开事务、orm查询优化
 dayⅢ、基本数据类型+运算符作业
 dayⅡ：编程语言+变量+垃圾回收制
 dayⅡ：变量作业
 dayⅠ：计算机基础知识
 ⅩⅥ：无参装饰器
 ⅩⅤ：作业
 ⅩⅤ：名称空间与作用域

原文地址：https://www.cnblogs.com/woshiruge/p/8452605.html

Copyright © 2011-2022 走看看