易班易喵喵的话题连续打卡活动,人工统计实在太麻烦
写了一个爬虫用于统计 也算是给自己python爬虫的入门练习
因为易喵喵的话题只有手机客户端可以看到,模拟器登录易班,任意访问一个易喵喵话题,抓包
可以看到是get请求 有四个参数
page和size显然表示页数和每页动态的数量
topicId是话题的唯一标识
返回的是json格式,能获取到用户易班ID,用户昵称,文字内容,图片链接,点赞数,评论数等等信息
不过还有一个问题 为了不用每次爬取都手动抓包获取loginToken输入,还要再实现一步登录操作
抓登录请求
密码被加密了
我这里使用selenium框架来操控浏览器 就可以跳过js分析那一步 emm偷个懒
验证码也可以一并搞定了 一步到位
源码已经上传到我的github