爬前叨叨
缘由
今天本来没有打算抓取这个网站的,无意中看到某个微信群有人问了一嘴这个网站,想看一下有什么特别复杂的地方,一顿操作下来,发现这个网站除了卡慢,经常自己宕机以外,好像还真没有什么特殊的…
爬取网址 http://cgk.kxjs.tj.gov.cn/navigation.do
有很明显的分页表示
列表如下
Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do
Request Method: POST
参数说明,里面两个比较重要的 pageNum
页码,numPerPage
每页显示的