JSoup好处:可以以选择器的方式获取页面信息,简单方便易学习。
这里分别介绍下以get方式和post方式发送http请求获取网页
1、使用get的方式爬信息,以博客园为爬取网页上的标题等信息,爬取200页,通过观察网页可以发现规律,他们有共同的部分“http://www.cnblogs.com/#p”,在使用JSoup的get的方法时,可以通过拼接上页数得到url。具体如下:
2、结合使用Apache的HttpClient的post请求,通过传参获取网页,通过使用Chrome调试发现请求的url是http://www.cnblogs.com/mvc/AggSite/PostList.aspx,也可以查看到传的参数,传递参数时也需要根据页面对参数进行连接。
Chrome调试
执行代买如下