一 :
webmagic+Selenium爬取动态页面
(1*)https://blog.csdn.net/panchang199266/article/details/85413746
(2)这个不怎么用 https://blog.csdn.net/qixinbruce/article/details/71105444?utm_source=blogxgwz8
(3*) https://blog.csdn.net/weixin_43719622/article/details/102784141
webmagic 的一些说明:
(1 不太用看) https://www.jianshu.com/p/3015e46cdb42
(2 xsoup 说明) https://github.com/code4craft/xsoup/tree/master
地理服务器网址
米扑代理 https://proxy.mimvp.com/freeopen
西刺代理 https://www.xicidaili.com/ 站大爷 https://www.zdaye.com/dayProxy/ip/319322.html
Java: httpclient 设置代理 https://blog.csdn.net/q1099568207/article/details/93192071 (2) https://www.cnblogs.com/chongyou/p/7808035.html
(3)https://blog.csdn.net/coqcnbkggnscf062/article/details/79565853
webmagic 设置代理 https://www.cnblogs.com/itsoku123/p/10755529.html
webmagic的xpath中last()函数无法使用?
使用爬虫的时候,执行以下语句: page.getHtml().xpath("//div[@id='pager']/a[last()]").links().all()
报错如下:
org.jsoup.select.Selector$SelectorParseException: Could not parse query 'a[last()]': unexpected token at 'last()'
答:
目前应该是不支持last()函数。
参考链接如下:
xpath 文档
https://www.cnblogs.com/songzhenhua/p/10260945.html
(2) https://www.jianshu.com/p/820dcd013993
(3)https://www.runoob.com/xpath/xpath-syntax.html
jsonpath语法
用webmagic 爬虫框架 有些解析的内容就是一个json字符串 需要用到的就是jsonpath类似于xpath
https://blog.csdn.net/weixin_37794119/article/details/81484885