今日整理webmagic的知识点。
所有的选择器返回的值都是seclectable的类型的值。
遇到的问题:
1.使用css选择器来找自己想要的东西的时候,要根据属性不同来切换选择器的标识,例如
“.”后面跟的是class,"#"跟的是id
原网页
第一次使用的是“.”
得到的值是null,而下面那个通过xpath选择器的得到了正确的内容。将“.”改为“#”后,得到的如下
正确的到了我们所需的内容。如果想得到多个我们所需要的东西的话,我们可以使用".all()"这个后缀,效果如下:
我们可以看到,虽然显示的不多,但是滚动条很长啊,这个暂且这样。
按条件进一步查找我们想要的,比如,带“京东”字的a标签,就该这样啊,“.regex(".*京东.*")”加上这个之后,就可以了。
得到的结果如下:
这就是正则表达式的体现形式,
以下是选择器的分类与使用:
今日成果:
这些是抓取的数据,虽然没啥用。