zoukankan      html  css  js  c++  java
  • 2019918练手爬虫日记

    今天找了一个国外的网站练手,页面不是很难,就类似于主页面下面有很多子页面,使用火狐浏览器+xpath helper ,一切都像平时那样的随意,一切都很平常,但是在运行的时候将解析出来的数据进行打印,毫不犹豫的给到我了4个【】 ,ok没关系,代码出错了还好,接下来就从界面开始一点点的分析,沃德天,和我开始分析的一模一样,接下来开始质疑是不是js,沃德天,这个渣渣网站根本不是js,每个都是get方式,ok继续分析,沃德天,搞不出来了,那就问别人。

    找了一个爬虫的群然后丢代码,丢问题,丢网站,丢自己尝试过的方式,丢自己目前的思路(这其实是提问的一种艺术)

    里面先来了两个小白,居然质疑我的xpath解析式,我明明取的是@href ,他们居然告诉我要改成//text(),沃德天,谢谢你俩

    后面来了一个应该和我差不多风采的,也许技术比我强那么一点点,但是他觉对没有我帅!

    他使用的是这样的://a[contains(@href,'.aspx')]/@href

    contains()方法,查看了下xpath官方文档

    带图的是这样的,不带图的是下面这样:

    contains()函数当其第一个字符串参数
    包含有第二个字符串参数时返回 true.

    说的太官方了,接着我按照大佬的解析式,去原文查看了下对应的结果,

    发现是不太满意,因为aspx结尾的链接全搞进来了,并不是我想要的那块的链接, 没关系继续研究,

    突然有一股力量冲进了我的大脑,拿着浏览界面的内容去对比下网页源码,很好,看到一个了不得的东西。

     这是浏览界面,也就是xpath helper解析的那个。

    接下来是源码界面:

    完全没有tbody这个鬼东西,沃德天,接下来按照源码去解析,成功拿到需要的东西。

    最后总结一点:看到的不一定就是真的。保持理性的头脑,无时无刻你都是最帅的男人!

  • 相关阅读:
    21. 合并两个有序链表
    169. 多数元素
    关于快速幂取模
    IO帮助类
    XML序列化
    字符操作普通帮助类
    判断是否是手机
    C#命名规范汇总12条
    xamarin android如何将Java.Lang.Object类型转成C#类型
    mqtt服务器apollo的搭建和测试工具paho的使用
  • 原文地址:https://www.cnblogs.com/meipu/p/11543979.html
Copyright © 2011-2022 走看看