zoukankan      html  css  js  c++  java
  • python爬虫之解析网页的工具pyquery


    主要是对http://www.cnblogs.com/zhaof/p/6935473.html这篇博客所做的笔记
    有疑惑可以去看这篇文章

    from pyquery import PyQuery as py


    初始化的三种方式
    doc = py(html)
    doc = py(url="",encoding = 'utf-8')
    doc = py(filename = "index.html")


    利用css选择器
    content = doc()-->括号中加入相关selector
    .class 类名
    #id id名
    * 全部
    element 标签名
    element1,element2 所有含element1和element2标签名的节点
    element1 element2 在element1 中的 elenemt2标签
    [element] 属性为element
    [name = value] name属性为value的节点
    注意:当紧挨着时,表示是并,也就是同时满足


    查找元素 ——可以使用css选择器

    对于子元素:children() find() ——可以使用css选择器
    对于父元素:parent() parents()
    对于兄弟元素:siblings()

    获取信息
    获取属性
    pyquery对象.attr(属性名)
    pyquery对象.attr.属性名
    获取文本
    在很多时候我们是需要获取被html标签包含的文本信息,通过.text()就可以获取文本信息
    获取html
    我们通过.html()的方式可以获取当前标签所包含的html信息
    remove
    有时候我们获取文本信息的时候可能并列的会有一些其他标签干扰,
    这个时候通过remove就可以将无用的或者干扰的标签直接删除,从而方便操作

    只待江流汲海,万木朝东
  • 相关阅读:
    2020-2021-1 20201217《信息安全专业导论》第十一周学习总结
    python模拟进程状态
    博客文章汇总
    20201225 张晓平《信息安全专业导论》第十三周学习总结
    网站设计
    gpg
    20201225 张晓平《信息安全专业导论》第十二周学习总结
    wire shark
    ssh
    成绩调节
  • 原文地址:https://www.cnblogs.com/wanmudong/p/8073334.html
Copyright © 2011-2022 走看看