zoukankan      html  css  js  c++  java
  • 爬虫基础知识五

    数据提取方法一

    利用json

    • 数据交换格式,看起来像python类型(列表,字典)的字符串
    • 使用json之前需要导入 import  json
    • 哪里会返回json的数据
      • 浏览器切换到手机版
      • 抓包app
    • json.loads
      • 把json字符串转换为python类型
      • json.loads(json字符串)
    • json.dumps
      • 把python类型转化为json字符串(用于保存数据到文本中)
      • json.dumps({})
      • json.dumps(ret,ensure_ascii=False,indent=2)
        • ensure_ascii:让中文显示成中文
        • indent:能够让下一级在上一级的基础上空格几个

    数据提取方法二

    利用xpath

    • xpath
      • 一门从html中提取数据的语言
    • xpath语法
      • xpath helper插件:帮助我们从elments中定位数据
      • 1.选择节点(标签)
        • /html/head/meta:能够选中html下的所有的meta标签
      • 2.//:能够从任意节点开始选择
        • //li :当前页面上所有的li标签
        • /html/head//link :head下的所有的link标签
      • 3.@符号的用途
        • 选择具体的某个元素://div[@class='feed']/ul/li
          • 选择class=‘feed’的div下的ul下的li
        • a/@href:选择a的href的值
      • 4.获取文本:
        • /a/text():获取a下的文本
        • /a//text():获取a下的所有的文本
      • 5.点前
        • ./a:当前节点下的a标签
    • lxml
      • 安装:pip install lxml
      • 使用
        from lxml import etree
        element=etree.HTML("html字符串")
        element.xpath("")
  • 相关阅读:
    RabbitMQ知识梳理
    feign.FeignException: status 400 reading
    rabbitmq监控之消息确认ack
    Docker 安装redis mysql rabbitmq
    linux搭建GitLab
    杀死服务进程并重新启动,同时监听日志打印
    MySQL数据库连接报错
    idea: unable to import maven project
    线程池ThreadPool实战
    【2-SAT】URAL
  • 原文地址:https://www.cnblogs.com/-chenxs/p/11415701.html
Copyright © 2011-2022 走看看