爬虫基础知识五

zoukankan html css js c++ java

爬虫基础知识五
数据提取方法一

利用json
- 数据交换格式，看起来像python类型（列表，字典）的字符串
- 使用json之前需要导入 import json
- 哪里会返回json的数据
  
  浏览器切换到手机版
  
  抓包app
- json.loads
  
  把json字符串转换为python类型
  
  json.loads(json字符串)
- json.dumps
  
  把python类型转化为json字符串（用于保存数据到文本中）
  
  json.dumps({})
  
  json.dumps(ret,ensure_ascii=False,indent=2)
  
  ensure_ascii:让中文显示成中文
  
  indent:能够让下一级在上一级的基础上空格几个
数据提取方法二

利用xpath
- xpath
  
  一门从html中提取数据的语言
- xpath语法
  
  xpath helper插件：帮助我们从elments中定位数据
  
  1.选择节点（标签）
  
  /html/head/meta:能够选中html下的所有的meta标签
  
  2.//：能够从任意节点开始选择
  
  //li ：当前页面上所有的li标签
  
  /html/head//link ：head下的所有的link标签
  
  3.@符号的用途
  
  选择具体的某个元素：//div[@class='feed']/ul/li
  
  选择class=‘feed’的div下的ul下的li
  
  a/@href：选择a的href的值
  
  4.获取文本：
  
  /a/text()：获取a下的文本
  
  /a//text():获取a下的所有的文本
  
  5.点前
  
  ./a：当前节点下的a标签
- lxml
  
  安装：pip install lxml
  
  使用
  
  from lxml import etree element=etree.HTML("html字符串") element.xpath("")
查看全文

相关阅读:
jmeter（八）断言
 jmeter（七）定时器
 jmeter（六）元件的作用域与执行顺序
 JS 正则详解
 表单验证
 ubuntu16.04安装Grafana
Crontab详细用法-定时任务详解
 ubuntu16.04 安装influxdb，简单使用
 jQuery CSS操作点赞样式
 jQuery文档处理

原文地址：https://www.cnblogs.com/-chenxs/p/11415701.html

爬虫基础知识五

数据提取方法一

利用json

数据提取方法二

利用xpath