zoukankan      html  css  js  c++  java
  • 寒假自学进度13

    完成了前4个spark基础实验 通过视频教程 学习了retrying模块的使用 处理cookie请求 xpath等爬虫的学习 

    - HTTP:超文本传输协议
    - 以明文的形式传输
    - 效率更高,但是不安全
    - HTTPS:HTTP + SSL(安全套接字层)
    - 传输之前数据先加密,之后解密获取内容
    - 效率较低,但是安全

    - json.loads
    - 把json字符串转化为python类型
    - `json.loads(json字符串)`

    - json.dumps
    - 把python类型转化为json字符串
    - json.dumps({})
    - json.dumps(ret1,ensure_ascii=False,indent=2)
    - ensure_ascii :让中文显示成中文
    - indent :能够让下一行在上一行的基础上空格

    - xpath
    - 一门从html中提取数据的语言
    - xpath语法
    - xpath helper插件:帮助我们从`elements`中定位数据
    - 1. 选择节点(标签)
    - `/html/head/meta` :能够选中html下的head下的所有的meta标签
    - 2. `//` :能够从任意节点开始选择
    - `//li` :当前页面上的所有的li标签
    - `/html/head//link` :head下的所有的link标签
    - 3. `@符号的用途`
    - 选择具体某个元素:`//div[@class='feed']/ul/li`
    - 选择class='feed'的div下的ul下的li
    - `a/@href` :选择a的href的值
    - 4. 获取文本:
    - `/a/text()` :获取a下的文本
    - `/a//text()` :获取a下的所有的文本
    - 5. 当前
    - `./a` 当前节点下的a标签

  • 相关阅读:
    FTP服务总结
    编译安装hpptd2.4
    搭建DNS服务
    定制简单的Linux系统
    建立私有CA
    关于/boot文件的修复实验
    shell脚本进阶(二)
    datetime模块日期转换和列表sorted排序
    linux操作命令
    Python 中的特殊双下划线方法
  • 原文地址:https://www.cnblogs.com/zzstdruan1707-4/p/12310177.html
Copyright © 2011-2022 走看看