zoukankan      html  css  js  c++  java
  • 爬虫-信息组织与提取方法

    信息标记的三种形式:

    XML: 扩展标记语言,用<>,以标签为主,名称,属性等

    JSON:有类型的键值对,可以嵌套使用,可以一个键对应多个值

    YAML:无类型键值对,用缩进的形式表达所属关系,-表示并列关系

    比较

    XML  最早的通用信息标记语言,可扩展性好,但是繁琐;适用于Internet上的信息交互与传递

    JSON  信息有类型,适合程序处理,较XML简洁;适用于移动应用云端和节点的信息通信,无注释

    YAML  信息无类型,文本信息比例较高,可读性好;适用于各类系统的配置文件,有注释易读

    #下面编程提取以上html里的所有链接
    from bs4 import BeautifulSoup
    soup=BeautifulSoup(demo,'html.parser')
    for link in soup.find_all('a'):
        print(link.get('href'))

    返回:

    http://www.icourse163.org/course/BIT-268001
    http://www.icourse163.org/course/BIT-1001870001
    invictus maneo!
  • 相关阅读:
    面向对象三 组合 特殊成员
    面向对象二 成员 嵌套
    面向对象
    模块和包
    异常处理
    os模块和序列化模块
    常用模块一
    常用模块 re模块
    内置函数二
    Algs4-2.2.14归并有序的队列
  • 原文地址:https://www.cnblogs.com/rayshaw/p/8570957.html
Copyright © 2011-2022 走看看