zoukankan      html  css  js  c++  java
  • 信息提取的一般方法

    •  完整的解析信息的标记形式,再提取关键信息。
                XML JSON YAML
                需要标记解析器:例如:bs4库的标签树遍历
      • 优点:信息解析准确
      • 缺点:提取过程繁琐,速度慢。
    • 无视标记形式,直接搜索关键信息。
                搜索
                对信息的文本查找函数即可
      • 优点:提取过程简洁,速度较快。
      • 缺点:提取结果准确性与信息内容相关。
    • 融合方法:结合形式解析与搜索方法,提取关键信息。
                XML JSON YAML 搜索
                需要标记解析器及文本查找函数
     
    • 实例:提取HTML中所有的URL链接
      • 思路:1.搜索到所有<a>标签
                           2.解析<a>标签格式,提取href后的链接内容
                    
     
    北音执念i
  • 相关阅读:
    python day04 列表增删改查
    python day03 字符串操作
    python day02 格式化输出逻辑运算
    面试题
    python基础练习题(一)
    编译安装PostgreSQL
    Python函数初识二
    Python函数初识
    笨办法学Python
    笨办法学Python
  • 原文地址:https://www.cnblogs.com/beiyin/p/9129668.html
Copyright © 2011-2022 走看看