2021.4.20 清洗和组织数据 - 走看看

zoukankan html css js c++ java

2021.4.20 清洗和组织数据
一、今日学习内容

清洗和组织数据

至此，获得了一段目标的 HTML 代码，但还没有把数据提取出来，接下来在 PyCharm 中输入以下代码：
for item in data:

result={

'title':item.get_text(),

'link':item.get('href')

}

print(result)
代码运行结果如图 20 所示：

图 20（点此查看高清大图）

首先明确要提取的数据是标题和链接，标题在＜a＞标签中，提取标签的正文用 get_text() 方法。链接在＜a＞标签的 href 属性中，提取标签中的 href 属性用 get() 方法，在括号中指定要提取的属性数据，即 get(＇href＇)。

从图 20 中可以发现，文章的链接中有一个数字 ID。下面用正则表达式提取这个 ID。需要使用的正则符号如下:

d匹配数字
+匹配前一个字符1次或多次

在 Python 中调用正则表达式时使用 re 库，这个库不用安装，可以直接调用。在 PyCharm 中输入以下代码:
import re

for item in data:

result={

"title":item.get_text(),

"link":item.get('href'),

'ID':re.findall('d+',item.get('href'))

}

print(result)
运行结果如图 21 所示：

图 21

这里使用 re 库的 findall 方法，第一个参数表示正则表达式，第二个参数表示要提取的文本。
查看全文

相关阅读:
Git与GitHub关联
 利用GitHub上的SimpleMemory装扮博客园
 第5课第4节_Binder系统_C程序示例_测试与总结
 第5课第1节_Binder系统_C程序示例_框架分析
 第4课第4节_Android灯光系统_源码分析_电池灯
 第4课第3节_Android灯光系统_编写HAL_lights.c
第2课第1节_Android灯光系统_led_class驱动
 第4课第1节_Android灯光系统_总体框架
 Android 优秀博客
 4.5节_Android硬件访问服务使用反射

原文地址：https://www.cnblogs.com/wmdww/p/14905340.html

Copyright © 2011-2022 走看看