【Python爬虫】存储格式化数据

zoukankan html css js c++ java

【Python爬虫】存储格式化数据
我们一直使用 print 方法打印爬虫获取的数据，接下来你将把这些数据保存到特定格式文件中。

CSV 格式

Python 提供了标准库 csv 来读写 csv 数据。

新建一个 Python 文件，输入以下代码，并运行。
import csv file = open('movies.csv', 'w', newline='') csvwriter = csv.writer(file) # 写入标题行 csvwriter.writerow(['名称', '年份']) # 写入数据 csvwriter.writerow(['A', '1992']) csvwriter.writerow(['B', '1998']) csvwriter.writerow(['C', '2010']) file.close
使用记事本打开 movies.csv 文件，将运行结果复制到下面的文本框中：

CSV 格式
通常用来存储简单的数据，表格类型数据首选

JSON 格式
通常用来存储「键-值」数据，一般情况下的选择

XML 格式
存储非常复杂的数据格式，大多数情况下用不到
CSV 数据可以使用微软 Office Excel 软件打开。非常多的爬虫数据集都使用 CSV 作为存储格式。

将爬虫数据写入 CSV 文件

至此，你已经基本掌握了编写一个简单爬虫的技能，是不是很简单呢？

from requests_html import HTMLSession import csv session = HTMLSession() file = open('movies.csv', 'w', newline='') csvwriter = csv.writer(file) csvwriter.writerow(['名称', '年份']) links = ['https://movie.douban.com/subject/1292052/', 'https://movie.douban.com/subject/26752088/', 'https://movie.douban.com/subject/1962665/'] for link in links: r = session.get(link) title = r.html.find('#content > h1 > span:nth-child(1)', first=True) year = r.html.find('#content > h1 > span.year', first=True) csvwriter.writerow(title.text, year.text) file.close()

上面代码有一处错误，你发现了吗？

运行结果：
查看全文

相关阅读:
Educational Codeforces Round 10 C. Foe Pairs 水题
 Educational Codeforces Round 10 B. z-sort 构造
 CDOJ 1048 Bob's vector 三分
 Educational Codeforces Round 10 A. Gabriel and Caterpillar 模拟
 第14届电子科大初赛民间盗版部分题目题解
 HDU 5654 xiaoxin and his watermelon candy 离线树状数组区间不同数的个数
 HDU 5653 Bomber Man wants to bomb an Array. dp
HDU 5652 India and China Origins 二分+并查集
 HDU 5651 xiaoxin juju needs help 数学
 HDU 5650 so easy 数学

原文地址：https://www.cnblogs.com/HGNET/p/13299651.html

【Python爬虫】存储格式化数据

CSV 格式

将爬虫数据写入 CSV 文件