Python处理json格式的数据文件（一些坑、一些疑惑）

zoukankan html css js c++ java

Python处理json格式的数据文件（一些坑、一些疑惑）
这里主要说最近遇到的一个问题，不过目前只是换了一种思路先解决了，脑子里仍然有疑惑，只能怪自己太菜。

最近要把以前爬的数据用一下了，先简单的过滤一下，以前用scrapy存数据的时候为了省事也为了用一下它的item exporter，将数据持久化，用了jsonlinesitemexporter，并且导出到一个json文件（现在我有点后悔）。当我读文件，遍历每行，json.loads每行时，没错，惊喜出现了。
def cf_movie(): with open('movies.json', 'r') as fp: for l in fp: mj = json.loads(l)
wstr = mj['name'] f.write(wstr.encode('utf-8')) print 'done'
ValueError: Expecting property name: line 1 column 137 (char 136)

当时就蒙了，难道我导出去json格式，再用json来loads就不行了？不能说我打开文件方式不对吧，而且遍历方式以前一直在用，错误出在loads那里。其实我是有点较真的，导出的文件有TXT格式的，我拿一个试了试，一点错没有。Google百度了一大堆，都是说字符串格式问题，不过这不是我的错，我导出的就是json格式，所以格式不会有错，而且我还专门确认了一下。我表示不服，不过没道理的呀，我试着一行一行读（试几行），可以loads没错。我甚至把遍历文件的三种方式都试了一遍，仍然报错。突然想到当初看scrapy文档时，有讲到json处理大文件不方便，难道是因为我文件是json的问题？我换了一个小的json文件，果然没问题。现在基本确定是json文件大小的问题，不过Python得json模块里没说这个问题。但数据还是要过滤的，我试了一下，我的json文件有大概2万行，设一个flag测读多少行，最高设到8000,9000就报错，然后8500页报错，所以8000是可以的。这样就有一个思路，将文件分解为多个不报错的小文件，然后再解析、过滤。不过我的测试文件才2M左右，我还有400多M的，这样岂不是很刚。想了想我决定先不用这种思路，想到了以前学Python基础的时候无意看到一个函数eval，将字符串转为字典，我的字符串符合字典格式（肯定的），所以我决定用这种方式，目前很流畅，不过前提是你的字符串格式要对。

不过我目前还是没懂为什么loads会报错，用TXT格式文件却不报错，经历了从有想法到放弃，心有疑惑。
查看全文

相关阅读:
结对编程2—单元测试
 个人作业2—英语学习APP案例分析
 结对作业--基于GUI的四则运算生成器
 基于控制台的四则运算
 关于软件工程这门课
 个人作业3——个人总结（Alpha阶段）
结对编程2——单元测试
 个人作业2——英语学习APP案例分析
 结对作业--基于GUI的四则运算生成器
 个人作业一

原文地址：https://www.cnblogs.com/littleseven/p/5998586.html