python学习：python文件中空格和换行符的捕获和文本文件的转存

zoukankan html css js c++ java

python学习：python文件中空格和换行符的捕获和文本文件的转存
0. 背景

之前公司的项目中，需要在嵌入式系统中实现一个http的网页端内容，由于项目历史遗留问题，公司是采用的将html文件转成c语言头文件的方式，每次修改页面端都需要从新编译一下程序，非常的繁琐。

虽然繁琐，但是因为历史遗留问题，历史遗留项目都采用这种方式做后面的升级维护。

入乡随俗嘛，用python写了一个html和h文件互转的小程序，程序编写的过程和原理很简单，以后有时间再另外发帖。（TODO）在此不做深入讨论。

程序也很好用，但是最近将公司自己写的程序使用gitblit本地仓库的形式进行版本管理后，发现一个致命的问题。就是每次转换成的h文件和公司历史遗留的文件进行git diff 时候，满屏都是不一样的地方。这咋利于版本控制和验证呢？

1. 问题分析

究竟是哪里不同呢？后来发现原来我写的转换脚本，和公司惯用的html to c脚本有着严重不同的地方在于：

公司旧版本程序是：

我转换的程序是：

git diff 比对文件的时候是会比对空格的，而且是引号的位置不同，所以就是大段的内容是不一样的。

这怎么办呢？

这时候正则匹配就派上用场了。

2. 寻找方法

上述问题其实总结起来就是：“引号位置放错了”。那么怎么知道应该在哪里放置引号呢？博主想到的笨办法就是在把每行的内容单独拎出来，然后分成三个部分，空格+内容+空格的方式，然后在组合成空格+引号 +内容+引号+空格的方式。然后实际上就是提取出来了内容两边的东西。

talk is cheap , show codes.

假设我们有一个 test.html 文件：
1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"> 5 <title>Document</title> 6 </head> 7 <body> 8 <h1>Hello World</h1> 9 </body> 10 </html>
我们读取它的时候，要注意，每行实际在末尾有一个换行符

现在我们编写一个 r.py 脚本
1 import re 2 with open('test.html') as f: 3 lines = f.readlines() # 获取行列表信息 4 print(lines) # 打印行信息
我们在ipython中执行是这样的：
1 In [31]: %run r.py 2 ['<!DOCTYPE html> ', '<html lang="en"> ', '<head> ', ' <meta charset="UTF-8" 3 > ', ' <title>Document</title> ', '</head> ', '<body> ', ' <h1>Hello Wor 4 ld</h1> ', '</body> ', '</html>']
2,3,4 表示的是每行的信息，和我们上面的 test.html 文件是一致的。

将上面的列表整理一下：
1 # 整理列表 2 [ 3 '<!DOCTYPE html> ', 4 '<html lang="en"> ', 5 '<head> ', 6 ' <meta charset="UTF-8"> ', 7 ' <title>Document</title> ', 8 '</head> ', '<body> ', 9 ' <h1>Hello World</h1> ', 10 '</body> ', '</html>' 11 ]
可以看出，我们就是逐行打印了文件内容而已：

拿第6行举例，我们需要匹配到和并在合适的地方加上引号，程序就over了。

查阅正则内容（菜鸟教程Python正则表达式章节），可知道 s 可以匹配任意空白字符。

于是，我们用行6字符串测试一下我们的处理代码对不对：
In [54]: s = re.search(r'^(s*)(.*)(s*)$',' "<title>Document</title>" ') In [55]: s.group() Out[55]: ' "<title>Document</title>" ' In [56]: s.group(0) Out[56]: ' "<title>Document</title>" ' In [57]: s.group(1) Out[57]: ' ' In [58]: s.group(2) Out[58]: '"<title>Document</title>"' In [59]: s.group(3) Out[59]: ' '
测试和之前的想法是一致的。括弧括起来的内容被捕获出来。

3. 解决问题

由此，上述问题基本已经找到解决的头绪，那么定下代码编写的流程：
1. 读取读文件
2. 行列表信息行处理
3. 读取写文件
4. 写入处理后的行列表信息
于是编写代码：
1 import re # 引入正则库 2 with open('test.html') as f: # 读取读文件 3 lines = f.readlines() # 读取行信息 4 r = r'^(s*)(.*)(s*)$' # 正则 5 lines = [re.search(r,l).group(1) +'"'+ re.search(r,l).group(2)+'\n"'+re.search(r,l).group(3) for l in lines] # 处理行信息 6 with open('test.h','w+') as f2: # 读取写文件 7 f2.writelines(lines) # 写入行信息
其中第4行就是我们处理行信息的过程，这里用了一个列表推导式

所谓列表推导式，就是一种for循环的简写形式，可以从一个列表，经过一定的变换，快速生成一个列表。例如：
In[1] : a = [1,2,3,4] In[2] : print(a) Out[1] : [1,2,3,4] In[3] : print([i for i in a]) Out[2] : [1,2,3,4] In[4] : print([i*2+1 for i in a]) Out[3] : [3,5,7,9]
也就是，前面第4行的程序实际上就是将lines的数据单个处理，在捕获内容中加入一些我们需要的字符，比如是双引号，然后组成了新的列表。写入到文件中。

问题解决。

4. 总结

这个测试脚本的重点就在于正则的捕获，正则捕获在文本文件、字符串处理中使用广泛，需要不断积累和总结，方能领悟其中的妙用。
查看全文

相关阅读:
一张图搞定OAuth2.0
OAuth2.0的refresh token
ACCESS_TOKEN与FRESH_TOKEN
关于token和refresh token
如何解决前后端token过期问题
 对外开放的接口验证方式
 python api接口认证脚本
 Python Thrift 简单示例
 整数中1出现的次数（从1到n整数中1出现的次数）
连续子数组的最大和

原文地址：https://www.cnblogs.com/yqmcu/p/9943305.html

python学习：python文件中空格和换行符的捕获和文本文件的转存

0. 背景

1. 问题分析

2. 寻找方法

3. 解决问题

4. 总结