1.正则表达式
有时候提取到的数据不规整,需要用正则来匹配所需要展现出来的数据
学习链接:https://www.cnblogs.com/-chenxs/p/11352172.html,https://www.cnblogs.com/-chenxs/p/11352409.html
2.对数据的切分处理
有时候提取出来的数据字符串两边的内容或一边的内容不需要,或者去除字符串两边的空格、一些转移字符;
我们可以使用字符串切分或者strip()方法来对字符串两边的内容进行切割操作
3.format()方法
对字符串格式化的一种方式
比如我们爬虫对url处理,生成url列表的时候,要使url中一个参数的值按照某种规律变化时就会使用到format
url="http://www.xxx.com/a/b={}" url.format(1) #那么b=1 url.format(i) for i in range(1,10) #打印出b=1-9的九条url
4.列表推导式
帮助我们快速的生成包含一堆数据的列表
>>>[i+10 for i in range(10)] [10,11,12,...19] >>>["10月{}日".format(i) for i in range(1,10)] ["10月1日","10月2日",..."10月9日"]
5.字典推导式
帮助我们快速的生成包含一堆数据的字典
>>>{i+10:i for i in range(10)} {10:0,11:1,12:2,...19:9} >>>{"a{}".format(i):10 for i in range(3)} {"a0":10,"a1":10,"a2":10}
6.三元运算符
赋值操作 if 条件 else 另外的值
---- if 后面的条件成立,就把if前面的结果赋值给a,否则把else后面的结果赋值给a
a=10 if 2>1 else 20 # a=10 a=10 if 2<1 else 20 # a=20