日期
# 详细格式时间:datetime
# 注意到datetime是模块,datetime模块还包含一个datetime类.
from datetime import datetime ,timedelta,timezone
#获得当前时间
# 返回当前日期和时间,其类型是datetime。
current=datetime.now()
print(type(current),current)
# 自定义时间,不带时区,需要自己设置
current=datetime(2019,11,11,11,11,11,1111)
print(current)
# timestamp:把 1970年1月1日 00:00:00 UTC+00:00时区的时刻称为epoch time,记为0(1970年以前的时间timestamp为负数),
# 当前时间就是相对于epoch time(把epoch的时区转换为当地时区后做差)的秒数,称为timestamp。
# timestamp是一个浮点数。如果有小数位,小数位表示毫秒数。
# timestamp 是与时区无关的变量。
# datetime表示的时间需要时区信息才能确定一个特定的时间,否则只能视为本地时间。
# 如果要存储datetime,最佳方法是将其转换为timestamp再存储,因为timestamp的值与时区完全无关。
dt=current.timestamp()
print(dt)
#转换为当地时区
print(datetime.fromtimestamp(dt))
#转换为0时区标准时间。
print(datetime.utcfromtimestamp(dt))
# str<==>datetime
current = datetime.strptime('2019-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')
print(current)
date_str=current.strftime('%Y-%I-%d %H:%M:%S %A')
print(date_str)
# 日期运算
current=current+timedelta(days=2,hours=5,minutes=4)
print(current)
# 时区转换
# 利用带时区的datetime,通过astimezone()方法,可以转换到任意时区。
#获得UTC 0
# 构建时区:timezone(timedelta(hours=8))
utc_dt = datetime.utcnow().replace(tzinfo=timezone.utc)
print(utc_dt)
#转换为UTC 8
bj_dt = utc_dt.astimezone(timezone(timedelta(hours=8)))
print(bj_dt)
# 不是必须从UTC+0:00时区转换到其他时区,任何带时区的datetime都可以正确转换
# 转换为UTC 9
tokyo_dt = bj_dt.astimezone(timezone(timedelta(hours=9)))
print(tokyo_dt)
Collections
# namedtuple是一个函数,它用来创建一个自定义的tuple对象,并且规定了tuple元素的个数,
# 并可以用属性而不是索引来引用tuple的某个元素。
from collections import namedtuple, deque,OrderedDict,ChainMap,Counter
Point=namedtuple('Point',['x','y'])
point=Point(2,4)
print(point.x,point.y)
# 验证创建的Point对象是tuple的一种子类:
print(isinstance(point,tuple))
# 使用list存储数据时,按索引访问元素很快,但是插入和删除元素就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。
# deque是为了高效实现插入和删除操作的双向列表,适合用于队列和栈
# deque实现list的append()和pop(),appendleft()和popleft(),这样就可以非常高效地往头部添加或删除元素。
my_list=deque([1,2,3,4])
my_list.append(5)
my_list.appendleft(0)
print(my_list)
print(my_list.popleft(),my_list.pop())
print(my_list)
# 使用dict时,Key是无序的。在对dict做迭代时,我们无法确定Key的顺序。
# 如果要保持Key的顺序,可以用OrderedDict
# OrderedDict的Key会按照插入的顺序排列,不是Key本身排序
my_dict=dict([('a', 1), ('b', 2), ('c', 3)])
print(my_dict)
my_dict=OrderedDict([('a', 1), ('b', 2), ('c', 3)])
print(my_dict)
# ChainMap可以把一组dict串起来并组成一个逻辑上的dict。
# ChainMap本身也是一个dict,但是查找的时候,会按照顺序在内部的dict依次查找。
# combine_dict=ChainMap(dict_0, dict_1, dict_1)
# 顺序:dict_0->dicy_1->dict_2
# value=combine_dict['key']
# Chainmap 环境参数,默认参数,命令行参数:组合可实现多参数输入
# 解析命令行参数
import os, argparse
# 解析对象
parser = argparse.ArgumentParser()
# python file.py -u bob => user=bob
parser.add_argument('-u', '--user')
parser.add_argument('-c', '--color')
namespace = parser.parse_args()
# 构建参数字典 (v非空)
command_line_args = { k: v for k, v in vars(namespace).items() if v }
# 环境变量
# user=bob python file.py
# 环境参数字典
env_args_dict=os.environ
# Counter是一个简单的计数器,例如,统计字符出现的个数:
counter=Counter()
for ch in 'fuck you leather man!':
counter[ch]=counter[ch]+1
print(counter)
Hash校验
# 摘要算法又称哈希算法、散列算法。它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制的字符串表示)。
# 摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest,目的是为了发现原始数据是否被人篡改过。
import hashlib
# MD5算法:生成结果是固定的128 bit字节,通常用一个32位的16进制字符串表示。
md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?'.encode('utf-8'))
# 多次添加消息
md5.update('fuck'.encode('UTF-8'))
print(md5.hexdigest())
#sha1 :结果是160 bit字节,通常用一个40位的16进制字符串表示。
sha1 = hashlib.sha1()
sha1.update('how to use sha1 in '.encode('utf-8'))
# 多次添加消息
sha1.update('python hashlib?'.encode('utf-8'))
print(sha1.hexdigest())
# 在计算哈希的时候,不能仅针对原始输入计算,需要增加一个salt来使得相同的输入也能得到不同的哈希,
# 加salt的哈希就是:计算一段message的哈希时,根据不通口令计算出不同的哈希。要验证哈希值,必须同时提供正确的口令。
# Hmac算法针对所有哈希算法都通用,无论是MD5还是SHA-1
import hmac
import random
# 传入的key和message都是bytes类型,str类型需要首先编码为bytes
msg=b'fuck'
key=(''.join([chr(random.randint(48, 122)) for i in range(20)])).encode('utf-8')
#h=hmac.new(key,msg,digestmod='MD5')
h=hmac.new(key,msg,digestmod='sha1')
# 多次添加消息
h.update('lether man'.encode('utf-8'))
print(h.hexdigest())
Base64 转换
# Base64是一种用64个字符来表示任意二进制数据的方法。
# 首先,准备一个包含64个字符的数组,对二进制数据进行处理,每3个字节一组,一共是3x8=24bit,划为4组,每组正好6个bit,2^6=64
# 得到4个数字作为索引,然后查表,获得相应的4个字符,就是编码后的字符串。
# Base64编码会把3字节的二进制数据编码为4字节的文本数据,长度增加33%,
# 如果要编码的二进制数据不是3的倍数,最后会剩下1个或2个字节,
# Base64用x00字节在末尾补足后,再在编码的末尾加上1个或2个=号,表示补了多少字节,解码的时候,会自动去掉。
import base64
msg=b'fuck you leather man!'
print(msg)
code_msg=base64.b64encode(msg)
print(code_msg)
decode_mag=base64.b64decode(code_msg)
print(decode_mag)
# 由于标准的Base64编码后可能出现字符+和/,在URL中就不能直接作为参数,
# 所以又有一种"url safe"的base64编码,其实就是把字符+和/分别变成-和_
code_msg=base64.urlsafe_b64encode(msg)
print(code_msg)
decode_mag=base64.urlsafe_b64decode(code_msg)
print(decode_mag)
#由于=字符也可能出现在Base64编码中,但=用在URL、Cookie里面会造成歧义,所以,很多Base64编码后会把=去掉
#因为Base64是把3个字节变为4个字节,=号为尾部补全内容,所以,Base64编码的长度永远是4的倍数,因此,需要加上=把Base64字符串的长度变为4的倍数,就可以正常解码了
struct 二进制转换
# struct模块来解决bytes和其他二进制数据类型的转换
import struct
# struct的pack函数把任意数据类型变成bytes
# >表示字节顺序是big-endian,也就是网络序,
# ? :bool 1
# c :char 1 b :unsigned char 1
# h :short 2 H :unsigned short 2
# i :int 4 I :unsigned int 4
# l :long 4 L :unsigned long 4
# f :float 4
# d :double 8
byte_data=struct.pack('>IH', 102400,99)
# unpack把bytes变成相应的数据类型:
data=struct.unpack('>IH', byte_data)
print(data)
Contex
# Python的with语句允许我们非常方便地使用资源,而不必担心资源没有关闭
# 实际上,任何对象,只要正确实现了上下文管理,就可以用于with语句
# with语句不仅可以管理文件,还可以管理锁、连接等等
# import threading
# lock = threading.lock()
# with lock:
# #执行一些操作
# pass
# 实现上下文管理是通过__enter__和__exit__这两个方法实现的
# with语句中的[as variable]是可选的,如果指定了as variable说明符,则variable是上下文管理器expression调用__enter__()函数返回的对象。
# 所以,f并不一定就是expression,而是expression.__enter__()的返回值
# def __enter__(self):
# print('Begin')
# return self
#
# 分别为异常类型、异常信息和堆栈
# def __exit__(self, exc_type, exc_value, traceback):
# if exc_type:
# print('Error')
# else:
# print('End')
# @contextmanager 实现上下文管理
from contextlib import contextmanager
# 自定义类
class MyClass(object):
def __init__(self,name):
self.__name=name
def tell(self):
return self.__name
def close(self):
print('closed')
# 管理器
@contextmanager
def manager(name):
# yield之前的代码等同于上下文管理器中的__enter__函数。
print('begin')
# yield的返回值等同于__enter__函数
try:
yield MyClass(name)
except:
pass
# 等同于上下文管理器的__exit__函数
print('end')
# print('begin')==> print(man.tell())==> print('end')
with manager('fuck you') as man:
print(man.tell())
# 我们希望在某段代码执行前后自动执行特定代码,也可以用@contextmanager实现
@contextmanager
def manager():
print('begin')
yield
print('end')
# print('begin')==> print('do something')==> print('end')
with manager() :
print('do something')
# 如果一个对象没有实现上下文,我们就不能把它用于with语句。可以用closing()来把该对象变为上下文对象。
# 它的作用就是把任意对象变为上下文对象,并支持with语句。
# closeing上下文管理器仅使用于具有close()方法的资源对象
from contextlib import closing
# print(myclass.tell())===>myclass.close()
with closing(MyClass('hello world')) as myclass:
print(myclass.tell())
import itertools
# count()会创建一个无限的迭代器,
# 所以上述代码会打印出自然数序列,根本停不下来,
counts=itertools.count(2)
print(type(counts))
for item in counts:
print(item)
# repeat()负责把一个元素无限重复下去,不过如果提供第二个参数就可以限定重复次数
repeats=itertools.repeat('msg',10)
print(type(repeats))
for item in repeats:
print(item)
# 通过takewhile()等函数根据条件判断来截取出一个有限的序列
counts=itertools.takewhile(lambda x:x<15,counts)
print(list(counts))
# chain()可以把一组迭代对象串联起来,形成一个更大的迭代器
for item in itertools.chain('fuck','you'):
print(item)
def pi(n):
counts=list(map(lambda x:4/((-1)**(1+x)*(2*x-1)),itertools.takewhile(lambda x:x<n+1, itertools.count(1))))
return sum(counts)
assert 3.04 < pi(10) < 3.05
assert 3.13 < pi(100) < 3.14
assert 3.140 < pi(1000) < 3.141
assert 3.1414 < pi(10000) < 3.1415
print('ok')
Urllib
from urllib import request, parse
# 模拟浏览器发送GET请求,就需要使用Request对象,通过往Request对象添加HTTP头,我们就可以把请求伪装成浏览器。
req = request.Request('http://www.douban.com/')
# 添加Http请求头
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.16 Safari/537.36 Edg/79.0.309.12')
with request.urlopen(req) as f:
print('Status:', f.status, f.reason)
# 获取Http请求头
for k, v in f.getheaders():
print('%s: %s' % (k, v))
print('Data:
', f.read().decode('utf-8'))
htmls = f.read().decode('utf-8')
# 操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。
# SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件
# 使用SAX解析XML事件是start_element,end_element和char_data
# SAX模式
from xml.parsers.expat import ParserCreate
class DefaultSaxHandler(object):
# 解析起始标签<a href="/python"> ===> name=a ,attrs: {'href': '/python'}
def start_element(self, name, attrs):
print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))
# 解析终止标签
def end_element(self, name):
print('sax:end_element: %s' % name)
# 解析内容
def char_data(self, text):
print('sax:char_data: %s' % text)
xml = r'''<?xml version="1.0"?>
<ol>
<li><a href="/python">Python</a></li>
<li><a href="/ruby">Ruby</a></li>
</ol>
'''
# 绑定事件
handler = DefaultSaxHandler()
parser = ParserCreate()
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
# 开始解析,碰到一个标签就开始调用相应函数,嵌套解析内容
parser.Parse(xml)
# 解析html
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
# # 解析起始标签<a href="/python"> ===> name=a ,attrs: {'href': '/python'}
def handle_starttag(self, tag, attrs):
print('starttag-----------------------------------')
print('<%s>' % tag)
# 解析终止标签
def handle_endtag(self, tag):
print('endtag-----------------------------------')
print('</%s>' % tag)
def handle_startendtag(self, tag, attrs):
print('startendtag-----------------------------------')
print('<%s/>' % tag)
# 解析内容
def handle_data(self, data):
print('data-----------------------------------')
print(data)
# 解析注释
def handle_comment(self, data):
print('commit-----------------------------------')
print('<!--', data, '-->')
def handle_entityref(self, name):
print('entityref-----------------------------------')
print('&%s;' % name)
def handle_charref(self, name):
print('charref-----------------------------------')
print('&#%s;' % name)
parser = MyHTMLParser()
# feed()方法可以多次调用。碰到一个标签就开始调用相应函数,嵌套解析内容
parser.feed(htmls)