zoukankan      html  css  js  c++  java
  • 文本操作


    os的使用

    上下文管理器


    自定义一个上下文管理器

    class File():
    
        def __init__(self, filename, mode):
            self.filename = filename
            self.mode = mode
    
        def __enter__(self):
            print("entering")
            self.f = open(self.filename, self.mode)
            return self.f
    
        def __exit__(self, *args):
            print("will exit")
            self.f.close()
    

    装饰器下的上下文管理器

    from contextlib import contextmanager
    
    @contextmanager
    def my_open(path, mode):
        f = open(path, mode)
        yield f
        f.close()
    
    调用:
    with my_open('out.txt', 'w') as f:
        f.write("hello , the simplest context manager")
    

    编码问题

    背景

    计算机只能处理数字,因此处理文本必须转换成数字才行,最早的计算机在设计时采用8比特作为一个字节 8bit >> 1 bytes
    而计算机采用的是二进制,所以一个字节可以表示256种不同的状态。每一个状态对应一个符号,
    从 0000 0000 -1111 1111
    美国人发明了计算机,同时制定了编码,以对应英文字符和二进制的关系,这就是ASCII码,一共规定了128个字符的编码
    128个字符表示英文足够了,但是中文有超过十万个汉字,一个字节只能表示256种符号,所以,中国使用的是GB2312作为简体中文的常见编码形式,用两个字节表示一个汉字, 256*256=65536个符号,
    但是各个国家的编码是不一样的,为了能够各国跨语言,跨平台的进行文本转换处理,就有了Unicode
    Unicode被称为统一码,万国码
    通常是两个字节,
    ASC码转Unicode码就是在之前加0
    应为在ASC中英文字母只需要一个字节就足够了,但是Unicode是两个,这样存储很浪费,
    这样为了节省空间,开发了一些中间格式的字符集,这就是通用转换格式 Unicode transformation format( UTF) 常见的有utf-8。utf-16

  • 相关阅读:
    过滤xml文件内容
    python接口自动化之通过接口模拟一通电话的多段对话
    浅谈python性能与优化
    监控之Linux系统监控命令大全
    mysql windows 5.7 安装版下载地址
    liunx 安装jdk
    下载文件,后台执行没问题,没下载文件
    spring boot thymeleaf
    spring security文档地址
    redis 可视化工具下载地址
  • 原文地址:https://www.cnblogs.com/cizao/p/11481778.html
Copyright © 2011-2022 走看看