zoukankan      html  css  js  c++  java
  • DAY4-Python学习笔记

    1.XML:

    操作XML有两种方法:DOM和SAX

    DOM:把整个XML读入内存,解析为,因此占用内存大,解析慢,优点是可以任意遍历树的节点

    SAX:是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件(优先考虑SAX)

    SAX解析XML要三个函数:start_elementend_elementchar_data:

    <a href="/">python</a>

    start_element:在读取<a href="/">时;

    char_data:在读取python时;

    end_element:在读取</a>

    from xml.parsers.expat import ParserCreate
    
    class DefaultSaxHandler(object):
        def start_element(self, name, attrs):
            print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))
    
        def end_element(self, name):
            print('sax:end_element: %s' % name)
    
        def char_data(self, text):
            print('sax:char_data: %s' % text)
    
    xml = r'''<?xml version="1.0"?>
    <ol>
        <li><a href="/python">Python</a></li>
        <li><a href="/ruby">Ruby</a></li>
    </ol>
    '''
    handler = DefaultSaxHandler()
    parser = ParserCreate()  
    parser.returns_unicode = True  #当设置为True时,返回的所有element名称和char_data都是unicode,处理国际化更方便。
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    parser.Parse(xml)

    生成XML:拼接字符串

    L = []
    L.append(r'<?xml version="1.0"?>')
    L.append(r'<root>')
    L.append(encode('some & data'))
    L.append(r'</root>')
    return ''.join(L)

    2.HTMLParser:

    HTML本质上是XML的子集,HTMLParser用来解析HTML

    from HTMLParser import HTMLParser
    from htmlentitydefs import name2codepoint
    
    class MyHTMLParser(HTMLParser):
    
        def handle_starttag(self, tag, attrs):
            print('<%s>' % tag)
    
        def handle_endtag(self, tag):
            print('</%s>' % tag)
    
        def handle_startendtag(self, tag, attrs):
            print('<%s/>' % tag)
    
        def handle_data(self, data):
            print('data')
    
        def handle_comment(self, data):
            print('<!-- -->')
    
        def handle_entityref(self, name):
            print('&%s;' % name)
    
        def handle_charref(self, name):
            print('&#%s;' % name)
    
    parser = MyHTMLParser()
    parser.feed('<html><head></head><body><p>Some <a href="#">html</a> tutorial...<br>END</p></body></html>')

    3.图形界面:

    PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了。PIL功能非常强大,但API却非常简单易用。

    Tkinter:Python自带的库是支持Tk的Tkinter,Tk是一个图形库,支持多个操作系统,使用Tcl语言开发;Tk会调用操作系统提供的本地GUI接口,完成最终的GUI。

    4.网络编程

    TCP编程:

    Socket:网络编程的一个抽象概念。一个Socket表示“打开了一个网络链接”,而打开一个Socket需要知道目标计算机的IP地址和端口号,再指定协议类型即可

    大多数连接都是可靠的TCP连接;主动发起连接的叫客户端,被动响应连接的叫服务器。

    创建一个基于TCP连接的Socket:

    # 导入socket库:
    import socket
    # 创建一个socket:
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)  #AF_INET指定使用IPv4协议,IPv6为AF_INET6
    # 建立连接:
    s.connect(('www.sina.com.cn', 80))  #参数是一个tuple,包含地址和端口号。80端口是Web服务的标准端口

    SMTP服务是25端口,FTP服务是21端口,小于1024的是Internet标准服务的端口

    # 发送数据:
    s.send('GET / HTTP/1.1
    Host: www.sina.com.cn
    Connection: close
    
    ')
    
    # 接收数据:
    buffer = []
    while True:
        # 每次最多接收1k字节:
        d = s.recv(1024) #recv(max)方法,一次最多接收指定的字节
        if d:
            buffer.append(d)
        else:
            break
    data = ''.join(buffer)
    
    # 关闭连接:
    s.close()

    把HTTP头和网页分离一下,把HTTP头打印出来,网页内容保存到文件:

    header, html = data.split('
    
    ', 1)
    print header
    # 把接收的数据写入文件:
    with open('sina.html', 'wb') as f:
        f.write(html)

    服务器:

    服务器进程首先要绑定一个端口并监听来自其他客户端的连接。如果某个客户端连接过来了,服务器就与该客户端建立Socket连接,随后的通信就靠这个Socket连接了。

    所以,服务器会打开固定端口(比如80)监听,每来一个客户端连接,就创建该Socket连接。由于服务器会有大量来自客户端的连接,所以,服务器要能够区分一个Socket连接是和哪个客户端绑定的。一个Socket依赖4项:服务器地址、服务器端口、客户端地址、客户端端口来唯一确定一个Socket。

    但是服务器还需要同时响应多个客户端的请求,所以,每个连接都需要一个新的进程或者新的线程来处理,否则,服务器一次就只能服务一个客户端了。

    接收客户端连接,把客户端发过来的字符串加上Hello再发回去:

    #创建一个基于IPv4和TCP协议的Socket
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM) #
    # 监听端口:
    s.bind(('127.0.0.1', 9999))
    s.listen(5) #listen()方法开始监听端口
    print 'Waiting for connection...'
    
    #永久循环来接受来自客户端的连接
    while True:
        # 接受一个新连接:
        sock, addr = s.accept() #accept()会等待并返回一个客户端的连接
        # 创建新线程来处理TCP连接:
        t = threading.Thread(target=tcplink, args=(sock, addr))
        t.start()

    建新线程(或进程)来处理每个连接:,连接建立后,服务器首先发一条欢迎消息,然后等待客户端数据,并加上Hello再发送给客户端。如果客户端发送了exit字符串,就直接关闭连接。

    def tcplink(sock, addr):
        print 'Accept new connection from %s:%s...' % addr
        sock.send('Welcome!')
        while True:
            data = sock.recv(1024)
            time.sleep(1)
            if data == 'exit' or not data:
                break
            sock.send('Hello, %s!' % data)
        sock.close()
        print 'Connection from %s:%s closed.' % addr

    客户端程序:

    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    # 建立连接:
    s.connect(('127.0.0.1', 9999))
    # 接收欢迎消息:
    print s.recv(1024)
    for data in ['Michael', 'Tracy', 'Sarah']:
        # 发送数据:
        s.send(data)
        print s.recv(1024)
    s.send('exit')
    s.close()

    UDP编程:是面向无连接的协议

     

  • 相关阅读:
    win10安装scrapy
    win10安装 pandas
    scrapy 启动失败,scrapy startproject test 出错 'module' object has no attribute 'OP_NO_TLSv1_1
    Mac环境下安装运行splash
    通过软链接解决目录空间不足的问题
    CentOS 图形界面的关闭与开启
    shell+crontab 实时服务进程监控重启
    Linux下查看yun rpm dpkg 软件是否安装成功的方法
    ubuntu设置root登录ssh
    Ubuntu的中文乱码问题
  • 原文地址:https://www.cnblogs.com/xussi/p/9058109.html
Copyright © 2011-2022 走看看