zoukankan      html  css  js  c++  java
  • 爬虫性能相关并发方案

    在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢
    1.利用线程实现并发(io密集型用--http请求是io密集型)
    线程开多了性能降低,线程上下文切换耗时多,可以实现并发,但是,请求发送出去后和返回之前,中间时期线程空闲
    (1)编写方式一(多线程直接返回处理)

    from concurrent.futures import ThreadPoolExecutor   #线程池
    import requests
    
    #线程函数,把任务url放进来执行
    def task(url):
        response = requests.get(url)
        print(url,response)
    
    
    pool = ThreadPoolExecutor(7)                          #声明一个线程池
    url_list = [
        'http://www.cnblogs.com/',
        'http://huaban.com/favorite/beauty/',
        'http://www.bing.com',
        'http://www.zhihu.com',
        'http://www.sina.com',
        'http://www.baidu.com',
        'http://www.autohome.com.cn',
    ]
    for url in url_list:
        pool.submit(task,url)                             #把请求都放到调用线程函数里
    
    pool.shutdown(wait=True)

    (2)编写方式二(多线程+回调函数处理)
    第一个请求来第一个url过来执行task下载任务,当下载页面完成之后会有response,返回之后会执行add_done_callback的done方法,done方法里的参数就有task函数执行后返回过来的值

    from concurrent.futures import ThreadPoolExecutor    #线程池
    import requests
    
    #线程函数,把任务url放进来下载页面
    def task(url):
        response = requests.get(url)
        return response
    
    #执行函数执行task方法返回过来的值
    def done(future,*args,**kwargs):
        response = future.result()                      #result是task执行后返回过来的结果
        print(response.status_code,response.content)
    
    pool = ThreadPoolExecutor(7)                         #声明一个线程池
    url_list = [
        'http://www.cnblogs.com/',
        'http://huaban.com/favorite/beauty/',
        'http://www.bing.com',
        'http://www.zhihu.com',
        'http://www.sina.com',
        'http://www.baidu.com',
        'http://www.autohome.com.cn',
    ]
    for url in url_list:
        v = pool.submit(task,url)                        #把请求url都放到调用线程函数task里接收返回值赋值v
        v.add_done_callback(done)                        #v.add_done_callback执行done函数
    
    pool.shutdown(wait=True)

    2.利用进程实现并发(计算密集型用进程)
    可以实现并发,但是,请求发送出去后和返回之前,中间时期进程空闲
    (1)编写方式一(多进程接返回处理)

    from concurrent.futures import ProcessPoolExecutor   #进程池
    import requests
    
    #进程函数,把任务url放进来执行
    def task(url):
        response = requests.get(url)
        print(url,response)
    
    
    pool = ProcessPoolExecutor(2)                          #声明一个进程池
    url_list = [
        'http://www.cnblogs.com/',
        'http://huaban.com/favorite/beauty/',
        'http://www.bing.com',
        'http://www.zhihu.com',
        'http://www.sina.com',
        'http://www.baidu.com',
        'http://www.autohome.com.cn',
    ]
    for url in url_list:
        pool.submit(task,url)                             #把请求都放到调用线程函数里
    
    pool.shutdown(wait=True)

    (2)编写方式二(多进程+回调函数处理)

    '''
    第一个请求来第一个url过来执行task下载任务,当下载页面完成之后会有response,返回之后会执行add_done_callback的done方法,
    done方法里的参数就有task函数执行后返回过来的值
    '''
    
    from concurrent.futures import ProcessPoolExecutor    #线程池
    import requests
    
    #线程函数,把任务url放进来下载页面
    def task(url):
        response = requests.get(url)
        return response
    
    #执行函数执行task方法返回过来的值
    def done(future,*args,**kwargs):
        response = future.result()                      #result是task执行后返回过来的结果
        print(response.status_code,response.content)
    
    pool = ProcessPoolExecutor(7)                         #声明一个线程池
    url_list = [
        'http://www.cnblogs.com/',
        'http://huaban.com/favorite/beauty/',
        'http://www.bing.com',
        'http://www.zhihu.com',
        'http://www.sina.com',
        'http://www.baidu.com',
        'http://www.autohome.com.cn',
    ]
    for url in url_list:
        v = pool.submit(task,url)                        #把请求url都放到调用线程函数task里接收返回值赋值v
        v.add_done_callback(done)                        #v.add_done_callback执行done函数
    
    pool.shutdown(wait=True)

    通过上述代码均可以完成对请求性能的提高,对于多线程和多进行的缺点是在IO阻塞时会造成了线程和进程的浪费,所以异步IO会是首选:
    (1)asyncio模块
    方式一:asyncio只支持TCP请求,不支持Http请求

    import asyncio
    #单线程执行两个任务
    
    #task任务
    @asyncio.coroutine
    def task():
        print('before...task......')             #先执行这一句
        yield from asyncio.sleep(5)                #等待五秒
        print('end...task......')                #
    
    
    tasks = [task(), task()]                        #列表定义两个任务
    
    #把两个任务放到这里
    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.gather(*tasks))
    loop.close()

    方式二:asyncio通过自己封装http数据包一个线程完成异步io操作,支持Http请求

    import asyncio
    
    @asyncio.coroutine
    def task(host, url='/'):
        print('开始请求',host,url)
        reader, writer = yield from asyncio.open_connection(host, 80)                        #创建连接
    
        request_header_content = "GET %s HTTP/1.0
    Host: %s
    
    " % (url, host,)   #http请求格式
        request_header_content = bytes(request_header_content, encoding='utf-8')
    
        writer.write(request_header_content)
        yield from writer.drain()
        text = yield from reader.read()
        print('获取结果',host, url, text)
        writer.close()
    
    tasks = [
        task('www.cnblogs.com', '/xixi/'),
        task('dig.chouti.com', '/pic/show?nid=4073644713430508&lid=10273091')
    ]
    
    loop = asyncio.get_event_loop()
    results = loop.run_until_complete(asyncio.gather(*tasks))
    loop.close()

    方式三:asyncio+aiohttp
    安装pip3 install aiohttp

    import aiohttp                      #aiohttp模块:封装Http数据包
    import asyncio                      #异步功能
    
    @asyncio.coroutine
    def fetch_async(url):
        print(url)
        response = yield from aiohttp.request('GET', url)                  #用aiohttp去执行
        print(url, response)
        response.close()
    
    
    tasks = [fetch_async('http://www.baidu.com/'), fetch_async('http://www.sina.com/')]
    
    event_loop = asyncio.get_event_loop()
    results = event_loop.run_until_complete(asyncio.gather(*tasks))
    event_loop.close()

    方式四:asyncio+requests
    安装pip3 install requests

    import asyncio
    import requests                            #requests模块:封装Http数据包
    
    @asyncio.coroutine
    def task(func, *args):
        print(func,args)
        loop = asyncio.get_event_loop()
        future = loop.run_in_executor(None, func, *args)    #执行requests.get('http://www.cnblogs.com/xixi/')
        response = yield from future
        print(response.url, response.content)
    
    #tasks列表里的函数作为参数传到task函数里func参数
    tasks = [
        task(requests.get, 'http://www.cnblogs.com/xixi/'),
        task(requests.get, 'http://dig.chouti.com/pic/show?nid=4073644713430508&lid=10273091')
    ]
    
    loop = asyncio.get_event_loop()
    results = loop.run_until_complete(asyncio.gather(*tasks))
    loop.close()

    (2)gevent模块:
    方式一:gevent依赖greenlet协程模块+异步IO
    安装pip3 install greenlet
    安装pip3 install gevent

    import gevent
    import requests
    
    from gevent import monkey
    monkey.patch_all()                                                     #把内部找到所有原来socket变为异步IO的socket
    
    def task(method, url, req_kwargs):
        print(method, url, req_kwargs)
        response = requests.request(method=method, url=url, **req_kwargs)    #封装
        print(response.url, response.content)
    
    #发送请求
    gevent.joinall([
        gevent.spawn(task, method='get', url='https://www.python.org/', req_kwargs={}),
        gevent.spawn(task, method='get', url='https://www.yahoo.com/', req_kwargs={}),
        gevent.spawn(task, method='get', url='https://github.com/', req_kwargs={}),
    ])

    方式二:gevent(协程池,最多发多少个请求)+requests
    安装pip3 install greenlet
    安装pip3 install gevent

    import gevent
    import requests
    
    from gevent import monkey
    monkey.patch_all()                                                      #把内部找到所有原来socket变为异步IO的socket
    
    def task(method, url, req_kwargs):
        print(method, url, req_kwargs)
        response = requests.request(method=method, url=url, **req_kwargs)    #封装
        print(response.url, response.content)
    
    #发送请求(协程池控制最大协程数量)
    from gevent.pool import Pool
    pool = Pool(5)                                                           #最多向远程发5个
    gevent.joinall([
        pool.spawn(task, method='get', url='https://www.python.org/', req_kwargs={}),
        pool.spawn(task, method='get', url='https://www.yahoo.com/', req_kwargs={}),
        pool.spawn(task, method='get', url='https://www.github.com/', req_kwargs={}),
    ])

    方式三:
    安装pip3 install grequests

    import grequests
    #里面帮助下载执行
    request_list = [
        grequests.get('https://www.python.org', timeout=0.001),
        grequests.get('http://www.baidu.com/'),
        grequests.get('http://httpbin.org/status/500')
    ]
    
    #执行并获取响应列表
    response_list = grequests.map(request_list,size=5)
    print(response_list)

    (3)Twisted
    (4)Tornado

    from tornado.httpclient import AsyncHTTPClient
    from tornado.httpclient import HTTPRequest
    from tornado import ioloop
    
    COUNT = 0
    def handle_response(response):
        global COUNT
        COUNT -= 1
        if response.error:
            print("Error:", response.error)
        else:
            print(response.body)
            # 方法同twisted
            # ioloop.IOLoop.current().stop()
        if COUNT == 0:
            ioloop.IOLoop.current().stop()
    
    def func():
        url_list = [
            'http://www.baidu.com',
            'http://www.bing.com',
        ]
        global COUNT
        COUNT = len(url_list)
        for url in url_list:
            print(url)
            http_client = AsyncHTTPClient()
            http_client.fetch(HTTPRequest(url), handle_response)      #回调函数
    
    
    ioloop.IOLoop.current().add_callback(func)
    ioloop.IOLoop.current().start() # 死循环

    以上均是Python内置以及第三方模块提供异步IO请求模块,使用简便大大提高效率,而对于异步IO请求的本质则是【非阻塞Socket】+【IO多路复用】
    3.自定义异步IO模块(自定义socket客户端)
    1)标准HTTP请求本质,阻塞

    import socket
    sk = socket.socket()
    #1.连接
    sk.connect(('www.baidu.com',80,))                                   #IO阻塞
    print('连接成功了...')
    
    #2.连接成功发送HTTP这种格式的数据(响应头和响应体用两个换行分割)
    #sk.send(b'GET / HTTP/1.0
    Host:www.baidu.com
    
    ')                           #GET请求
    sk.send(b'POST / HTTP/1.0
    Host:www.baidu.com
    
    k1=v1&k2=v2')      #POST请求
    
    #3.等待着服务端响应
    data = sk.recv(8096)                                                  #IO阻塞
    print(data)
    
    #4.关闭连接
    sk.close()

    2)HTTP请求本质,非阻塞

    import socket
    
    sk = socket.socket()
    sk.setblocking(False)                   #设置非阻塞
    #1.连接
    try:
        sk.connect(('www.baidu.com',80,)) #IO阻塞
        print('连接成功了...')
    except BlockingIOError as e:
        print(e)
    
    #2.连接成功发送消息
    sk.send(b'GET / HTTP/1.0
    Host:www.baidu.com
    
    ')
    #sk.send(b'POST / HTTP/1.0
    Host:www.baidu.com
    
    k1=v1&k2=v2')
    
    #3. 等待着服务端响应
    data = sk.recv(8096)                    #IO阻塞
    print(data)
    
    #关闭连接
    sk.close()

    3)自定义非阻塞select+socket完成异步IO,通过一个线程向很多地方把请求发出去

    import socket
    import select                                 #监听多个socket对象
    
    #定义HttpRequest类封装了socket和主机名字
    class HttpRequest:
        def __init__(self,sk,host,callback):
            self.socket = sk
            self.host = host
            self.callback = callback
        def fileno(self):
            return self.socket.fileno()
    
    #定义HttpResponse类分割请求头请求体
    class HttpResponse:
        def __init__(self,recv_data):
            self.recv_data = recv_data
            self.header_dict = {}
            self.body = None
            #执行initialize函数进行请求体请求头分割
            self.initialize()
        def initialize(self):
            headers, body = self.recv_data.split(b'
    
    ', 1)
            self.body = body
            header_list = headers.split(b'
    ')
            for h in header_list:
                h_str = str(h,encoding='utf-8')
                v = h_str.split(':',1)
                if len(v) == 2:
                    self.header_dict[v[0]] = v[1]
    
    #定义一个类AsyncRequest
    class AsyncRequest:
        def __init__(self):
            self.conn = []                      #conn等于空列表,有值代表接收数据,全部接收完清空跳出循环
            self.connection = []                #connection等于空列表,有值代表没连接成功,每连接成功一个删除一个值,用于检测是否已经连接成功,
    
        #发送连接请求
        def add_request(self,host,callback):        #host,callback是每个主机名的回调函数
            try:
                sk = socket.socket()                 #创建socket对象进行连接
                sk.setblocking(0)                    #设置非阻塞
                sk.connect((host,80,))               #ip+默认端口(向某个地址发请求)
            except BlockingIOError as e:
                pass
            request = HttpRequest(sk,host,callback)  #创建request对象序列化HttpRequest类把socket和主机名字加进去
            self.conn.append(request)                #把request放到conn
            self.connection.append(request)          #把request放到connection
    
        #连接成功发送消息:执行run之前conn和connection已经有HttpRequest对象,这个对象里有socket和主机名字
        def run(self):
            while True:
                rlist,wlist,elist = select.select(self.conn,self.connection,self.conn,0.05)   #死循环把conn和connection放进去
                #每一个w是HttpRequest对象,只要能循环到,表示socket和服务器端已经连接成功
                for w in wlist:
                    print(w.host,'连接成功...')
                    #发送数据
                    tpl = "GET / HTTP/1.0
    Host:%s
    
    " %(w.host,)
                    w.socket.send(bytes(tpl,encoding='utf-8'))
                    self.connection.remove(w)                                   #从connection里把w删除掉
                #r是HttpRequest对象,等待接收返回值,r里有conn和主机名
                for r in rlist:
                    recv_data = bytes()                                         #recv_data默认等于空的字节
                    #循环一直接收返回数据
                    while True:
                        try:
                            chunck = r.socket.recv(8096)                        #接收返回数据
                            recv_data += chunck                                 #每接收一次让recv_data加等于一个chunck
                        except Exception as e:                                  #如果出异常代表接收完了跳出循环
                            break
                    #print(r.host,recv_data)                                    #recv_data是返回的数据
                    response = HttpResponse(recv_data)                          #创建response对象实例化HttpResponse类把recv_data传进去
                    r.callback(response)                                        #接收response的返回
                    r.socket.close()                                            #终止http请求
                    self.conn.remove(r)                                         #select不需要监听请求发没发
                if len(self.conn) == 0:                                         #判断conn是否等于0,如果等于0代表全部执行完跳出循环
                    break
    
    def f1(response):
        print('保存到文件',response.header_dict)
    
    def f2(response):
        print('保存到数据库', response.header_dict)
    
    #定义列表
    url_list = [
        {'host':'www.baidu.com','callback': f1},        #给host用f1函数
        {'host':'cn.bing.com','callback': f2},          #给host用f2函数
        {'host':'www.sina.com','callback': f2},         #给host用f2函数
    ]
    
    req = AsyncRequest()                                  #创建req对象实例化AsyncRequest()把url_list所有元素加进去
    for item in url_list:                                 #循环url_list这个列表
        req.add_request(item['host'],item['callback'])    #add_request把列表内容传到AsyncRequest()里,会为每一个创造一个socket对象进行连接
    
    req.run()
  • 相关阅读:
    PHP学习笔记(一)
    切记数据类型的最大范围
    (转)女程序员的生活,真苦涩。
    向模态窗体传递参数和获取返回值
    在ASP.NET 中实现单点登录(单域名)
    错误:访问IIS 元数据库失败
    Page.registerstartupscript方法用法介绍
    IIS安装配置的问题
    GridView的双击等几个事件
    解决IIS不能启动,提示服务器没有及时响应启动或控制请求
  • 原文地址:https://www.cnblogs.com/xixi18/p/10966267.html
Copyright © 2011-2022 走看看