zoukankan html css js c++ java

python异步框架asyncio的使用

python对异步编程有原生的支持，即asyncio标准库，使用异步IO模型可以节约大量的IO等待时间，非常适合于爬虫任务。

1.基本用法

import time
import asyncio
import aiohttp  # 用异步方式获取网页内容


urls = ['https://www.baidu.com'] * 400

async def get_html(url, sem):
    async with(sem):    
        async with aiohttp.ClientSession() as session:  
            async with session.get(url) as resp:  
                html = await resp.text()             
                            
def main():
    loop = asyncio.get_event_loop()                # 获取事件循环
    sem = asyncio.Semaphore(10)                    # 控制并发的数量
    tasks = [get_html(url, sem) for url in urls]   # 把所有任务放到一个列表中
    loop.run_until_complete(asyncio.wait(tasks))   # 激活协程
    loop.close()                                   # 关闭事件循环


if __name__ == '__main__':
    start = time.time()
    main()
    print(time.time()-start)   # 5.03s

2.多进程+协程

如果想进一步加快爬取速度，考虑到python多线程的全局锁限制，可以采用多进程+协程的方案：

import time
import asyncio
import aiohttp  # 用异步方式获取网页内容
from multiprocessing import Pool

all_urls = ['https://www.baidu.com'] * 400

async def get_html(url, sem):
    async with(sem):    
        async with aiohttp.ClientSession() as session:  
            async with session.get(url) as resp:  
                html = await resp.text()             
                            
def main(urls):
    loop = asyncio.get_event_loop()                # 获取事件循环
    sem = asyncio.Semaphore(10)                    # 控制并发的数量
    tasks = [get_html(url, sem) for url in urls]   # 把所有任务放到一个列表中
    loop.run_until_complete(asyncio.wait(tasks))   # 激活协程
    loop.close()                                   # 关闭事件循环


if __name__ == '__main__':
    start = time.time()
    p = Pool(4)
    for i in range(4):
        p.apply_async(main, args=(all_urls[i*100:(i+1)*100],))     
    p.close() 
    p.join()  
    print(time.time()-start)   # 2.87s

可以看出来多进程已经加快了爬取速度，具体加速效果跟机器CPU配置相关。

查看全文

相关阅读:
操作系统中线程中所需内存来源哪里
 【转】在单片机（MCU）上运行Qt
【转】Qt QtCreator 所有版本官方下载地址
 emwin之BUTTON控件显示位图和流位图出现卡顿延迟的情况
 【转】8段数码管引脚图,8段数码管动态显示详解
 emwin之窗口ID的唯一性
 KEIL之工程单独文件属性修改
 emwin之在中断服务程序中创建窗口的结果
 emwin之创建窗口与窗口回调函数的句柄是一致的
 【转】C语言堆栈入门——堆和栈的区别

原文地址：https://www.cnblogs.com/qxcheng/p/12525531.html