multiprocessing.dummy

zoukankan html css js c++ java

multiprocessing.dummy

昨晚发现放在腾讯云主机上通过crontab定时执行用以爬去斗鱼分类页面数据的爬虫在执行的时候速度特别慢，于是想通过多线程来提高效率。
打开浏览器，键入关键字“python 多线程”，发现大多数内容都是使用threading、Queue这些看起来很笨重的实例。不过直到multiprocessing.dummy出现在眼前之后，一切都变得辣么简单。
multiprocessing.dummy 大杀器
multiprocessing.dummy 是multiprocessing的一个子库，二者的不同之处就是前者应用于线程后者主要应用于进程，而它们实现并行化操作的关键则是map函数。
以我的两段代码为例：
上边这段是之前运行在云主机速度真的跟爬似的代码，通过Directory_url这个地址，获取到页面中所有的标签，并获取到它们的’href’，再逐条获取每个链接中的内容，获取想要的东西，最终完成入库工作。所有的一切都看似按部就班哈。在我的笔记本上做测试，完成所有2032条数据的爬取共耗时140.5s(好特么慢=。=)。
但是在加入multiprocessing.dummy之后，真的是有飞一般的感觉：
同样通过Directory_url这一地址获取页面中所有标签，然后通过pool.map(g, gameurl)完成’href’值的获取，最后再用一次pool.map(ginfo,gamedata)完成所有页面内容的提取和入库。再一次测试，只需要33.1s即可完成。
所以说，如果你的爬虫也要处理类似的过程，不妨尝试一下multiprocessing。

null

查看全文

相关阅读:
Windows文件系统过滤驱动开发教程(2)
setTimeout 和 setInterval 计时的区别
 网页栅格系统研究（1）：960的秘密
 JS验证控制输入中英文字节长度（input、textarea等）
require(),include(),require_once()和include_once()之间的区别
 CSS：浅谈自适应宽度圆角按钮实现
 CSS选择器总结
 数据库“长连接”与“短连接”
网页栅格系统研究（3）：粒度问题
 网页栅格化研究（2）：蛋糕的切法

原文地址：https://www.cnblogs.com/wumingxiaoyao/p/7047858.html