python爬取并下载麦子学院所有视频教程 - 走看看

zoukankan html css js c++ java

python爬取并下载麦子学院所有视频教程
一、主要思路
1. scrapy爬取是有课程地址及名称
2. 使用multiprocessing进行下载
3. 就是为了爬点视频，所以是简单的代码堆砌
4. 想而未实行，进行共享的方式
二、文件说明
itemsscray字段

piplines.py存储数据库

setting.py scrapy配置需要注意的是DEFAULT_REQUEST_HEADERS的设置，需要模拟登录

mz.py是主要爬虫都是基本的爬虫功能，css+xpath+正则

start_urls = ["http://www.maiziedu.com/course/web/", ]只爬了web的，可根据需要进行，或者全部，

本想不存储进数据库，直接在mz.py进行下载，但考虑到位会影响scrapy原有的性能，单独进行下载

down.py 使用multiprocessing进行下载原本想着动态监听scrapy在数据库的中的结果，想实现进程的共享，调试多次还出现问题所以直接用Pool.Map（）这种比较粗暴的方式，

mz.json现存取进json，但考虑到来回操作json文件，影响效率，所以改用数据库

三、结果

源码 :https://git.oschina.net/getsai/mzSpider.git

视频地址：https://yunpan.cn/crjXKLGnkpzPk 访问密码 6c15
来自为知笔记(Wiz)
查看全文

相关阅读:
Android开发过程中遇到的问题集合（—）
Android各种屏幕分辨率（VGA、HVGA、QVGA、WQVGA、WVGA、FWVGA）具体解释
 Android中Context具体解释 ---- 你所不知道的Context
HttpClient
StretchDIBits使用方法
 int a[3];中a+1与&a+1差别 -- C
把质量控制工作往前推进（1）——安装sonarqube
24点经典算法
 linux服务之udevd
java实现第六届蓝桥杯星系炸弹

原文地址：https://www.cnblogs.com/yinsolence/p/5140297.html

Copyright © 2011-2022 走看看