zoukankan html css js c++ java

用python爬校花网

import requests
import re
import hashlib,time

def get_index(url):
    response=requests.get(url)
    if response.status_code == 200:
        return response.text

def parse_index(res):
    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)
    return urls

def get_detail(urls):
    for url in urls:
        if not url.startswith('http'):
            url='http://www.xiaohuar.com%s' %url
        r1=requests.get(url)
        if r1.status_code == 200:
            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)
            if url_list:
                mp4_url=url_list[0]
                # print(mp4_url)
                save(mp4_url)

def save(url):
    print('Download:%s' %url)
    r2=requests.get(url)
    if r2.status_code == 200:
        m=hashlib.md5()
        m.update(url.encode('utf-8'))
        m.update(str(time.time()).encode('utf-8'))
        filename='%s.mp4' %m.hexdigest()
        file_path=r'D:\爬虫视频\%s' % filename
        with open(file_path,'wb') as f:
            f.write(r2.content)

def main():
    for i in range(5):
        res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)
        res2=parse_index(res1)
        get_detail(res2)

if __name__ == '__main__':
    main()

基于上面代码开多线程爬取视频，优化下载速度

# 异步，多线程优化下载速度

import requests
import re
import hashlib,time
from concurrent.futures import ThreadPoolExecutor

p=ThreadPoolExecutor(30)

def get_index(url):
    response=requests.get(url)
    if response.status_code == 200:
        return response.text

def parse_index(res):
    res=res.result()
    urls=re.findall(r'class="items".*?href="(.*?)"',res,re.S)
    # return urls
    for url in urls:
        p.submit(get_detail,url)

def get_detail(urls):
    for url in urls:
        if not url.startswith('http'):
            url='http://www.xiaohuar.com%s' %url
        r1=requests.get(url)
        if r1.status_code == 200:
            url_list=re.findall(r'id="media".*?src="(.*?)"',r1.text,re.S)
            if url_list:
                mp4_url=url_list[0]
                # print(mp4_url)
                save(mp4_url)

def save(url):
    print('Download:%s' %url)
    r2=requests.get(url)
    if r2.status_code == 200:
        m=hashlib.md5()
        m.update(url.encode('utf-8'))
        m.update(str(time.time()).encode('utf-8'))
        filename='%s.mp4' %m.hexdigest()
        file_path=r'D:\爬虫视频\%s' % filename
        with open(file_path,'wb') as f:
            f.write(r2.content)

def main():
    for i in range(5):
        p.submit(get_index,'http://www.xiaohuar.com/list-3-%s.html' %i).add_done_callback(parse_index)
        # res1=get_index('http://www.xiaohuar.com/list-3-%s.html' %i)
        # res2=parse_index(res1)
        # get_detail(res2)

if __name__ == '__main__':
    main()

查看全文

相关阅读:
项目实战从0到1之hive（34）大数据项目之电商数仓（用户行为数据采集）（二）
项目实战从0到1之hive（33）大数据项目之电商数仓（用户行为数据采集）（一）
项目实战从0到1之spark（32）大数据项目之电商数仓（总结）（二）：系统业务数据仓库
 项目实战从0到1之spark（31）大数据项目之电商数仓（总结）（一）：系统业务数据仓库
 LeetCode435. 无重叠区间
 LeetCode392. 判断子序列
 LeetCode455. 分发饼干
 LeetCode128. 最长连续序列
 LeetCode376. 摆动序列
 LeetCode1143. 最长公共子序列

原文地址：https://www.cnblogs.com/shenbuer/p/7824422.html

最新文章
react组件
 react-jsx语法
 Object and 继承
 Array
computed methods watch
vue 指令
 事件
 DOM扩展
 pyqt5中的布局方法
 ubuntu 安装pip3 报错