zoukankan      html  css  js  c++  java
  • python 下载整个站点

    用python实现的下载整个站点工具。

    核心流程非常easy:

    1. 输入站点地址

    2. url。得到响应的内容。

    3. 依据响应的http报文头,假设类型为html, 则从第4步開始运行。

    假设是其他类型,则从第6步运行。

    4. 提取html中href和src属性值。

    5. 将提取到的url,增加下载队列中。假设url已经存在于下载队列中,则丢弃它。

    6. 再然后打开url队列中下一个url。

    7.继续循环运行第2步,知道url队列中的url处理完为止。

    这个步骤看起来非常easy。可是里面非常多细节要处理半天。

    url的各种类型。怎么给后缀有问号的url命名。

    眼下这个程序中有一处问题是:

     1 打开url时,可能会堵塞到一处运行不下去。这个须要研究一下urllib.request 

    2 还有在url队列长度庞大时,多线程下载速度回更快。

    3 英文凝视不知道有多少错误。由于写凝视时。要是用中文,须要不停来回切换输入法,所以就使用英文。

    而眼下的程序部支持多线程,日后再完好。

    假设有同学有兴趣完好,很欢迎。

    源码下载:http://download.csdn.net/detail/jiangxiaoma111/8002631

    个人邮箱:369806726@qq.com

  • 相关阅读:
    Shell脚本
    数据结构 栈 java 自带的数据结构
    桃夭
    得道多助,失道寡助
    采薇
    离骚
    两小儿辩日
    鱼我所欲也
    生于忧患,死于安乐
    曹刿论战
  • 原文地址:https://www.cnblogs.com/zfyouxi/p/5143178.html
Copyright © 2011-2022 走看看