zoukankan      html  css  js  c++  java
  • 写一个简单的爬虫(博客)

              写一个简单的爬虫,用来爬去一个网站上的html,css这些静态文件,Python3.0实现,re模块写正则表达式来匹配页面上的js和css文件名,使用os模块创建存放文件的文件夹,代码如下:

            先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录,core(获取HTML的代码和工具代码文件,get_html.py,tools.py)

           1. start.py主要是运行主程序的,代码实现如下:

             

           2. get_html.py代码实现如下:

             

           3. tools.py主要实现文件写操作,代码如下:

            

           4.settings.py主要实现目标目录的拼接,代码如下:

           

           5.extra.py代码实现如下:

            

           

            

  • 相关阅读:
    day35
    Audio Unit 基础
    Audio Unit 介绍
    音频PCM编码
    iOS libyuv
    FFmpeg AVPacket
    FFmpeg AVCodec
    FFmpeg编译iOS静态库
    iOS-Cocoapods更新不及时
    iOS-读取txt文件中文乱码
  • 原文地址:https://www.cnblogs.com/wangguoyuan-09/p/7048037.html
Copyright © 2011-2022 走看看