zoukankan      html  css  js  c++  java
  • 写一个简单的爬虫(博客)

              写一个简单的爬虫,用来爬去一个网站上的html,css这些静态文件,Python3.0实现,re模块写正则表达式来匹配页面上的js和css文件名,使用os模块创建存放文件的文件夹,代码如下:

            先在当前目录创建一个目录spider, 分别创建子目录bin(程序开始运行的start.py),conf(信息配置setting.py)目录,core(获取HTML的代码和工具代码文件,get_html.py,tools.py)

           1. start.py主要是运行主程序的,代码实现如下:

             

           2. get_html.py代码实现如下:

             

           3. tools.py主要实现文件写操作,代码如下:

            

           4.settings.py主要实现目标目录的拼接,代码如下:

           

           5.extra.py代码实现如下:

            

           

            

  • 相关阅读:
    阿里巴巴java开发手册学习
    策略模式
    windows常用技巧
    nginx学习
    Tomcat入门
    ThreadPoolTaskExecutor的简单使用
    linux服务器测试性能
    HAProxy1.5.x tcp example
    Haproxy开启日志
    Fix rpmdb: Thread died in Berkeley DB library
  • 原文地址:https://www.cnblogs.com/wangguoyuan-09/p/7048037.html
Copyright © 2011-2022 走看看